数据 GDELT 资源

GDELT项目

2018/02/28 11:50:18

GDELT(Global Database of Events, Language, and Tone)全球事件,语言及情绪数据库是谷歌旗下的一个项目,该项目监控全球一百多个国家的新闻媒体,并利用自然语言处理技术对每篇新闻进行实体识别、情感分析、事件关系分析等标注。

可参考知乎:

你怎么看待国外媒体热衷于报道中国负面新闻的事?

The GDELT Project

谷歌GDELT数据说明

疙瘩汤 - 提供深度舆情分析策略

https://en.wikipedia.org/wiki/Global_Database_of_Events,_Language,_and_Tone

使用GDELT 2和PHP来分析世界!

关于实验数据gdlet的下载

GDELT and the Problem of Decontextualized Data

awesome-public-datasets

从最后一篇文章来看,GEDLT是没有上下文的,只是对新闻语篇进行了标注,本质上GDELT是一个标注集。2.0版有网址,可以获取。

可以运用的方向:舆情分析、新闻语言研究等

遇到的困难:数据集过大、1.0版压缩文件超过4个GB,处理困难。用Google的Big Query价格过高。

可能的解决方法:分解数据集,将某个国家或年份的新闻作为研究对象。