我爱收藏--网文收藏: 向量 Vector 的空间: Google Reader的数据收集

2010年3月23日星期二

向量 Vector 的空间: Google Reader的数据收集

Google Reader的数据收集

我的直觉告诉我，Google Reader的共享和Like功能对个性化的文章推荐将产生很大的影响。最近我在爬google reader的数据，主要是通过如下的feed链接：

http://www.google.com/reader/public/atom/user/06601636036055060713/state/com.google/broadcast

这里首先要特别感谢一下kuber,他向我提供了这个链接。

这个链接中给出了用户06601636036055060713所share的文章，同时对每篇文章给出了like它的用户id。所以我们只要从这个链接出发，就可以通过广度优先搜索将整个Google Reader的数据抓下来（不过不能太过分，不然会被封的），每天要更新，获得最新的文章share情况。

目前我的爬虫正在奋勇的爬，我主要是研究目的，所以我准备收集10w用户和100w文章的数据就足够了。这个数据集可以说内容非常丰富，包含了时间和内容信息，相信在他的基础上可以做出不少工作。

P.S. 非常希望google reader能提供用户follow的数据，这样对研究社会网络和推荐系统的结合很有意义

最后推荐一下kuber利用google reader数据做的一个推荐系统http://www.feedzshare.com/

向量 Vector 的空间: Google Reader的数据收集

我爱收藏--网文收藏

2010年3月23日星期二

向量 Vector 的空间: Google Reader的数据收集

Google Reader的数据收集

没有评论:

发表评论

博客归档

友情连接

关注者

Better life !