Google Reader是我每天都要使用的RSS阅读服务,它同时也是DiggLife订阅数中占绝大多数的阅读器(48.9%,175个).根据数据统计,Google Reader也已经成为全球用户最多的RSS阅读器.那么Google到底花费了多大的空间来存储Feed,又是如何管理这些Feed的呢?下面我们来一探究竟:
1.Google Reader区别对待两种Feed:
- 只有一个读者的Feed(占Feed总量的2/3,每3个小时更新一次)
- 一个以上读者的Feed(每小时更新一次)
2.Google Reader用了10 TB的容量来存储所有的原始数据
3.Google Reader每天要抓取800多万个Feed
4.Google Reader是主流在线RSS阅读器里惟一一个保留有所有Feed完整历史的阅读器.
5.许多Google应用程序都使用了Google Reader的核心架构来管理Feed:iGoogle,Gmail网络剪辑,Blogger Widgets,Google电子表格,Ajax API.用户所有涉及到Feed的操作都由Google Reader完成,它独立于Google博客搜索.
6.Google Reader用户的增长速度=Feed的增长速度(当然是Google Reader需要处理的Feed)
7.Google Reader的索引文件每周增长4%
8.Google Reader 70%的流量来自于Firefox
9.Gmai和Orkut是仅有的两个在流量上超过Google Reader的Google应用程序.
10.搜索功能需要庞大的计算资源.Google Reader为搜索功能使用了两种索引:
- 一个每天更新2次的树形索引(150台机器,60亿个文档)
- 为即时文章准备的40个小型树形索引,每5分钟更新一次(40台机器,4亿个文档)
11.未来会加入的功能:
- 即将到来的:国际化,Feed推荐功能,接收发送到Google博客搜索的Ping
- 不久的将来:基于链接(链接到同一页面的文章)的简单聚合,给共享文章添加评论的功能.
- 盈利分享计划:在Feed中加入Google Adsense广告,和使用Adsense的博客主分享收入