Google Reader是我每天都要使用的RSS阅读服务,它同时也是DiggLife订阅数中占绝大多数的阅读器(48.9%,175个).根据数据统计,Google Reader也已经成为全球用户最多的RSS阅读器.那么Google到底花费了多大的空间来存储Feed,又是如何管理这些Feed的呢?下面我们来一探究竟:

1.Google Reader区别对待两种Feed:

  • 只有一个读者的Feed(占Feed总量的2/3,每3个小时更新一次)
  • 一个以上读者的Feed(每小时更新一次)

2.Google Reader用了10 TB的容量来存储所有的原始数据

3.Google Reader每天要抓取800多万个Feed

4.Google Reader是主流在线RSS阅读器里惟一一个保留有所有Feed完整历史的阅读器.

5.许多Google应用程序都使用了Google Reader的核心架构来管理Feed:iGoogle,Gmail网络剪辑,Blogger Widgets,Google电子表格,Ajax API.用户所有涉及到Feed的操作都由Google Reader完成,它独立于Google博客搜索.

6.Google Reader用户的增长速度=Feed的增长速度(当然是Google Reader需要处理的Feed)

7.Google Reader的索引文件每周增长4%

8.Google Reader 70%的流量来自于Firefox

9.Gmai和Orkut是仅有的两个在流量上超过Google Reader的Google应用程序.

10.搜索功能需要庞大的计算资源.Google Reader为搜索功能使用了两种索引:

  • 一个每天更新2次的树形索引(150台机器,60亿个文档)
  • 为即时文章准备的40个小型树形索引,每5分钟更新一次(40台机器,4亿个文档)

11.未来会加入的功能:

  • 即将到来的:国际化,Feed推荐功能,接收发送到Google博客搜索的Ping
  • 不久的将来:基于链接(链接到同一页面的文章)的简单聚合,给共享文章添加评论的功能.
  • 盈利分享计划:在Feed中加入Google Adsense广告,和使用Adsense的博客主分享收入

 

来自Google OS