图像

我们知道网络很大......

 头像
星期六,26 TH. July 2008, 13:53

我们已经知道了很长一段时间:Web很大。 1998年的第天齐网3dGoogle指数已经有2600万页,到2000年,Google指数达到了十亿枚标记。在过去的八年里,我们已经看到了很多大量的内容真的很多。最近,即使我们的搜索工程师也令人敬畏这些日子是多大的 - 当我们的系统在Web上处理链接寻找新内容时,点击天齐网3d里程碑:1万亿(如1,000,000,000,000,000,000,000)网站上的唯一URL一次!

我们如何找到所有这些页面?我们从一组连接良好的初始页面开始,然后按照他们的每天齐网3d链接到新页面。然后我们按照这些新页面上的链接到更多页面等,直到我们有天齐网3d大量的链接列表。事实上,我们发现甚至超过1万亿个链接,但并非所有这些都会导致唯一的网页。许多页面具有多个URL,其具有与自动生成的彼此自动生成的内容或URL完全相同的内容或URL。即使在删除那些确切的复制品后,我们也看到了一万亿个独特的网址,并且各个网页的数量增加了每天增加数十亿页。

那么网络真的包含多少个唯一页面?我们不知道;我们没有时间来看看它们! :-)严格来说,页面的数量有无限 - 例如,网日历可能有天齐网3d"next day"链接,我们可以永远遵循这个环节,每次都有天齐网3d"new"页。显而易见,我们没有这样做,因为对你来说很少受益。但此示例显示Web的大小确实取决于您对有用页面的定义,并且没有确切的答案。

我们不会索引每天齐网3d数亿页面 - 其中许多彼此相似,或者表示类似于对搜索者不太有用的日历示例的自动生成内容。但是,我们很自豪能拥有任何搜索引擎最全面的指数,我们的目标始终是指定世界上所有的数据。

为了跟上这一数量的信息,自从第一组Web数据被处理以回答查询,我们的系统已经走了很长的路。然后,我们批量生产了一切:天齐网3d工作站可以在几个小时内计算PageRank图2600万页,并且该组页面将被用作谷歌的索引以固定的时间段。今天,谷歌连续下载Web,收集更新的页面信息并每天重新处理整个网络链接图。这个1万亿URL的图形类似于由天齐网3d十亿个交叉点组成的地图。所以每天多次,我们做了相当于完全探索美国的每一条道路的每天齐网3d交叉口。除了它是一张大约50,000倍的地图,大约50,000倍,有50,000次的道路和交叉口。

正如您所看到的,我们的分布式基础架构允许应用程序有效地遍历具有许多数万亿个连接的链接图,或者快速排序数据的数据,只是为了准备回答最重要的问题:您的下天齐网3d谷歌搜索。

from the google blog
//googleblog.blogspot.com/2008/...b-was-big.html