浅析谷歌搜索的背后工作流

当我们使用谷歌搜索时，你并不是真的在搜索该网页，而是在搜索谷歌对该网页的索引（至少是能被谷歌搜到的），通过名为爬虫（spiders）的软件程序来实现。爬虫从先抓取一些网页开始，然后根据网页上的链接，指向到这些网页，然后再跟踪（新）页面上的所有链接，再指向过去，如此反复。直到将大部分网页编入索引。

成千上万台机器上存储了数十亿的页面，例如此时我想知道猎豹能跑多快，在搜索栏输入关键字：猎豹，奔跑，速度。然后回车，我们的软件会搜索索引，找到包含搜索词的每个页面，在这种情况下有成千上万的可能结果，谷歌如何找到哪个文档才是我想要的呢？通过提问，问题数量超过200个吧。

例如该页面上出现了多少次该关键字，关键字是否出现在标题中，URL链接中，还是直接在JSON文件中，该页中包含该词的同义词吗？该页面是来自高质量网站还是低的，甚至是垃圾邮件？该页面的排名是多少？该公式由谷歌两位创始人，佩奇和布林发明（pageRank算法），通过指向网页的外部链接数量来评估网页的重要性，和链接的重要性。最终整合上述因素，得出每个搜索到页面的总分。按分数高低将结果展示，从提交搜索到展示结果大约花费半秒时间。

pageRank算法：

Google背后的线性代数：PageRank算法——（一）网络的链接矩阵 - 哔哩哔哩

PageRank算法原理与实现 - 知乎

谷歌很重视提供有用和公正的搜索结果，不接受付费来增加网页索引或修改排名。谷歌的每个搜索结果都包括URL，主页摘要，帮助我们判读该页面是否是我们想要的。还会看到相似页面的链接。谷歌收录该页面的最新版本。以及下一步我们可能需要的相关搜索。有时在搜索结果页面的右边或者上边会出现广告。谷歌也非常重视广告业务，并致力于为广告商精准推送用户，努力展示你想看到的广告（毫无疑问这里是一套推荐系统的应用），并非常仔细的将广告与搜索结果区分开来。如果找不到对你有帮助的所需信息，就根本不会推送任何广告。

本例中，猎豹的时速在80-130千米/小时。

浅析谷歌搜索的背后工作流

猜你喜欢