浅析谷歌搜索的背后工作流

        当我们使用谷歌搜索时,你并不是真的在搜索该网页,而是在搜索谷歌对该网页的索引(至少是能被谷歌搜到的),通过名为爬虫(spiders)的软件程序来实现。爬虫从先抓取一些网页开始,然后根据网页上的链接,指向到这些网页,然后再跟踪(新)页面上的所有链接,再指向过去,如此反复。直到将大部分网页编入索引。

        成千上万台机器上存储了数十亿的页面,例如此时我想知道猎豹能跑多快,在搜索栏输入关键字:猎豹,奔跑,速度。然后回车,我们的软件会搜索索引,找到包含搜索词的每个页面,在这种情况下有成千上万的可能结果,谷歌如何找到哪个文档才是我想要的呢?通过提问,问题数量超过200个吧。

        例如该页面上出现了多少次该关键字,关键字是否出现在标题中,URL链接中,还是直接在JSON文件中,该页中包含该词的同义词吗?该页面是来自高质量网站还是低的,甚至是垃圾邮件?该页面的排名是多少?该公式由谷歌两位创始人,佩奇和布林发明(pageRank算法),通过指向网页的外部链接数量来评估网页的重要性,和链接的重要性。最终整合上述因素,得出每个搜索到页面的总分。按分数高低将结果展示,从提交搜索到展示结果大约花费半秒时间。

pageRank算法:

Google背后的线性代数:PageRank算法——(一)网络的链接矩阵 - 哔哩哔哩

PageRank算法原理与实现 - 知乎

        谷歌很重视提供有用和公正的搜索结果,不接受付费来增加网页索引或修改排名。谷歌的每个搜索结果都包括URL,主页摘要,帮助我们判读该页面是否是我们想要的。还会看到相似页面的链接。谷歌收录该页面的最新版本。以及下一步我们可能需要的相关搜索。有时在搜索结果页面的右边或者上边会出现广告。谷歌也非常重视广告业务,并致力于为广告商精准推送用户,努力展示你想看到的广告(毫无疑问这里是一套推荐系统的应用),并非常仔细的将广告与搜索结果区分开来。如果找不到对你有帮助的所需信息,就根本不会推送任何广告。

        本例中,猎豹的时速在80-130千米/小时。

猜你喜欢

转载自blog.csdn.net/u010420283/article/details/128362451