线性代数,概率论和数理统计
程序设计( Java 或C/C++ )
Web Crawler 的结构(见博客 http://hanyuanbo.iteye.com/admin/blogs/779350)
2.基本的,也是最简单的抓取网站的爬虫的算法:
![](http://dl.iteye.com/upload/attachment/341139/e4c269aa-9600-3acf-8645-ca374f4b2fc5.jpg)
网络爬虫设计时需要注意的一些问题
见附件
3. Web的深入理解:
Web 有多大?
选择6个流行的 search engine, 假设它们索引页面之间的 independency
Sampling: 通过575个查询对这些SE采样,分析它们之间的overlap
用overlap来估计各个SE所覆盖的 indexable Web的大小
利用已知某个SE的页面数,来估计整个Web的大小
![](http://dl.iteye.com/upload/attachment/341158/df15961a-9809-38e5-a153-9d7d84aad18b.jpg)
Web的连通性如何?
Web上节点的分布如何?
Web上节点距离有多远?
Web上节点重要度如何度量?
如图:
![](http://dl.iteye.com/upload/attachment/341184/394c768b-923f-392b-a3f9-f49fc9713a9c.jpg)
G=(1-β)LT+ β/N(1N) 被称为Google Matrix
4.Introduction of Information Retrieval
索引技术:Index Techniques
排序:Scoring and Ranking
性能评测:Evaluation
5.
6.
7.
8.
9.
10.