读《基于文档主题结构的关键词抽取方法研究》有感（一）

没错，这是一篇读后感。今天拜读了刘知远老师的博士毕业论文。

一、研究内容：

1、基于文档内部信息，利用文档的词聚类算法构建文档主题，进行关键词抽取。

2、基于文档外部信息，利用隐含主题模型构建文档主题，进行关键词抽取。

3、综合利用隐含主题模型和文档结构信息，进行关键词抽取。
4、基于文档与关键词主题一致性的前提，提出基于机器翻译模型的关键词抽取方法。

二、文中相关论文

1、Page Rank

http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

2、Text Rank

https://digital.library.unt.edu/ark:/67531/metadc30962/m2/1/high_res_d/Mihalcea-2004-TextRank-Bringing_Order_into_Texts.pdf

三、引言中提到的web2.0

虽然之前也多有耳闻，但没有去搜过其真正含义，今日便copy如下:

一、web1.0和web2.0的各自特点

web1.0主要特点　　

web1.0时代是一个群雄并起，逐鹿网络的时代，虽然各个网站采用的手段和方法不同，但第一代互联网有诸多共同的特征，表现在：

1、web1.0基本采用的是技术创新主导模式，信息技术的变革和使用对于网站的新生与发展起到了关键性的作用。新浪的最初就是以技术平台起家，搜狐以搜索技术起家，腾讯以即时通讯技术起家，盛大以网络游戏起家，在这些网站的创始阶段，技术性的痕迹相当之重。

2、web1.0的盈利都基于一个共通点，即巨大的点击流量。无论是早期融资还是后期获利，依托的都是为数众多的用户和点击率，以点击率为基础上市或开展增值服务，受众群众的基础，决定了盈利的水平和速度，充分地体现了互联网的眼球经济色彩。

3、web1.0的发展出现了向综合门户合流现象，早期的新浪与搜狐、网易等，继续坚持了门户网站的道路，而腾讯、MSN、GOOGLE等网络新贵，都纷纷走向了门户网络，尤其是对于新闻信息，有着极大的、共同的兴趣。这一情况的出现，在于门户网站本身的盈利空间更加广阔，盈利方式更加多元化，占据网站平台，可以更加有效地实现增值意图，并延伸由主营业务之外的各类服务。

4、web1.0的合流同时，还形成了主营与兼营结合的明晰产业结构。新浪以新闻+广告为主，网易拓展游戏，搜狐延伸门户矩阵，各家以主营作为突破口，以兼营作为补充点，形成拳头加肉掌的发展方式。

5、web1.0不以html为言,在1.0时代,动态网站已经广泛应用,比如论坛等

Web 2.0主要特点　　

1、多人参与

Web1.0里，互联网内容是由少数编辑人员（或站长）定制的，比如搜狐；而在Web2.0里，每个人都是内容的供稿者。Web2.0的内容更多元化：标签tag、多媒体、在线协作等等。在Web2.0信息获取渠道里，RSS订阅扮演者一个很重要的作用。我也一直推荐阅读者以订阅的方式阅读可能吧的文章。

2、人是灵魂

在互联网的新时代，信息是由每个人贡献出来的。各个人共同组成互联网信息源。Web2.0的灵魂是人。

3、可读可写互联网

在Web1.0里，互联网是“阅读式互联网”，而Web2.0是“可写可读互联网”。虽然每个人都参与信息供稿，但在大范围里看，贡献大部分内容的是小部分的人。

4、Web2.0的元素

Web2.0包含了我们经常使用到的服务，例如博客、播客、维基、P2P下载、社区、分享服务等等。

5、个人看法

Web2.0实际上是对Web1.0的信息源进行扩展，使其多样化和个性化。

博客是Web2.0里十分重要的元素，因为它打破了门户网站的信息垄断，在未来里，博客的地位将更为重要。

二、web1.0和web2.0的主要区别

Web2.0 是相对Web1.0 的新的一类互联网应用的统称。Web1.0 的主要特点在于用户通过浏览器获取信息。Web2.0 则更注重用户的交互作用，用户既是网站内容的浏览者，也是网站内容的制造者。所谓网站内容的制造者是说互联网上的每一个用户不再仅仅是互联网的读者，同时也成为互联网的作者；不再仅仅是在互联网上冲浪，同时也成为波浪制造者;在模式上由单纯的“读”向“写”以及“共同建设”发展；由被动地接收互联网信息向主动创造互联网信息发展，从而更加人性化！

四、引言中提到的两个问题

1、在传统关键词标注的方法中，以TextRank为代表的图方法的优势在于考虑文档中词与词之间的语义关系；以TFIDF为代表的统计方法则仅仅考虑词的统计性质。但是TFIDF和TextRank等方法均没有考虑所抽取的关键词对文档主题的覆盖度问题，导致推荐的关键词往往集中在某一个大的主题中，而没有顾及文档的其他主题。

2、在关键词标注中，关键词与文档的相关性是推荐关键词的重要指标。传统的方法如TFIDF仅依靠候选关键词在文档中的统计性质进行排序，而TextRank虽然在一定程度上考虑了文档中词与词之间的关系，但仍然倾向于选择文档中出现较为频繁的词作为关键词。而文档的关键词与文档往往存在一定的词汇差异现象，主要表现在两个方面：
1. 很多关键词在文档中的统计特性并不显著，也就是说文档的某些关键词本身并不一定在文档中频繁出现。
2. 在某些情况下，如文档较短的时候，一些关键词甚至并不出现在文档中。