论文爬取系统 | (1) NLP论文爬取系统概述

项目Github地址

在本专栏中,我将试着利用爬虫技术搭建一个论文爬取系统。在日常的科研生活中,不可避免地需要大量查找和阅读相关领域的文献来寻找idea,如何高效并大规模地搜集相关领域的科研文献至关重要,为了避免额外的人力、节约时间,加之博主是做自然语言处理的,所以这款NLP论文爬取系统应用而生,他可以自动地对满足要求的文献进行爬取,并保存在本地指定位置。相比于人工输入关键词检索,对检索结果逐个点击下载;这个自动化工具,可以帮我们省掉一些费时费力的重复操作,我们完全可以在此期间作其他事情,过一段时间直接查看爬取结果就OK了。

该NLP论文爬取系统基于dblp,一个计算机领域的文献数据库。大体原理如下:

1)构造dblp查询url(包含文献关键词、会议名称、年份等信息),爬取该url对应的页面,并解析出每篇论文的页面url。

2)对每篇论文url对应的页面进行爬取,并解析出每篇论文的pdf对应的下载链接。

3)爬取每篇论文pdf,并保存在本地的指定位置。

目前该NLP论文爬取系统支持NLP全系列会议论文的爬取(包括 ACL、EMNLP、COLING、NAACL、EACL、CoNLL等)以及AAAI和IJCAI会议论文的爬取。接下来的几篇博客我将详细介绍该系统的原理和实现细节以及项目文件组织方式。

 

 

发布了365 篇原创文章 · 获赞 712 · 访问量 13万+

猜你喜欢

转载自blog.csdn.net/sdu_hao/article/details/104080702
今日推荐