论文爬取系统 | (1) NLP论文爬取系统概述 - 代码天地

论文爬取系统 | (1) NLP论文爬取系统概述

其他 2020-01-26 13:24:19 阅读次数: 0

项目Github地址

在本专栏中，我将试着利用爬虫技术搭建一个论文爬取系统。在日常的科研生活中，不可避免地需要大量查找和阅读相关领域的文献来寻找idea，如何高效并大规模地搜集相关领域的科研文献至关重要，为了避免额外的人力、节约时间，加之博主是做自然语言处理的，所以这款NLP论文爬取系统应用而生，他可以自动地对满足要求的文献进行爬取，并保存在本地指定位置。相比于人工输入关键词检索，对检索结果逐个点击下载；这个自动化工具，可以帮我们省掉一些费时费力的重复操作，我们完全可以在此期间作其他事情，过一段时间直接查看爬取结果就OK了。

该NLP论文爬取系统基于dblp，一个计算机领域的文献数据库。大体原理如下：

1）构造dblp查询url(包含文献关键词、会议名称、年份等信息)，爬取该url对应的页面，并解析出每篇论文的页面url。

2）对每篇论文url对应的页面进行爬取，并解析出每篇论文的pdf对应的下载链接。

3）爬取每篇论文pdf，并保存在本地的指定位置。

目前该NLP论文爬取系统支持NLP全系列会议论文的爬取(包括 ACL、EMNLP、COLING、NAACL、EACL、CoNLL等)以及AAAI和IJCAI会议论文的爬取。接下来的几篇博客我将详细介绍该系统的原理和实现细节以及项目文件组织方式。

CoreJT

发布了365 篇原创文章 · 获赞 712 · 访问量 13万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/sdu_hao/article/details/104080702

论文爬取系统 | (1) NLP论文爬取系统概述

论文爬取系统 | (4) 项目文件组织方式

论文爬取系统 | (3) 爬虫子类

论文爬取系统 | (2) 爬虫基类

数据爬取(1)

【评论文本分类】1.爬取评论数据

pycharm中python爬取知网论文信息并保存在Excel中（1）

正方系统的爬取

爬虫--爬取图片（1）

1)python 爬取小说

网络数据爬取（1）

使用爬虫爬取CCF推荐论文

python爬取知网论文信息

python爬取教务系统

python ：通过爬虫爬取数据（1）

爬取大规模数据（1）

Class 16 - 1 Ajax 数据爬取

pyhton 基础数据的爬取1

Python爬虫-1——爬取网页

Python爬虫-爬取天气信息(1)

【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

【Golang系统开发】搜索引擎(1) 如何快速判断网页是否已经被爬取

python+selenium批量爬取IEEExplore论文

爬取ICLR历年论文并制作词云

python爬取CVPR2018关于detection的论文

python爬取NIPS论文信息，以及遇到的疑难总结

cvpr论文爬取——热词云展示（WEB）

CVPR论文爬取并进行词云展示

面向CCF目录中的论文暴力爬取实现

python正方系统课表爬取

今日推荐

AI小程序有哪些？AI小程序哪个好用？微信小程序AI写作叫什么？免费的ai小程序推荐 ai写作小程序推荐

灵办AI工具(科研学术,代码编程,学习辅导,图书报告)功能介绍

Linux内核源码分析（非常详细）零基础入门到精通，收藏这一篇就够了

【C++篇】启航——初识C++（上篇）

数据飞轮崛起：数据中台真的过时了吗？

828华为云征文——使用Flexus云服务器X实例CentOS镜像下创建MySQL服务器教程

阿里巴巴出品的6款AI神器，你用过几个？

【机器学习】多模态AI——融合多种数据源的智能系统

HashiCorp 创始人向 Zig 软件基金会捐赠 30 万美元

1-8 月我国软件业务收入 85492 亿元，同比增长 11.2%

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

周排行

Ubuntu+apache2+php5+mysql+phpmyadmin的php环境搭建

基于YOLOv3+Kalman-Filter实现Multi-target tracking

解释C++实例化类的指针类型中的new

苹果手机页面不兼容问题——mui

Python基础语法

javascript学习笔记一【预解释】

python内置函数 map

【Git】使用webstorm操作git

this与super关键字（一）

python list 使用技巧

每日归档

更多

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)