使用Crawler对腾讯新闻进行数据爬取并保存入库 - 代码天地

使用Crawler对腾讯新闻进行数据爬取并保存入库

其他 2018-05-06 22:50:55 阅读次数: 3

系统环境：Windows7

任务要求：爬取URL + 爬取里面的新闻内容 + 入库

http://www.oschina.net/p/Crawler 项目软件地址

1、我们首先要有一个URL列表,有了列表我们才能深度去挖掘新闻的内容

使用cl 命令收集要爬取的内容:

C:\Users\ssHss\Desktop\Jar包\ImageTemp>java -jar Crawler1.0.3.jar -cl http://news.qq.com/ -cq "div[class=Q-tpWrap]"

-cl http://news.qq.com/

-cq "div[class=Q-tpWrap]" 就是样式代码 <div class="Q-tpWrap" style:"xxsxxs:da;dadsad;sad;"><a href="x">x</a></div>

提取规则 -cq 后面的参数

唉呀妈呀,我们爬取的里面怎么还有各种不一样的代码呢，ヾ(｡｀Д´｡). ok,我们加format参数,哈哈，这样写代码会比较安全一点。 -format 特征

通过爬取的我们发现 news.qq.com/a/ 是新闻共有的一个URL特征

我们加特技 -fromat "news.qq.com/a/"

加File,我们生成URL到本地路径中 -input localpath 即可

第一步我们完成了 URL的收集

2、深度爬取内容使用ci命令

加载本地URLlist文件,进行爬取

我看了下内容，我把neirong抽取写错了,改成div[class=db]就好了。

3、导入数据库

完成了

猜你喜欢

转载自my.oschina.net/u/2311702/blog/652856

使用Crawler对腾讯新闻进行数据爬取并保存入库

调用天行数据API爬取国际新闻并保存到数据库

使用Scrapy框架爬取腾讯新闻

Python爬取冠状病毒“谣言”新闻进行数据分析

分类爬取新闻并存入mysql数据库

使用Scrapy爬取图片入库,并保存在本地

爬取腾讯招聘信息存入mongodb数据库

python 爬取腾讯新闻

scrapy-redis实例，分布爬虫爬取腾讯新闻，保存在数据库中

数据采集（三）：用XPath爬取腾讯新闻

jdango+scrapy结合使用并爬取数据入库

爬取数据存入mysql

Python 爬虫得用正则进行数据解析爬取糗图图片并保存一本地

爬取新闻，并使用自然语言技术进行分类

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

数据采集（二）：腾讯新闻网，新闻标题和内容爬取

python针对新浪新闻国内新闻爬取的爬虫，存入mysql数据库，也可输出为txt文件

python爬虫之爬取腾讯新闻

python爬虫实战——爬取腾讯新闻！

python requests 爬取腾讯科技的新闻

动态获取cookie 进行数据的爬取

scrapy网页跳转后进行数据爬取

Python 进行数据的爬取（网络爬虫）

利用scrapy框架进行数据的爬取

python爬取数据存入数据库,python爬虫保存数据

Java爬取新闻数据

（67）-- 多线程爬取腾讯招聘并存入数据库

Python3 +Scrapy 爬取腾讯控股股票信息存入数据库中

Node.js爬取妹子图-crawler爬虫的使用

python 爬取网页数据并进行保存

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)