将新浪新闻首页所有新闻爬取下来

其他 2018-06-26 06:06:40 阅读次数: 3

'''将新浪新闻首页所有新闻爬取下来'''
import urllib.request
import urllib.error
import re


#模拟请求头
headers={
'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
             "Chrome/49.0.2623.112 Safari/537.36"
}
#设置请求体
req=urllib.request.Request('https://news.sina.com.cn/',headers=headers)
response=urllib.request.urlopen(req)
data=response.read().decode('utf-8','ignore')
#正则表达式
pat='href="(http://news.sina.com.cn/.*?)"'
#新闻链接
urllists=re.findall(pat,data)
print(urllists)
for i in range(1,len(urllists)):
    time.sleep(3)
    try:
        file="C:/Users/Administrator/Desktop/news/"+str(i)+".html"
        urllib.request.urlretrieve(urllists[i],file)
    except urllib.error.URLError as e:
        if hasattr(e,'code'):
            print(e.code)
        if hasattr(e,'reason'):
            print(e.reason)

猜你喜欢

转载自blog.csdn.net/weixin_42141853/article/details/80761370

将新浪新闻首页所有新闻爬取下来

Python数据挖掘学习笔记（9）爬取新浪新闻首页的所有新闻

爬取新浪新闻

python爬取新浪新闻

python 爬取网页新浪新闻

BeautifulSoup语法笔记（爬取新浪新闻）

使用scrapy爬取新浪新闻

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

爬虫：新浪详情新闻爬取总结

Webdriver 爬取新浪滚动新闻

python：爬取新浪新闻的内容

python爬虫：爬取新浪新闻数据

新浪新闻标题爬取

python3爬取新闻网站的所有新闻-新手起步

scrapy爬取新浪网导航页所有大类、小类、小类里的子链接，以及子链接页面的新闻内容

新浪网首页新闻资讯爬虫项目

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

BeautifulSoip+pandas 爬取新浪国内新闻

Python之路__爬虫篇:新浪新闻爬取回顾（一）

Python之路__爬虫篇:新浪新闻爬取回顾（四）

Python之路__爬虫篇:新浪新闻爬取回顾（三）

Python之路__爬虫篇:新浪新闻爬取回顾（二）

python-----爬新浪新闻标题链接

新浪网(sina)新闻链接爬取

爬取新浪社会新闻源代码

Python利用xpath和正则re爬取新浪新闻

Python3爬去新浪新闻写入mysql

新浪新闻API

新浪新闻全站

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)