爬取豆瓣书评 - 代码天地

爬取豆瓣书评

其他 2019-01-24 00:05:18 阅读次数: 0

在爬取过程中运行程序出现了以下错误，回到原网页查看发现评论中出现表情导致出错，百度后可以加入以下语句解决此问题

 Traceback (most recent call last):
  File "C:\Users\萌萌哒炸鸡腿\Desktop\python\豆瓣书评.py", line 29, in <module>
    print(x,')',comment)
UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 5-5: Non-BMP character not supported in Tk

import sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
x = 'This works! \U0001F44D'
print(x.translate(non_bmp_map))

code：

import re
import requests
from bs4 import BeautifulSoup

import sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)



LIST = []
urls = []
url = 'https://book.douban.com/subject/26829016/comments/hot?p='
for i in range(1,25):
    urls.append(url + str(i))
for u in urls:
    response = requests.get(u)

    
    html = response.text
    soup = BeautifulSoup(html,'lxml')
    List = soup.find_all('span',class_ = "short")
    for i in List:
        LIST.append(i.text)


print(len(LIST))
x = 1
for comment in LIST:
    print('(',x,')',comment.translate(non_bmp_map))
    x += 1

''' 
import sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
x = 'This works! \U0001F44D'
print(x.translate(non_bmp_map))
'''

错误解决参考博客

猜你喜欢

转载自blog.csdn.net/qq_41333844/article/details/86292269

爬取豆瓣书评

用requests 爬取豆瓣书评的评论

Python爬取豆瓣网图书评论

爬取豆瓣top250图书的书评，并用snownlp进行情感分析-并使用javaweb进行页面展示

Scrapy爬取豆瓣

豆瓣爬取

Python 爬取豆瓣

爬取豆瓣电影

豆瓣电影爬取

爬取豆瓣

豆瓣读书新书爬取

Python爬取豆瓣影评

爬取豆瓣电影信息

豆瓣影评信息爬取

Python 豆瓣mv爬取

beautiful爬取豆瓣信息

python爬取豆瓣250

scrapy爬取豆瓣电影

Python爬取豆瓣电影

python爬取豆瓣图片

爬取豆瓣高分电影

Python爬取豆瓣读书

如何爬取豆瓣影评？

爬取豆瓣电影代码

爬取豆瓣电影的评论

豆瓣书评爬虫

python 爬取豆瓣电影案例

Scrapy爬取豆瓣小组图片

到豆瓣爬取电影信息

使用BeautifulSoup去爬取豆瓣图片

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)