bs处理后的源代码用正则表达式需要转化格式 - 代码天地

bs处理后的源代码用正则表达式需要转化格式

其他 2018-07-27 23:34:02 阅读次数: 0

#抓取主页面热点新闻，写入tengxun_news.txt
def get_main_page():
    resp_main_page = get_html(main_page_utl)
    soup_1 = BeautifulSoup(resp_main_page.text,"lxml")
    item_1s = soup_1.select(".linkto")
    print(item_1s)
    print("-------------------------------------------------------------------")
    html = item_1s
    pattern = re.compile('<a class="linkto" href=(.*?) target="_blank">(.*?)</a>,', re.S)
    items = re.findall(pattern, html)

    print(items)

用beautifulsoup抓取下来的内容自动保存为list格式，想要继续用正则表达式提取，需要转化成字符串的形式。

#抓取主页面热点新闻，写入tengxun_news.txt def get_main_page(): resp_main_page = get_html(main_page_utl) soup_1 = BeautifulSoup(resp_main_page.text,"lxml") item_1s = soup_1.select(".linkto") print(item_1s) print("-------------------------------------------------------------------") html = str(item_1s) pattern = re.compile('<a class="linkto" href=(.*?) target="_blank">(.*?)</a>,', re.S) items = re.findall(pattern, html) print(items)

参考：https://blog.csdn.net/weixin_42105977/article/details/80390957

猜你喜欢

转载自blog.csdn.net/junekakui/article/details/81041120

bs处理后的源代码用正则表达式需要转化格式

Perl正则表达式(3) - 用正则表达式处理文本

正则表达式与格式化处理

linux 正则表达式与文件格式处理

正则表达式及json格式处理记录

用正则表达式处理代码注释（从小白角度刨析）

正则表达式整理格式

正则表达式格式验证

正则表达式格式

正则表达式与文件格式化处理(1)-基础正则表达式练习(主)

正则表达式处理

用正则表达式处理一个复杂字符串（类似json格式）

对字符串的小数点后多余的0用正则表达式进行切割处理

正则表达式（规则+代码）

as3的去除空格正则表达式写法源代码示例

正则表达式查找网页源代码提取指定内容

用re库正则表达式提取bs4爬取下来的网页的时候的注意

正则表达式练习——邮件格式正则

用正则表达式判断手机号的格式是否正确

Java用正则表达式判断输入的电话号码格式是否正确

用正则表达式校验时间格式的正确性

登录时，姓名密码格式验证（用jsp，正则表达式实现）

python 遇到表情代码出错，用正则表达式去掉表情代码

Linux正则表达式与文件格式化处理学习总结

第十二章正则表达式与文件格式化处理

08.正则表达式与文件格式化处理

Linux 学习“正则表达式与文件格式化处理”

Linux 常用命令总结~正则表达式与文件格式化处理

别人的Linux私房菜（12）正则表达式与文件格式化处理

Linux学习笔记（六）-正则表达式与文件格式化处理

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)