批量下载网页上的链接然后合并、筛选、编辑文本内容 - 代码天地

批量下载网页上的链接然后合并、筛选、编辑文本内容

企业开发 2023-04-10 05:54:31 阅读次数: 0

1. 打开网页，按F12打开开发工具，点击源代码，查看网页的源代码，并将其复制到一个文档中

2.保留需要批量下载的链接行

3.对其进行修饰

4. 去除多每一行多余的文字

echo "123.456.AABBCCDDEEFF(GGHHII)" > test.txt
echo " 678.890.BBCAACDDFFEE(GGIIKKHH)" >> test.txt  #这一行最前面有空格！！
# 以下位删除普通字符
sed 's/.*AA//g' test.txt > B.txt   # 删除test.txt中，AA字符串之前的内容，一直到行首,保存到B.txt
sed 's/FF.*$//g' test.txt > B.txt  # 删除test.txt中，FF字符串之后的内容，一直到行尾,保存到B.txt
#以下为删除特殊字符，需要用  \ 进行字符的转义！！
sed 's/.*\.//g' test.txt > B.txt   # 删除test.txt中，.字符串之前的内容，一直到行首,保存到B.txt
sed 's/\..*$//g' test.txt > B.txt  # 删除test.txt中，.字符串之后的内容，一直到行尾,保存到B.txt

5. wget 批量下载

wget -i url.txt

6. 合并下载下来的html文档

cat *.html >> name.txt

7. 提取具有指定标志符号的内容

grep br name.txt > ok.txt

8. 替换不必要的文字

vim ok.txt

:1,$s /AAA/BBB/g 将AAA 替换成BBB

9. 在行尾加入字符

在行尾加入 <br>符号
sed 's/$/&\<br\>/g' A.txt > B.txt

10. 复制前 100行到文件b中

head -n 100000 A.txt > B.txt

11.删除 2-50行，然后复制到B

# 先查看多少行
wc -l A.txt
sed '2,50d' A.txt > B.txt

# 可以直接在A中删除
sed -i '2,50d' A.txt

猜你喜欢

转载自blog.csdn.net/lggirls/article/details/128833649

批量下载网页上的链接然后合并、筛选、编辑文本内容

python批量下载网页上的图片

python批量下载网页上的图片

linux vim编辑文本中如何批量替换内容

百度云网盘批量分享独立链接,简单暴力!!! 不用下载软件,直接在网页上搞定!

Python——获取网页文本内容

Python利用文本保存的链接批量下载不存在的文件

ts缓存批量下载合并

利用Python把网页内容转换为pdf格式文件，批量下载到本地！

利用Python把网页内容转换为pdf格式文件，批量下载到本地！

小白scrapy爬虫之爬取简书网页并下载对应链接内容

PHP提取链接批量下载

链接批量下载文件

chrome批量下载网页资源

python批量下载网页的方法

python-下载网页链接

如何批量下载网站中的超链接（一次性下载网页中所有可能的PDF文件）

JS-将文本框获取的内容显示在网页上

Python批量合并文本文件

TinyMCE富文本编辑器导入word文件内容，使word文件上的的图文内容能正常显示图片

自动获取网页内容，然后写入excel文档中

编辑程序用高亮网页链接

文本内容只显示两行，然后加...

文本编辑器批量操作

网页上的内容无法复制和下载？一行代码教你解决

awk筛选网页中需要的内容 —— 筑梦之路

网页版文本编辑器

网页文本线下编辑console命令

把hadoop上多个文件合并然后copyt到本地

批量下载网页上ts视频文件(撸sir!你还在为下载小电影而苦恼吗？)

今日推荐

周排行

二叉搜索树与双向链表——一个对于我来说比较难的题目。二叉树的中序遍历

(JavaSE)Java集合专题一(List)

reset master和reset slave解析

android could not resolve

Shell 变量自增实现方法

上周热点回顾（10.7-10.13)

PAT（BL）1032挖掘机技术哪家强

站点防火墙api,增加黑名单IP接口,增加用post,修改用put,php案例

Caffe官方学习手册中文翻译版&Caffe各层参数配置详细解析&Caffe安装

蛋白质结构预测准确率&发展情况

每日归档

更多

2024-10-23(0)

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)