[小程序]小程序破千之笔顺图片采集篇(2)

又是一个周末,外面的天气灰蒙蒙的, 接着上次的任务, 制定下今天的目标

  • 采集百度或者搜狗汉语的gif图片 *****
  • 格式化后入库 *****
  • 前端资源引用变更

爬去 gif笔画图片

这里主要的知识点就一个

  • BeautifulSoup python爬虫,应该都会用到;
  • puppeteer nodejs版

文档地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id17

如果不用python, 用nodejs 推荐使用 puppeteer;

我这里用的是python 记录下代码, 主要的方法,

font = sys.argv[1]

def start():
	r = rqs.get(url = url,headers=headers)
	time.sleep(random.randint(1,4))
	# print(r.content)
	soup = BeautifulSoup(r.content, 'html.parser')
	bh = soup.find('li',{
    
    "id": "stroke_count"})
	bh_num = 0
	if(bh):
		bh_num = bh.contents[3].contents[0]
		img_www = tit.get('data-gif')
		r2 = rqs.get(img_www)
		filename = str(ord(font))
		# print(charcode)
		fpath = os.path.join('/pyproject/spider/gifs/', filename)
		# print(fpath)
		with open(fpath+'.gif','wb+')as f : 
			f.write(r2.content)
			r2.close()
	r.close()
	return bh_num

if __name__ == '__main__':
	start()

保存的时候就设置好文件名称规则,这样一次性就到位,和文字一一对应关系,

格式化入库

其实这里主要是新图片和旧图片的命名规则, 我用的 charCodeAt , fromCharCode 方式; 因为前面的 jpg 也是这样的命名方式,这样可以减少很大的更改成本;不管数据增加,修改,最终都可以找到图片所对应的文字。

数据库 mongodb $set, upsert 方式,

前端新增引用资源

这里就不一一说明了,直接上图了,
在这里插入图片描述

在这里插入图片描述
今天的目标已经完成,打完收工~~~~

猜你喜欢

转载自blog.csdn.net/uk_51/article/details/113145914
今日推荐