2021.5.9项目进度报告

本周进度

1、试用了jparser、url2io来筛选爬取的内容,但是使用起来非常不方便。
2、获取了网页源代码,提取其中的代码部分,使用beautifulsoup库,观察常用网站的标签提取;
这样做貌似不足以解决问题,因为不同网页的代码部分不一样。
3、由于网速问题时而出现爬不到内容的现象,还有一些随机性的错误。
4、浏览器资源占用过多,程序会崩溃。
5、运行时间过长,考虑到对于每个实验只用执行一次,可以接受。

下周目标

完善这些部分,做出一个能够简单投入使用的demo;
解决硬性的问题,暂时放缓性能,及时与队友对接。

猜你喜欢

转载自blog.csdn.net/Mr__666/article/details/116563922