上海外国语大学语料分析工具开发简记

说明

机缘巧合,做了一个语料分析小工具,帮助汉语专业的学生批量导出数据,快速统计谓宾动词占比等,数据来源使用北京语言大学的bbc语料库(目前此语料库已转为北语校内使用,无法从校外访问)。

爬虫

写了一个小爬虫放到了自己服务器上,日夜兼程,将数万条数据存到了自己服务器的数据库里。

  • 爬虫V1.0,简单分页爬取数据,得到数据后存到数据库内;部署后发现若快速访问北语语料库,对方网站很容易500,导致我的爬虫长时间宕机和重复爬取。
  • 爬虫V1.1,设置定时,降低访问频率,添加任务断点和崩溃重启;部署后计算时间,发现需要20个小时才能爬取完成10w条数据,时间太长。
  • 爬虫V2.0,开两个爬虫进程,每个进程开两个线程,爬虫完成或崩溃后发邮件提醒;部署后将爬取时间由20个小时缩减到了5个小时,一觉醒来爬取完毕。

阿里飞冰

第一次使用阿里飞冰组件库,发现很好用,写代码的过程很流畅,构建、打包编译效果都很好,这个脚手架还是很完善的,适合敏捷开发用,组件库的UI效果也很好。

页面截图

猜你喜欢

转载自www.cnblogs.com/bbman/p/12072303.html