Ubuntu Python+Selenium 实现简单的数据增强

将句子放入翻译,把结果拿出来再放进翻译得到最终的句子,这就是一种数据增强的方式
我们的原始文本为“train",我们把它打开,输出每一行
在这里插入图片描述
结果就是原文件train的每一行
现在我们能够得到原始文本的每一行,接下来开始构建思路
思路很简单:即把每一行放入翻译框,把结果取出来再放入翻译框,取最终的结果保存起来
我们利用selenium来模拟浏览器点击
在这里插入图片描述
selenium调用浏览器必须要有一个webdriver的驱动文件,不同浏览器不一样
怎么安装selenium以及selenium的使用可以参考这篇博客点击
在这个数据增强的过程中遇到了几个问题:
1.因为语句执行速度的问题,会出现句子第一次翻译出来的句子还没能放进去翻译框就按了翻译的按钮或者第二次翻译结果还没能翻译出来就取了翻译结果(即取了第一次的翻译结果),针对这些问题我用了time模块,在关键部位暂停1-2秒再继续执行程序,ok,解决了这个问题
2.我用的是有道翻译,翻译原文中有中文的句号,问号等的时候,翻译结果会在连续的几个html标签,并不全是在一个标签中,这样用xpath拿翻译结果的时候定位得太精确反而内容是不全的,我试了很多的xpath定位,有些因为是动态生成的缘故内容拿不下来,最终发现把xpath放宽一些,即定位到把翻译结果包含住的那个最近的标签的时候,就能把所有的翻译结果都拿下来了
3.这里我用的是有道翻译,因为没有用daili(你懂的),打开google翻译会很慢,影响效率,你们可以试一试用了daili后google翻译的速度如何,和百度,有道相比,这里的翻译都是指用selenium模拟点击浏览器的前提下。

简单的数据增强就完成了

猜你喜欢

转载自blog.csdn.net/weixin_40208575/article/details/84484302