闲暇之余做了个“观点挖掘”的程序,还谈不上工程。
这个观点挖掘的过程有点简陋,but,很有意思。我想你看了下面的过程,也猜不到我具体是怎么做的吧。
第一步,数据采集。模仿QQ截图,做了个能截屏的脚本。效果如下:
这样就得到一个截图(png、jpg等格式)。
第二步,数据预处理。用OCR技术,将图片里面的文字识别处理。例如下图:
经过识别后,将得到可编辑的文字,如下图:
扫描二维码关注公众号,回复:
11080203 查看本文章
第三步,数据挖掘。用文本挖掘的方法,对文本的关键字进行提取,并计算权重。目前已经有了成熟的英文关键字提取方法,但是,中文刚刚起步。如图:
第四步,数据可视化。关系图+人类自身的逻辑能力,会对数据进行组装理解。但是,不排除阅读体验非常差。可视化的结果常常给一些门外汉带来错判。一旦看不懂你的结果,就以为处理过程非常糟糕。
For example:
Somebody say :F************K..........
Anyway!这4步是最基本的。
结语:你有没有想到这样的观点挖掘引擎呢?没有,就赶紧动手做一个吧。如果担心精度问题,欢迎交流技术细节。
更多精彩内容,长按下面的二维码,关注微信公众号“谷震平的专栏”
内容来自:谷震平的专栏
原创文章,请勿侵权
觉得不错,就点赞吧