建立联合表

1. 训练停词表,文件夹下每个txt文件,按照关键词提取出topK20 ,合并成一个list,用collection方法得到该文件下所有txt关键词top100 的常用词,然后生成keywords_freq.txt(没有词频,相当于等效),再从这个txt文件中找出top300的常用词 作为停词表

2. 用停词表重新找出hubei_legal每个文件的关键词top10

3. 训练xinhua_news停词表,用该停词表找出xinhua每个文件的关键词top10

4. 做一个qiyjben.csv 建立公司名和legal、news的关系

猜你喜欢

转载自www.cnblogs.com/ming666/p/9713983.html