我们每天接受到的文字信息中,新闻内容占据了相当的部分。在此次的课程联系中,我会带着大家完成一个新闻热词的分析与关联人物的分析。
经过本次的训练,大家能掌握的能力有:
文件读取的方法;
tf-idf重点单词提取的方法;
collection Counter的使用
你在这次训练中,做什么?
把这个notebook中的所有代码自己手敲一遍;
解答notebook中预留的问题
- 文件的读取与分词
我们的此次使用的文件,存放在 "datas/articles_9k"中
# use `open()` to get the content from a file
content = open('dataset/article_9k.txt')
CHARACTERS = content.read()
len(CHARACTERS)
- 切割成句子
CHARACTERS[:100]
图像描述子
HOG特征:https://zhuanlan.zhihu.com/p/40960756
LBP特征: https://www.jianshu.com/p/8d96ceb45f74
Haar-like特征:https://zhuanlan.zhihu.com/p/38056144