前言:
- 今天分享一个优秀的中文分词库 jieba,学习一个第三方库最好的方式就是去它的官方网站或者github上看看~
- github 网址: 点击----> jieba
引入:
- ‘ “结巴”中文分词:做最好的 Python 中文分词组件’ 这是作者开篇引入时写的~ 如果你不这么认为的话,那么接着看
- 具体代码~(说明: kk的fans不要爆破我…)
import jieba
seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球") # 默认是精确模式
print("/ ".join(seg_list))
#
seg_list = jieba.cut_for_search("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球") # 搜索引擎模式
print("/".join(seg_list))
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Administrator\AppData\Local\Temp\jieba.cache
Full Mode: 全民/ 制作/ 作人/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时长/ 两年/ 年半/ 的/ 个人/ 练习/ 练习生/ 蔡/ 徐/ 坤/ 我/ 喜欢/ 欢唱/ 跳/ rap/ 篮球
Loading model cost 0.930 seconds.
Default Mode: 全民/ 制作/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时/ 长/ 两年/ 半/ 的/ 个人/ 练习生/ 蔡/ 徐坤/ 我/ 喜欢/ 唱/ 跳/ rap/ 篮球
Prefix dict has been built succesfully.
全民/ 制作/ 人们/ 大家/ 好/ 我/ 是/ 练习/ 时/ 长/ 两年/ 半/ 的/ 个人/ 练习生/ 蔡/ 徐坤/ 我/ 喜欢/ 唱/ 跳/ rap/ 篮球
全民/制作/人们/大家/好/我/是/练习/时/长/两年/半/的/个人/练习/练习生/蔡/徐坤/我/喜欢/唱/跳/rap/篮球
- 注解:
平常在开发的时候 一般是使用默认模式,也就是精确模式。从结果看,如果想把蔡徐坤添加成一个词 该怎么办呢? 别急 接下去看~
- 具体代码
import jieba
seg_list = jieba.cut("全民制作人们大家好我是练习时长两年半的个人练习生蔡徐坤我喜欢唱跳rap篮球") # 默认是精确模式
jieba.suggest_freq('蔡徐坤',True)
print("/".join(seg_list))
#结果
#全民/制作/人们/大家/好/我/是/练习/时/长/两年/半/的/个人/练习生/蔡徐坤/我/喜欢/唱/跳/rap/篮球
-
注解:
这样我们就实现了 自定义添加新词到字典中~附加网址 - - - ->>>>[通过用户自定义词典来增强歧义纠错能力] (ps:里面有jieba库开发者~)(https://github.com/fxsjy/jieba/issues/14)
常见问题: