1.

s="我在课堂学习自然语言1000处理"#不能1=
b=jieba.cut(s)
print("/ ".join(b))

结果：我/ 在/ 课堂/ 学习/ 自然语言/ 1000/ 处理

2.

b=jieba.cut(s)
print(b)

结果：<generator object Tokenizer.cut at 0x000001DDD9CFB728>

3.

b=jieba.lcut(s) #l为list
print(b)

结果：[‘我’, ‘在’, ‘课堂’, ‘学习’, ‘自然语言’, ‘1000’, ‘处理’]

4.

b= jieba.cut(s, cut_all=True)
print("Full Mode: " + "/ ".join(b))  # 全模式

结果：Full Mode: 我/ 在/ 课堂/ 学习/ 自然/ 自然语言/ 语言/ 1000/ 处理

5.以上过程感觉到了分词作用，以下详述分词：

目前主流的分词方法主要是基于词典匹配的分词方法(正向最大匹配法、逆向最大匹配法和双向匹配分词法等)和基于统计的分词方法(HMM、CRF、和深度学习)；主流的分词工具库包括中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库等。
更多的分词方法和工具库参考知乎：https://www.zhihu.com/question/19578687

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)

jieba.cut 方法接受三个输入参数:
•需要分词的字符串
•cut_all 参数用来控制是否采用全模式
•HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数
•需要分词的字符串
•是否使用 HMM 模型。
该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

6.例子：

import jieba

seg_list = jieba.cut("我在课堂学习自然语言1000处理", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我在课堂学习自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他毕业于北京航空航天大学，在百度深度学习研究院进行研究")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在斯坦福大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

结果：Full Mode: 我/ 在/ 课堂/ 学习/ 自然/ 自然语言/ 语言/ 1000/ 处理
Default Mode: 我/ 在/ 课堂/ 学习/ 自然语言/ 处理
他, 毕业, 于, 北京航空航天大学, ，, 在, 百度, 深度, 学习, 研究院, 进行, 研究
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 福大, 大学, 斯坦福, 斯坦福大学, 深造

7.添加用户自定义字典

很多时候我们需要针对自己的场景进行分词，会有一些领域内的专有词汇。
•1.可以用jieba.load_userdict(file_name)加载用户字典
•2.少量的词汇可以自己用下面方法手动添加：
◾用 add_word(word, freq=None, tag=None) 和 del_word(word) 在程序中动态修改词典
◾用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来

print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

out:如果/放到/旧/字典/中将/出错/。

jieba.suggest_freq(('中', '将'), True)
print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

out:如果/放到/旧/字典/中/将/出错/。

0.有时候遇到pip install速度慢，用pip换源：

1.进入python，看os在哪个py脚本里，os.getcwd()返回当前的目录，即python工作路径在1下，所以在1下建pip文件夹可以执行，exit()退出python

2.新建pip文件夹

3.可以在桌面新建pip文件夹再拖进1，在pip里新建.txt,再改为.ini文件,点击打开

4.三个源可以用

https://pypi.tuna.tsinghua.edu.cn/simple
https://pypi.douban.com/simple
https://mirrors.aliyun.com/pypi/simple/

5.再upgrade升级下numpy，看下载速度

0.开发pip安装包，新建一packer文件夹即包名

1.

2. 3.新建utils文件夹

4.新建main.py文件，与utils文件夹同级

5.怎么打包？

6.执行

0.使用ffmpeg压缩和拼接音频：

ffmpeg压缩软件链接为：链接：https://pan.baidu.com/s/1Pn1y76_HQULm9c7xaTrMXw 提取码：uvg4

1.将解压后的ffpeg软件和录音文件放在同一文件夹下，并在当前文件夹cmd

在这里插入图片描述

2.压缩

在cmd中输入命令并运行：ffmpeg -i "1.wav" -b:a 64k -acodec mp3 -ar 44100 -ac 1 "1.mp3"
命令参数解释：
-i "1.wav"表示输入，后面的文件名必须要用双引号；
-b:a 64k表示音频的码率为64kb/s，即8kB/s；
-acodec mp3表示设定声音编解码器为mp3；
-ar 44100表示设定采样率为44100；
"1.mp3"表示输出保存的文件名。
同理将下图红色框中1改为2，3。在cmd中运行，产生下图mp3文件：
在这里插入图片描述

在这里插入图片描述

3.拼接

在桌面刚新建的文件夹录音压缩与拼接中新建文本文件list.txt，复制下面的内容到其中

file '1.mp3'
file '2.mp3'
file '3.mp3'

在桌面的文件夹录音压缩和拼接中打开cmd输入：ffmpeg -f concat -i list.txt -c copy "all.mp3"，产生了下图all.mp3文件即拼接好了的录音文件。
在这里插入图片描述

jieba分词，pip换源，开发pip安装包，ffmpeg压缩拼接音频

1.

2.

3.

4.

5.以上过程感觉到了分词作用，以下详述分词：

6.例子：

7.添加用户自定义字典

0.有时候遇到pip install速度慢，用pip换源：

1.进入python，看os在哪个py脚本里，os.getcwd()返回当前的目录，即python工作路径在1下，所以在1下建pip文件夹可以执行，exit()退出python

2.新建pip文件夹

3.可以在桌面新建pip文件夹再拖进1，在pip里新建.txt,再改为.ini文件,点击打开

4.三个源可以用

5.再upgrade升级下numpy，看下载速度

0.开发pip安装包，新建一packer文件夹即包名

1.

2.

3.新建utils文件夹

4.新建main.py文件，与utils文件夹同级

5.怎么打包？

6.执行

0.使用ffmpeg压缩和拼接音频：

1.将解压后的ffpeg软件和录音文件放在同一文件夹下，并在当前文件夹cmd

2.压缩

3.拼接

猜你喜欢

jieba分词，pip换源，开发pip安装包，ffmpeg压缩拼接音频

1.

2.

3.

4.

5.以上过程感觉到了分词作用，以下详述分词：

6.例子：

7.添加用户自定义字典

0.有时候遇到pip install速度慢，用pip换源：

1.进入python，看os在哪个py脚本里，os.getcwd()返回当前的目录，即python工作路径在1下，所以在1下建pip文件夹可以执行，exit()退出python

2.新建pip文件夹

3.可以在桌面新建pip文件夹再拖进1，在pip里新建.txt,再改为.ini文件,点击打开

4.三个源可以用

5.再upgrade升级下numpy，看下载速度

0.开发pip安装包，新建一packer文件夹即包名

1.

2.

3.新建utils文件夹

4.新建__main__.py文件，与utils文件夹同级

5.怎么打包？

6.执行

0.使用ffmpeg压缩和拼接音频：

1.将解压后的ffpeg软件和录音文件放在同一文件夹下，并在当前文件夹cmd

2.压缩

3.拼接

猜你喜欢

4.新建main.py文件，与utils文件夹同级