jieba分词,pip换源,开发pip安装包,ffmpeg压缩拼接音频

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_43435675/article/details/88358286

1.

s="我在课堂学习自然语言1000处理"#不能1=
b=jieba.cut(s)
print("/ ".join(b))

结果:我/ 在/ 课堂/ 学习/ 自然语言/ 1000/ 处理

2.

b=jieba.cut(s)
print(b)

结果:<generator object Tokenizer.cut at 0x000001DDD9CFB728>

3.

b=jieba.lcut(s) #l为list
print(b)

结果:[‘我’, ‘在’, ‘课堂’, ‘学习’, ‘自然语言’, ‘1000’, ‘处理’]

4.

b= jieba.cut(s, cut_all=True)
print("Full Mode: " + "/ ".join(b))  # 全模式

结果:Full Mode: 我/ 在/ 课堂/ 学习/ 自然/ 自然语言/ 语言/ 1000/ 处理

5.以上过程感觉到了分词作用,以下详述分词:

目前主流的分词方法主要是基于词典匹配的分词方法(正向最大匹配法、逆向最大匹配法和双向匹配分词法等)和基于统计的分词方法(HMM、CRF、和深度学习);主流的分词工具库包括 中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库等。
更多的分词方法和工具库参考知乎:https://www.zhihu.com/question/19578687

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)

jieba.cut 方法接受三个输入参数:
•需要分词的字符串
•cut_all 参数用来控制是否采用全模式
•HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数
•需要分词的字符串
•是否使用 HMM 模型。
该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

6.例子:

import jieba

seg_list = jieba.cut("我在课堂学习自然语言1000处理", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我在课堂学习自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他毕业于北京航空航天大学,在百度深度学习研究院进行研究")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在斯坦福大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

结果:Full Mode: 我/ 在/ 课堂/ 学习/ 自然/ 自然语言/ 语言/ 1000/ 处理
Default Mode: 我/ 在/ 课堂/ 学习/ 自然语言/ 处理
他, 毕业, 于, 北京航空航天大学, ,, 在, 百度, 深度, 学习, 研究院, 进行, 研究
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 福大, 大学, 斯坦福, 斯坦福大学, 深造

7.添加用户自定义字典

很多时候我们需要针对自己的场景进行分词,会有一些领域内的专有词汇。
•1.可以用jieba.load_userdict(file_name)加载用户字典
•2.少量的词汇可以自己用下面方法手动添加:
◾用 add_word(word, freq=None, tag=None) 和 del_word(word) 在程序中动态修改词典
◾用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来

print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

out:如果/放到/旧/字典/中将/出错/。

jieba.suggest_freq(('中', '将'), True)
print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

out:如果/放到/旧/字典/中/将/出错/。

0.有时候遇到pip install速度慢,用pip换源:

1.进入python,看os在哪个py脚本里,os.getcwd()返回当前的目录,即python工作路径在1下,所以在1下建pip文件夹可以执行,exit()退出python

image.png

2.新建pip文件夹

image.png

3.可以在桌面新建pip文件夹再拖进1,在pip里新建.txt,再改为.ini文件,点击打开

image.png

4.三个源可以用

https://pypi.tuna.tsinghua.edu.cn/simple
https://pypi.douban.com/simple
https://mirrors.aliyun.com/pypi/simple/
image.png

5.再upgrade升级下numpy,看下载速度

image.png

0.开发pip安装包,新建一packer文件夹即包名

image.png

1.

image.png

2.

image.png

3.新建utils文件夹

image.png

4.新建__main__.py文件,与utils文件夹同级

image.png
image.png

5.怎么打包?

image.png
image.png
image.png
image.png
image.png

6.执行

image.png
image.png

0.使用ffmpeg压缩和拼接音频:

ffmpeg压缩软件链接为:链接:https://pan.baidu.com/s/1Pn1y76_HQULm9c7xaTrMXw 提取码:uvg4

1.将解压后的ffpeg软件和录音文件放在同一文件夹下,并在当前文件夹cmd

在这里插入图片描述

2.压缩

在cmd中输入命令并运行:ffmpeg -i "1.wav" -b:a 64k -acodec mp3 -ar 44100 -ac 1 "1.mp3"
命令参数解释:
-i "1.wav"表示输入,后面的文件名必须要用双引号;
-b:a 64k表示音频的码率为64kb/s,即8kB/s;
-acodec mp3表示设定声音编解码器为mp3;
-ar 44100表示设定采样率为44100;
"1.mp3"表示输出保存的文件名。
同理将下图红色框中1改为2,3。在cmd中运行,产生下图mp3文件:
在这里插入图片描述

在这里插入图片描述

3.拼接

在桌面刚新建的文件夹录音压缩与拼接中新建文本文件list.txt,复制下面的内容到其中

file '1.mp3'
file '2.mp3'
file '3.mp3'

在桌面的文件夹录音压缩和拼接中打开cmd输入:ffmpeg -f concat -i list.txt -c copy "all.mp3",产生了下图all.mp3文件即拼接好了的录音文件。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43435675/article/details/88358286