文章目录

1、唠唠叨叨
2、先看一下效果吧
3、核心代码

3.1、分词
3.2、读取Excel文件
3.3、去除数组中的\n符

4、Github源码分享
5、其它小知识

5.1、在github.com的README中添加image图片

1、唠唠叨叨

之前讲述过关于Jieba分词的内容，最近又有关于这方面的需求，于是做了一个小示例来学习。此示例先获取xlsx文件的语料内容，然后再针对语料进行分词。

回顾一下：

Python第三方库jieba（中文分词）入门与进阶（官方文档）

2、先看一下效果吧

在这里插入图片描述

3、核心代码

3.1、分词

全模式

seg_list = jieba.cut(label, cut_all=True)

精确模式

seg_list = jieba.cut(label, cut_all=False)

搜索引擎模式

seg_list = jieba.cut_for_search(label)

默认模式（默认是精确模式）

seg_list = jieba.cut(label)

TextRank 关键词抽取，只获取固定词性

words = jieba.analyse.textrank(label, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

去除标点符号（去除所有半角全角符号，只留字母、数字、中文）

rule = re.compile(u"[^a-zA-Z0-9\u4e00-\u9fa5]")
label = rule.sub('',label)

去除标点符号（手工指定标点符号）

punctuation ="""！？｡＂＃＄％＆＇（）＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
re_punctuation ="[{}]+".format(punctuation)
label = re.sub(re_punctuation, "", label).strip()

3.2、读取Excel文件

打开文件

workbook = xlrd.open_workbook(path)

根据sheet索引或者名称获取sheet内容

sheet = workbook.sheet_by_index(page)

sheet的名称，行数，列数

print("Sheet的名称:", sheet.name, ",行数:", sheet.nrows, ",列数:", sheet.ncols)

获取Excel内容

sheet.cell_value(rown, coln)

3.3、去除数组中的\n符

s = [x.strip() for x in item_arr]

4、Github源码分享

https://github.com/ShaShiDiZhuanLan/Demo_Jieba_Python

5、其它小知识

5.1、在github.com的README中添加image图片

先上传图片到项目中，然后提交完图片之后在项目中找到图片的url
在这里插入图片描述
makedown 写 README：

# 6、运行效果 
![image](在github上的图片url)

效果：
在这里插入图片描述

沙振宇博客专家

发布了264 篇原创文章 · 获赞 691 · 访问量 204万+

他的留言板关注

Python开发之 Jieba分词示例

文章目录

1、唠唠叨叨

2、先看一下效果吧

3、核心代码

3.1、分词

3.2、读取Excel文件

3.3、去除数组中的\n符

4、Github源码分享

5、其它小知识

5.1、在github.com的README中添加image图片

猜你喜欢

Python开发 之 Jieba分词示例

文章目录

1、唠唠叨叨

2、先看一下效果吧

3、核心代码

3.1、分词

3.2、读取Excel文件

3.3、去除数组中的\n符

4、Github源码分享

5、其它小知识

5.1、在github.com的README中添加image图片

猜你喜欢

Python开发之 Jieba分词示例