利用Python将文本中的中英文分离 - 代码天地

利用Python将文本中的中英文分离

其他 2018-05-10 17:27:17 阅读次数: 3

在进行文本分析、提取关键词时，新闻评论等文本通常是中英文及其他语言的混杂，若不加处理直接分析，结果往往差强人意。

下面对中英文文本进行分离做一下总结：

1、超短文本，ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)

out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)

out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是：\u4e00-\u9fa5，相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时，需要将空格[\u0020]加入，不然单词之间没空格了。

附：各国文字Unicode编码范围

猜你喜欢

转载自blog.csdn.net/sinat_36972314/article/details/79746291

利用Python将文本中的中英文分离

用Linux命令分离文本中英文

python3中英文混合字符串的分离

python写中英文字符串到文本中

python移除文本中英文，数字和字符

julia读取文本中的中英文字符

python中英文对照

利用python的jieba库、wordcloud库，实现中英文文本的快速分词（代码详解版）

python 中英文混合字符

python 中英文时间转换

[Python] 中英文标点转换

python中英文翻译模块

Python使用OCR识别中英文

【Python】实现中英文互译

python 中英文翻译

Qt 中的中英文混排

linux中中英文逗号的区别

2018.5.27（python）实例：文本词频分析(中英文各一份)及列表的sort（）使用

python ：中英文文本预处理（包含去标点分词词干提取）

文本挖掘之WordCloud+Python3快速生成中英文词云图

Python去除文本的标点符号(含中英文符号)

数据科学在文本分析中的应用：中英文 NLP（上）

中英文分句

中英文统计

中英文换行

(八)中英文文本分类的异同

文本中英文单词的统计个数

Python判断字符串中是否是中英文文小技巧

中英文txt文本读取.strip(“,“).split()获取数据失败，逗号分隔失败-中英文数据问题

20230811在WIN11下使用python3批量将中英文的SRT格式的字幕合并

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)