中文字符分字处理工具,将字符进行分字处理,字符与字符以空格隔开,如:我是一名小学生 处理后:我 是 一 名 小 学 生
如需要为bert模型处理分字,请看bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字
input:
北京时间3月18日,布鲁克林篮网队今天宣布球队里有4名球员的新冠病毒检测结果呈阳性。
篮网队在声明里没有透露这4名球员的名字,但是指出其中1名球员出现了新冠病毒的症状,另外3名球员无症状。
与此同时,篮网队表示他们正在通知任何与这些球员接触过的人,包括最近的对手。
值得一提的是,NBA无限期停赛之前,篮网的最后一个对手是湖人。
篮网队在声明中还表示,球队里的所有球员目前都在隔离,而且与队医保持密切沟通。
截至目前,已经有7名NBA球员被确诊新冠肺炎。
output:
北 京 时 间 3 月 1 8 日 , 布 鲁 克 林 篮 网 队 今 天 宣 布 球 队 里 有 4 名 球 员 的 新 冠 病 毒 检 测 结 果 呈 阳 性 。
篮 网 队 在 声 明 里 没 有 透 露 这 4 名 球 员 的 名 字 , 但 是 指 出 其 中 1 名 球 员 出 现 了 新 冠 病 毒 的 症 状 , 另 外 3 名 球 员 无 症 状 。
与 此 同 时 , 篮 网 队 表 示 他 们 正 在 通 知 任 何 与 这 些 球 员 接 触 过 的 人 , 包 括 最 近 的 对 手 。
值 得 一 提 的 是 , N B A 无 限 期 停 赛 之 前 , 篮 网 的 最 后 一 个 对 手 是 湖 人 。
篮 网 队 在 声 明 中 还 表 示 , 球 队 里 的 所 有 球 员 目 前 都 在 隔 离 , 而 且 与 队 医 保 持 密 切 沟 通 。
截 至 目 前 , 已 经 有 7 名 N B A 球 员 被 确 诊 新 冠 肺 炎 。
代码:
'''
将字符进行分字处理,字符与字符以空格隔开,如:中华人民共和国 处理后:中 华 人 民 共 和 国
Author:西兰
Date:2020-03-18
'''
def write2txt(outfile, line):
with open('./' + outfile, 'a', encoding='utf-8')as f1:
f1.write(line + '\n')
def word_spilt(infile, outfile):
with open('./' + infile, 'r', encoding='utf-8')as f1:
for line in f1.readlines():
print(line.strip())
word_list = list(line.strip())
text = ''
for i in range(len(word_list)):
text += str(word_list[i]) + ' '
print(text)
write2txt(outfile, text)
word_spilt('data.txt', 'out.txt')
关注以下公众号,一起玩啊~