BertTokenizer在处理中英文混合序列中遇到的问题 - 代码天地

BertTokenizer在处理中英文混合序列中遇到的问题

企业开发 2023-09-18 20:22:54 阅读次数: 0

直接上代码：

from transformers import BertTokenizer

path = '../PTM/bert-base-zh'

tokenizer = BertTokenizer.from_pretrained(path)

text_1 = '①Goodpasture综合征'
text_2 = '1Goodpasture综合征'
text_3 = '@Goodpasture综合征'
text_4 = 'Goodpasture综合征'

print(tokenizer.tokenize(text_1))
print(tokenizer.tokenize(text_2))
print(tokenizer.tokenize(text_3))
print(tokenizer.tokenize(text_4))

'''
['①', '##go', '##od', '##pa', '##st', '##ure', '综', '合', '征']
['1g', '##ood', '##pa', '##st', '##ure', '综', '合', '征']
['@', 'good', '##pa', '##st', '##ure', '综', '合', '征']
['good', '##pa', '##st', '##ure', '综', '合', '征']
'''

如果在中英文混合的字符序列中，英文前面出现了特殊字符，或者数字，berttokenizer会把特殊字符和英文字符看成一个整体切分，导致切分错误。

可以解决的办法是将特殊字符或者数字替换为berttokenizer容易识别的字符，比如’@’, ‘#’, '$'等。

应用场景：
在中文电子病历中，text_1和text_2的场景是很容易出现的，所以在文本输入模型之前，最好先对这样的情况进行预处理。

猜你喜欢

转载自blog.csdn.net/mch2869253130/article/details/121401991

BertTokenizer在处理中英文混合序列中遇到的问题

中英文混合排序

qt中英文处理

python 中英文混合字符

List中英文混合排序

tesseract 中英文混合识别

python3.x 中批量处理不同编码的混合中英文字符文件

python学习之解决中英文混合输出的排版问题

Javascript中得到中英文混合字符串的长度

python3中英文混合字符串的分离

谷歌拼音输入法快速切换中英文解决中英文混合打字问题

ssh解决中英文乱码问题

CSS中英文换行问题

中英文引号转义问题

PHP获取中英文混合字符串的字数

实现中英文混合string的逆向输出

JAVA截取中英文混合字符串

Java 截取中英文混合字符串

css中英文混合实现两端对齐

php 中英文混合字符串长度计算

判断字符串长度，中英文混合

C# 中英文混合字符串对齐

sqlite中英文混合排序的实现方式参考

Qt 中的中英文混排

linux中中英文逗号的区别

中英文分句

中英文统计

中英文换行

刷题时遇到的中英文 (LeetCode、PAT、POJ)

pyhton2 中解决读写文件中含中英文内容报错问题

今日推荐

周排行

Java基础系列-Java11特性解读

前端面试查漏补缺--(十一) 前端软件架构模式MVC/MVP/MVVM

java Listener监听器

矩阵的迹

运用MVP实现二级联动

019基于JSP的学生考勤管理系统(MySQL版)

一道逻辑题 - 我拿走了哪个数

C# 通用单例窗体类

分布式之消息队列复习精讲【转】

Mac 使用.bash_profile

每日归档

更多

2024-07-11(0)

2024-07-10(0)

2024-07-09(0)

2024-07-08(0)

2024-07-07(0)

2024-07-06(0)

2024-07-05(0)

2024-07-04(0)

2024-07-03(0)

2024-07-02(0)