sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法 - 代码天地

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

其他 2018-05-13 21:12:08 阅读次数: 0

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候，会默认把长度<2的字符抛弃，例如下面的例子：

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0)
x_train = vect.fit_transform(x)
x_train.toarray()

1
2
3
4

其执行后的编码如下：
这里写图片描述

那么如果我们想要保留‘I’这种长度只有1的字符该怎么办呢？具体方法如下：
我么你可以指定最小的df，并且指定切分单词的模式，具体的例子：

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0, token_pattern='\w+') x_train = vect.fit_transform(x) x_train.toarray()

1
2
3
4

运行结果：
这里写图片描述

猜你喜欢

转载自www.cnblogs.com/fujian-code/p/9033253.html

sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串

理解sklearn.feature.text中的CountVectorizer和TfidfVectorizer

sklearn CountVectorizer\TfidfVectorizer\TfidfTransformer函数详解

Sklearn–(2)

文本数据预处理：sklearn中CountVectorizer、TfidfTransformer和TfidfVectorizer

sklearn——TfidfVectorizer笔记

sklearn——CountVectorizer详解

sklearn countvectorizer坑

sklearn CountVectorizer 单字

tf-idf：sklearn中TfidfVectorizer使用

Python sklearn 中的TfidfVectorizer参数解析

python sklearn包中的CountVectorizer函数

sklearn中的分类方法

sklearn 随机森林方法

sklearn评估模型的方法

Sklearn 中常用方法

sklearn方法大全

sklearn的评估方法

sklearn中的Logistic回归

sklearn中的manifold

Sklearn中LabelEncoder与OneHotEncoder

sklearn中的Pipeline

sklearn 中的 Pipeline 机制

Sklearn 中的 GridSearchCV

sklearn中pipeline机制

sklearn中的 Pipeline 类

sklearn中的异常检测

python 中的 sklearn 初识

sklearn中的模型评估

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)