机器学习这四个东西，你知道吗？

其他 2020-04-02 11:12:47 阅读次数: 0

分类变量特征提取

分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding):
通过二进制数来表示每个解释变量的特征

from sklearn.feature_extraction import DictVectorizer
onhot_encoder = DictVectorizer()
instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}]
print (onhot_encoder.fit_transform(instances).toarray())


[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]

文字特征提取-词库模型

文字模型化最常用方法，可以看成是独热编码的一种扩展，它为每个单词设值一个特征值。依据是用类似单词的文章意思也差不多。可以通过有限的编码信息实现有效的文档分类和检索。

CountVectorizer 类会将文档全部转换成小写，然后将文档词块化(tokenize).文档词块化是把句子分割成词块（token）或有意义的字母序列的过程。词块大多是单词，但是他们也可能是一些短语，如标点符号和词缀。

CountVectorizer类通过正则表达式用空格分割句子，然后抽取长度大于等于2的字母序列。

 from sklearn.feature_extraction.text import CountVectorizer
corpus = [
   'UNC played Duke in basketball',
  'Duke lost the basketball game',
  'I ate a sandwich'
 ]
 vectorizer = CountVectorizer()
 print (vectorizer.fit_transform(corpus).todense())
print (vectorizer.vocabulary_)

猜你喜欢

转载自blog.csdn.net/weixin_44510615/article/details/105200978

机器学习这四个东西，你知道吗？

机器学习这四个东西，你知道吗？

工业设计的四个主要阶段，你都知道吗？优漫动游

这四个问题场景你会排查原因吗？看看高手是如何使用 Arthas 快速定位原因的！

项目需要的这些东西你知道吗

学习笔记：Android这四个你不可不知的知识点，你都了解多少？

【Python学习】* 的用法你知道吗 ~

你知道吗

你知道吗？

扔掉这四个KPI吧

学习JavaScript必须知道的10个难点，你都知道吗？

Python的四大神器，你知道吗？

springboot(四)——@EnableConfigurationProperties是如何起作用的你知道吗

Filecoin的四种收益模式，你知道吗？

2018从这四个方面为你解读，人工智能行业发展

从历史、产品、应用和平台这四个角度带你初步了解GPU

十点读书：如果你不想工作了，就去这四个地方走走

大数据入门，你需要懂这四个常识

电脑开机黑屏怎么办?这四个方法能帮到你

品牌传播不理想？你需要参考这四个要素

程序员如何做到五年买房？这四个问题告诉你

为什么大数据项目总失败？你没问对这四个问题！

了解“预编译、编译、汇编、链接”这四个过程对你有很大帮助

你的密码为什么不安全？原因是这四个

照片无损放大的软件叫什么？这四个软件让你实现无损放大操作

CAS你知道吗？

Restful你知道吗？

Java的21个技术点,你知道吗？

iOS 13的5个小技巧，你知道吗？

5个酷毙的Python工具，你知道吗？？？

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)