第三章 3、3文本预处理之文本的表示（Word Representaion） - 代码天地

第三章 3、3文本预处理之文本的表示（Word Representaion）

其他 2020-04-10 17:44:48 阅读次数: 0

一、文本标识

单词的标识

给定一个构建好的词典库，在词典库基础之上，使用One-hot编码：出现单词的地方标1，没出现的单词标0
在这里插入图片描述

句子的表示
基于0/1：先对巨资进行分词，然后对句子使用One-hot编码。不统计出现的次数，出现就标1
基于计数：统计分词之后单词在词典库中出现的次数

二、计算相似度

句子用向量表示出来之后，就可以套用数学公式，向量是有方向的。
欧氏距离：欧几里得距离。结果越小越好，说明二者在坐标图上接近。但是没有考虑方向在这里插入图片描述
余弦相似度：最常用的。

基于计数统计表示的有一个缺点：有限动词很重要但是出现的次数少，有些虚词出现的次数多但是不重要。

tf-idf向量表示方法：可以解决出现次数和重要性不匹配的问题。
-默认出现的次数越小越重要，取Log。

在这里插入图片描述

三、相似度计算的改进

上面所讲的都属于One-hot编码，可以用欧式距离或者余弦计算相似度。
但是这两种方法会有问题么？
在这里插入图片描述
答案是会出现问题：假设用0/1 One-hot编码，计算单词之间欧式距离的时候，相似度一样。
用余弦相似度计算也有问题。

所以计算单词之间的相似度的时候不可用One-hot编码。

而且使用One-hot编码的时候，会出现大量的冗余，也不能表示单词之间的语义通顺性。
所以使用分布式的表达。
在这里插入图片描述

单词向量的分布式表达：向量长度我们自定义，带入一个模型里面，会输出一个计算好的向量。

在这里插入图片描述
分布式表达就是词向量：基于词向量求单词的相似度

词向量如何得到？
基于深度学习模型，输入大量的语料库，可以输出自己定义维度的词向量。
可用于多个领域，金融，医疗等等。

词向量模型的优点：
在这里插入图片描述

从词向量到句子embedding
1、对句子进行分词。每一个单词永磁向量来表示
2、用词向量的算数平均数标识句子
3、使用LSTM/RNN来标识句子

案例讲解

匹配句子的时候如何加速？
使用倒排表，先去掉不包含输入句子里面单词的问题，第一层过滤。
然后在进行相似度匹配
在这里插入图片描述

发布了31 篇原创文章 · 获赞 3 · 访问量 878

私信关注

猜你喜欢

转载自blog.csdn.net/qq_38888209/article/details/104459186

第三章 3、3文本预处理之文本的表示（Word Representaion）

第三章 3、1 文本预处理之分词（Word Segmentation）

第三章 3、2 文本预处理之拼写纠错（Spell Correction）

3 第三章递归

第三章处理数据

第三章 - 处理数据

第三章、处理数据

第三章——处理数据

第三章之树

第三章之异常

第三章-处理原始文本

第三章函数预处理

第三章数据的预处理与特征构建

第三章：paddlepaddle文本分类

Day3 第三章线性模型

算法入门经典第三章（3）

《算法》第三章部分程序 part 3

第三章.3节文件系统接口

## CSAPP读书日记-第三章-3

《学习OpenCV》第三章课后题3

第三章-3 Metasploit密码爆破模块

第三章CDMA的原理和应用(3)

learning OpenCV 3 第三章习题答案

learning opencv3第三章

第三章多表操作3（多表查询）

第三章程序的机器级表示

第三章机器的程序级表示

第三章机器的程序级表示（中）

第三章机器的程序级表示（下）

第三章信息编码与数据表示

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)