Python_DL_July_深度学习_06_让计算机学会人类的文字:词嵌入

 

要对词去做编码,词与词之间是有关联的,对词组变成一些向量。对于图片是由RGB三个颜色通道组成,像素点是直接由这三个通道表示,颜色的差异度是可以通过RGB三个颜色的差异值体现出来。而文本不一样,它是一些更高层的数据。它是人造出来的一些token。我们希望词在空间当中,显示为一个分布状态。想实现一个单词在一种语言中的分布,与另一种语言中的分布相同。

 

要实现词在空间分布,就要把词映射到空间当中。并且把词与词之间的关系用距离表示,但这样也会出现一些问题。

  

 one-hot:给每个词一个下标,有多少个词,我就开多大的向量空间,并把对应下标的词设为1,其他都设为0.

猜你喜欢

转载自www.cnblogs.com/tlfox2006/p/13167538.html