机器学习实战(第二版)读书笔记(5)——Embedding - 代码天地

机器学习实战(第二版)读书笔记(5)——Embedding

企业开发 2023-04-10 05:32:46 阅读次数: 0

一、使用范围(作者经验)：

类别 < 10 通常采用独热编码方式。
类别 > 50( 通常这种情况需要使用哈希桶)，通常最好使用嵌入。
10 - 50 可以尝试两种方式，选择最优。

目的：同义词具有非常接近的嵌入（将嵌入向量当作嵌入空间中的坐标，则同义词在嵌入空间中对应的点挨得近，差别越大的词对应的点挨得越远）

二、举例：

如果计算King-Man+Woman(添加和减去这些单词的嵌入向量)，则结果非常接近Queen单词的嵌入(见图1)。换句话说，词嵌入编码了性别的概念!同样，可以计算Madrid-Spain+France，其结果接近Paris(巴黎)，这似乎表明首都的概念也在嵌入中进行了编码。也就是说embeding向量可以唯一表示为嵌入空间中的一个点，它是有意义的。

图1：相似词的词嵌入趋于接近，且似乎编码了有意义的概念

补充：

表征学习：对输入数据表征越好，神经网络就越容易做出准确的预测，因此训练使嵌入成为类别的有用表征。

三、代码

Keras提供了一个keras.layers.Embedding层来处理嵌入矩阵(默认情况下是可训练的)。创建层时，它将随机初始化嵌入矩阵，然后使用某些类别索引进行调用时，它将返回相应的行。下面是一个简单的应用——将数据用一个1*3的向量表示。

tf.keras.layers.Embedding()使用：tf.keras.layers.Embedding() 详解

代码：
vocab = tf.constant([1,1,2])
embedding = tf.keras.layers.Embedding(max(vocab)+1, 3)
embed = embedding(vocab)
print(embed)

输出：
tf.Tensor(
[[ 0.03242571  0.03685233  0.0223361 ]
 [ 0.03242571  0.03685233  0.0223361 ]
 [ 0.01391158  0.00046493 -0.00371295]], shape=(3, 3), dtype=float32)

猜你喜欢

转载自blog.csdn.net/qq_42018521/article/details/128849741

机器学习实战(第二版)读书笔记(5)——Embedding

机器学习实战(第二版)读书笔记(5)——通俗易懂Transformer

机器学习实战(第二版)读书笔记(2)—— 全面讲解LSTM&GRU

机器学习实战(第二版)读书笔记(1)——循环神经网络（RNN）

机器学习实战(第二版)读书笔记(4)——seq2seq模型&注意力机制（BahdanauAttention，LuongAttention）详解

Java消息服务（第二版）读书笔记

Effective java第二版读书笔记

剑桥学习科学手册（第二版）读书笔记目录

开发日记-20190829 关键词读书笔记《Unix环境高级编程（第二版）》DAY 5

《Effective Java中文版》第二版读书笔记

Effective Java 第二版读书笔记 (二) 引言部分

Lua 笔记读书笔记第二版 lua程序，Lua菜鸟教程

深入理解java虚拟机（第二版）读书笔记

深入浅出 jsp and servlet 第二版读书笔记

Effective Java 第二版读书笔记 (一) 为什么要写？

《Redis 设计与实现》第二版读书笔记之字典

《Redis 设计与实现》第二版读书笔记之字符串

《Redis 设计与实现》第二版读书笔记之跳跃表

《Redis 设计与实现》第二版读书笔记之链表

《Redis 设计与实现》第二版读书笔记之压缩列表

《Redis 设计与实现》第二版读书笔记之整数集合

《程序员工代码面试指南第二版》Python实现（个人读书笔记）

深入理解Nginx：模块开发与架构解析（第二版）读书笔记

Effctive C#第二版读书笔记2

Effective c# 第二版读书笔记1

软件测试（原书第二版）读书笔记（一）

黑客攻防技术宝典Web实战篇(第二版)_读书笔记（第六章~第七章）

黑客攻防技术宝典Web实战篇(第二版)_读书笔记（第一章~第三章）

黑客攻防技术宝典Web实战篇(第二版)_读书笔记（第四章~第五章）

《机器学习实战》读书笔记

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)