NLP基础Embedding
keras:3)Embedding层详解,看这篇更详细:
keras.layers.embeddings.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)
input_dim:就是多少个单词,大或等于0的整数,字典长度,即输入数据最大下标+1
output_dim:单词转换后成为的词向量的维度,大于0的整数,代表全连接嵌入的维度
embeddings_initializer: 嵌入矩阵的初始化方法,为预定义初始化方法名的字符串,或用于初始化权重的初始化器。参考initializers
embeddings_regularizer: 嵌入矩阵的正则项,为Regularizer对象
embeddings_constraint: 嵌入矩阵的约束项,为Constraints对象
mask_zero:布尔值,确定是否将输入中的‘0’看作是应该被忽略的‘填充’(padding)值,该参数在使用递归层处理变长输入时有用。设置为True的话,模型中后续的层必须都支持masking,否则会抛出异常。如果该值为True,则下标0在字典中不可用,input_dim应设置为|vocabulary| + 2。
input_length:当输入序列的长度固定时,该值为其长度。如果要在该层后接Flatten层,然后接Dense层,则必须指定该参数,否则Dense层的输出维度无法自动推断。
https://blog.csdn.net/jiangpeng59/article/details/77533309
Embedding小结:1注意这只可作为网络第一层使用,2嵌入是从离散对象(例如字词)到实数向量的映射。
https://blog.csdn.net/hffhjh111/article/details/86993854
手把手教你训练word2vec以及入门它的原理
https://zhuanlan.zhihu.com/p/82022962
pyltp安装中的各种坑
看这个网址怎么安装
https://blog.csdn.net/u012706626/article/details/82769489
用你指定的anaconda环境从控制台进入pyltp-master目录后,输入命令:python setup.py install
即可进行ltp的安装
命名实体识别学习笔记——使用Ltp、ltp模型的下载
这个网址只是解释ltp使用到的模型的作用
https://blog.csdn.net/xuewenstudy/article/details/85028173
matchzoo package
中科院开源的文本处理工具:
https://matchzoo.readthedocs.io/zh/latest/matchzoo.html
算法工程师技能树(四):文本匹配
https://zhuanlan.zhihu.com/p/64847264
BM25文本检索:
文本相似度-bm25算法原理及实现
https://blog.csdn.net/u011734144/article/details/79559295
bm25原理:
https://github.com/cjymz886/sentence-similarity#2-%E7%AE%97%E6%B3%95%E5%8E%9F%E7%90%86
https://blog.csdn.net/weixin_41090915/article/details/79053584
同义词查找
最好的中文近义词工具包:Synonyms
https://github.com/huyingxi/Synonyms
synonyms同义词提示、中文分词、词性识别工具
https://github.com/tigerchen52/synonym_detection
商品推荐
深度学习在电商商品推荐当中的应用、item2vec,此篇文章使用huffman编码来代替one-hot编码,节省了空间
https://zhuanlan.zhihu.com/p/28941537
基于深度神经网络的推荐算法
本文讲得非常好列举了NCF(结合emmbedding和神经网络推荐模型)的几种例子:GMF、MLP,还有此两者的结合NeuMF,图例看起来非常爽。
https://cloud.tencent.com/developer/news/322989
关于上文所提到的算法的代码实现见: