作者:禅与计算机程序设计艺术
1.简介
: Natural language processing(NLP)是一种自然语言处理领域中的一个重要分支,其目的是使计算机“懂”人类语言、理解并生成类似于人类的语言。在过去几年里,深度学习技术的发展为NLP提供了更高的准确性和可靠性。本文将对PyTorch中用于NLP的主要模块进行介绍,从而帮助读者了解NLP及其在深度学习中的应用。
2.基本概念术语说明:首先,让我们回顾一下NLP的基本概念:
- 文本:文字或语句组成的集合。
- 词:指的是单个词汇。例如:“Hello”,“world”。
- 句子:一组单词或者短语组成的完整语句。例如:“The quick brown fox jumps over the lazy dog。”
- 文档:通常是一个完整的句子、段落或篇章。可以认为是一篇文章。
- 语料库:由大量的文档构成的总体资料库。例如,维基百科语料库。
- 标记化:把文本中的每个字符都标记上不同的标签(如:名词、动词等)。标记化会根据上下文赋予不同的含义,从而提高了文本的表达能力。
- 停用词:一些在文本分析时无用的词。例如,“the”, “a”, “an”。
- N-gram:一组连续的单词。例如:“the quick brown”就是一组三元词。
- TF-IDF:Term Frequency–Inverse Document Frequency。统计每一个词在文档中出现的频率,然后计算出每个词对