nlp学习笔记一
编者:杨柳依依
日期:2018年9月25日
随同公司的培训,对nlp有了初步的理解,小白整理后的笔记如下:
自然语言的发展
语言随社会一同发展,出现
一词多义:苹果(水果),苹果(乔布斯公司)
多词一义:北京市,北京
简略词、缩写词:安徽,徽
新词:不明觉厉,十动然拒
新义:水军、打酱油
歧义问题:
音字转换(jiqi(机器)翻译jiqi(激起)ren men jiqi(及其) nong hou de xingqu)
词汇歧义(分词歧义):分词 严守一把手机关了
严守/一把手/机关/了
严守一/把/手机/关/了
分词问题在工作中还是挺常见的,比如江苏省长是谁,错误的情况下可能会分成江苏省/长/是谁,而实际想得到的是江苏/省长/是谁,这又让我想起nlp中让人吐血的分词例子,比如“来到杨过曾经生活过的地方,小龙女动情地说:我也想过过过儿过过的生活”,骑车差点摔倒,好在我一把把把把住了
结构歧义:
连接歧义:咬死了猎人的狗
并列歧义:美丽的蝴蝶和小鸟
语用歧义:
你真坏~
1.你做了坏事
2.妈妈对淘气的孩子,表达的是一种疼爱
3.女孩对男友的撒娇
篇章结构:
论证关系:
主旨句
各类修辞:
排比、对偶
比喻、隐喻(机器理解起来很难)
自然语言的处理的理解
自然语言处理是人工智能和语言学的分支学科,在此领域中探讨计算机是如何处理及运用自然语言,自然语言认知是指让计算机
懂人类的语言。自然语言生成是系统是把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的方式。
词、句、篇包含的任务有:
自然语言基础知识
两种处理模型:
能力模型:
基于语言学规则的模型
建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型是通过人工编辑的语言规则模拟这种先天的语言能力。又称为理性主义的语言模型。
建模方式:
-语言学知识形式化
-形式化规则算法化
-算法实现
基于统计的模型
根据不同的语言处理应用建立特定的语言模型,又称经验主义的模型
建模步骤:
-大规模真实语料库中获得语言各级语言单位上的统计信息
-以及较低语言单位上的统计信息运用相关的统计推理技术计算较高级语言单位上的统计信息
解决方法:
20%在解决问题,包括实验设计、性能优化
80%在定义问题,理解应用场景,思考解决思路,讲究落地姿态
语言理解(表示)包括隐式表示,文本分类,语义匹配,文本蕴含,显示表示,信息抽取,句法分析
语言生成包括语言转换,机器翻译,自动摘要,推理生成,对话系统