目录
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
Markov模型1
设
N阶Markov模型,只需修改状态空间的定义S’={X}。定义新的变量
使得
并且约定:
Markov模型的形式化表示,一个马尔可夫模型是一个三元组
,其中S是状态的集合,
是初始状态的概率,A是状态间的转移概率。
发射字符依赖于当前状态,不同状态,有不同输出。
HMM:不同状态可以有相同输出,输出在状态转移中进行。
Markov模型2
HMM模型:
最大的灵活性在状态转移中以特定概率输出。
##HMM模型:
HMM是一个五元组(S,k,pi,a,b),其中s是状态的集合,k是输出字符的集合,pi是初始状态的概率,a是状态转移的概率。b是状态转移时输出字符的概率。
t:=1
以概率
在状态
开始(ie,X1=i)
forever do
move from state Si to state Sj with
probability
Emit observation symbol Ot=k
with probability b
t:=t+1
end
##HMM的基本问题
给定一个输出的字符序列。如何调整模型的参数使得产生这一序列的概率最大,IBM Watson医生。 隐马模型的基本问题:给定一个模型M=(S,k,pi,a,b),如何高效地计算某一输出字符序列的概率P(O|u)。
给定一个输出字符序列O和一个模型u,如何确定产生这一序列概率最大的状态序列
(X1,x2)
词网格分类,音字转换。网格cell states。
问题1:评价(evaluation)
给定一个模型u=(s,k,pi,a,b)如何高效地计算某一输出字符序列的概率P(O|u)。
O=(o1,o2,…,or),u=(a,b,pi)
计算P(O|u)。
给定词网格最优路径
方案一:直观方法。
X1–>o1
P(o|x,u)=bx1oz=
动态规划,递推求解。
方案2:向前过程
=
Markov 模型3
向前过程
RRGB
动态规划法
向后过程概述:
KaTeX parse error: Expected 'EOF', got '\lmd' at position 5: P(O|\̲l̲m̲d̲)=\sum_{1<j<N}p…
算法效率与前算法相同。
用途:参数训练问题的一个重要组成部分。
##解码
确定产生概率最大的状态
delta为在t时刻到达状态j,输出字符Ot时,输出前面t-1
个字符的最可能路径的概率。
delta_j(t)=max_{xi…xt+1}P(x1…xt+1,O1…Ot-1,Xt=1,Ot)
delta+{t+1}(j)=max_deltat(j)aijbij(ot+1)
viterbi algorithm:
初始化:
delta(i)=piibi(Oi)
phi(i)=0
递归:
最优路径 qt=phi_t=1(Qt+1)
把连乘变成加。
参数统计
argmax_uP(O|u)
Markov模型4
设计更新计算更新值。basic思想。
设定模型的初始值,U-old。
基于U_old计算输出U_new和O的概率。
如果P(o|u_new)-P(O|u_old)<某个阈值
停止
否则,U_old<-U_new返回step2.
Baum-Welch算法。
向前向后算法。
基于HMM的词性标注。
词性标注:
作用句法分析的前期步骤
难点:兼类词。
词性标准应用:
Tbest=argmaxPr(T|s)=argmaxP(S|t)P(T)
如何计算P(S|t)和P(T)
简化:
词wi的出现,仅仅依赖于它的词性标记,标记ti的出现仅仅条件依赖于它前面的标记t_i-1
公式转化 计算P(S|T)和P(T)
Pr(S|t)Pr(t)=\timr P(Wi|ti)P(Ti|ti-1)
使用最大相似度估计:
P(Ti|ti-1)=c(ti,tj)/c(ti)
音字转换
发射字符:状态是什么?
发射字是什么?
不是什么?转化为生产力的学习。
Markov模型(5)
HMM评价,解码编码问题
ch6尾声,音字转换
T=argmax(v|s)
语言单位间的远距离约束
递归模型
规则与统计相结合
采用规则的方法:
短语结合规则:
A+NP->NP
A+‘的’+NP->NP
M+‘枝’+NP->NP
短语匹配算法。
从词网格到元素网格
颗粒度疏,工作量太大。
规则匹配强度不够。
做了几个宣传词,要有自己的优势项。
还做了系统挂接问题。