词性标注 Pos Tagging
1、introduction
每一行的单词对应它的词性
学习如何把一个句子中的每个单词进行标记
- noisy channel model:
argmaxP(z|s)=p(s|z)p(z)=p(w1w2w3…wn|z1z2z3…zn)p(z1z2…zn)
- 前半部分:给定一个词性,出现该词的概率
- 后半部分:biagram prob
目的:找到最好的z,使得在给定s下,词性的概率最大
加入log
需求:求出三个部分的概率:
- step 1: compute A,B,PI
- step 2:Viterbi algorithm
对于优化z中的参数解释:
将词性的序列对应隐状态序列,将词序列对应观测序列
- p ( w i ∣ z i ) p(w_i|z_i) p(wi∣zi): 从隐状态转移到观测序列的概率
- p(z): 初始概率
- p ( z t ∣ z t − 1 ) p(z_t|z_{t-1}) p(zt∣zt−1)从t-1时刻的状态转移到t时刻的概率,在这里代表不同词性在文章中的关系
给定条件:每一个时刻的词的出现只与当前的词性相关。
假设: w i w_i wi当前词只依赖于当前的词性 z i z_i zi