面向文本的知识抽取
关系抽取方法:特征向量/核函数/深度学习/通用模型/模板匹配/图推理
DeepDive关系抽取实战
KBC系统
填充,融合不同来源的知识
输入:非结构化的期刊文章/半结构化的html,table等
输出:结构化知识库
特征工程+distant supervision+图优化
考虑全局最优而不是某三元组最优
文本预处理->特征抽取(OCR/NLP)->统计推理与学习->迭代优化->自定义datalog语言调控->挂接分布式数据库
框架实战:抽取上市公司中股权交易关系
工程组成:
主程序文件app.ddlog:数据表定义/调用用户脚本udf/因子图定义
数据库文件db.url:定义数据表的存储位置
工程配置文件deepdive.conf:定义采样及训练方法
输入文件夹input
udf
开放域关系抽取
开放域IE->通用模型/不需要预定义关系/依赖于句法特征/全网规模但精度低
TextRunner
WOE
面临的挑战:
关系不一致,不准确
提取关系不包含有效信息
Reverb
基于动词的关系抽取
OLLIE
增加了基于名词和形容词抽取
Clause IE
基于子句的抽取
将句子拆分成各个从句,定义从句类型
OpenIE
可以回答不同用户提出的不同领域中的问题
知识挖掘
一、实体消歧与链接
实体链接:给定一篇文本中的实体指称mention,确定这些指称在给定知识库中的目标实体
二、知识规则挖掘
ILP基于归纳逻辑编程
ARM关联规则挖掘:OWL2公理可以被转换为关联规则
事物表Transaction Table
SRL统计关系学习:根据已知三元组对未知三元组成立的可能性进行预测
将链接两个实体的路径作为特征来预测其间可能存在的关系
通用关系学习框架generic relational learning framework
Path Ranking Algorithm
三、知识图谱表示学习
实体预测与推理
TransE/TransS/TransH
区分属性和关系学习
PRA和TransE可以互补
Triple Context = Triple + Path Context + Neighbor Context