4 知识抽取与挖掘(下)

面向文本的知识抽取

关系抽取方法:特征向量/核函数/深度学习/通用模型/模板匹配/图推理

DeepDive关系抽取实战

KBC系统

填充,融合不同来源的知识

输入:非结构化的期刊文章/半结构化的html,table等

输出:结构化知识库

特征工程+distant supervision+图优化

考虑全局最优而不是某三元组最优

文本预处理->特征抽取(OCR/NLP)->统计推理与学习->迭代优化->自定义datalog语言调控->挂接分布式数据库

框架实战:抽取上市公司中股权交易关系

工程组成:

主程序文件app.ddlog:数据表定义/调用用户脚本udf/因子图定义

数据库文件db.url:定义数据表的存储位置

工程配置文件deepdive.conf:定义采样及训练方法

输入文件夹input

udf

开放域关系抽取

开放域IE->通用模型/不需要预定义关系/依赖于句法特征/全网规模但精度低

TextRunner

WOE

面临的挑战：

关系不一致，不准确

提取关系不包含有效信息

Reverb

基于动词的关系抽取

OLLIE

增加了基于名词和形容词抽取

Clause IE

基于子句的抽取

将句子拆分成各个从句，定义从句类型

OpenIE

可以回答不同用户提出的不同领域中的问题

知识挖掘

一、实体消歧与链接

实体链接：给定一篇文本中的实体指称mention，确定这些指称在给定知识库中的目标实体

二、知识规则挖掘

ILP基于归纳逻辑编程

ARM关联规则挖掘：OWL2公理可以被转换为关联规则

事物表Transaction Table

SRL统计关系学习：根据已知三元组对未知三元组成立的可能性进行预测

将链接两个实体的路径作为特征来预测其间可能存在的关系

通用关系学习框架generic relational learning framework

Path Ranking Algorithm

三、知识图谱表示学习

实体预测与推理

TransE/TransS/TransH

区分属性和关系学习

PRA和TransE可以互补

Triple Context = Triple + Path Context + Neighbor Context

Tai_Park

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

私信关注

4 知识抽取与挖掘(下)

猜你喜欢