【DeepDive】使用教程

一、DeepDive简介

deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。

二、DeepDive优势

  • deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法,分类算法,等用。在DeepDive的联合推理为基础的方法,用户只需指定必要的信号或特征
  • deepdive系统可以实现高质量:PaleoDeepDive比志愿者更高质量在提取复杂的知识科学领域和获奖的性能进入实体关系抽取的比赛
  • deepdive知道数据往往是嘈杂和不准确的:名字拼错的,自然语言是模糊的,人会犯错误。以这样的不精确性的考虑,deepdive计算校准对于每一个断言它使概率。例如,如果deepdive产生事实的概率是0.9,事实上90%可能是真的。
  • deepdive能够使用大量的数据从一个品种来源构建的应用程序使用。deepdive从数以百万计的文件,提取数据的网页,PDF文件,表格和数字。
  • deepdive允许开发者用某一领域的知识为了提高结果的质量写简单的规则告知推理(学习)process.deepdive也考虑到用户的反馈,对预测的准确性提高的预测。
  • deepdive能够使用数据学习“远亲”相反,大多数机器学习系统需要为每个预测冗长的训练。事实上,许多deepdive应用,尤其是在早期阶段,不需要传统的在所有的训练数据!
  • deepdive的秘密是一个可扩展的、高性能的推理和学习机过去几年,我们一直在努力使底层算法尽可能快的跑,技术率先在该项目是商业和开源工具,包括部分Madlib,黑斑羚,从产品Oracle,和低级别的技术,如“HOGWILD!他们也被列入微软的亚当和其他网络公司大

三、DeepDive使用教程

DeepDive安装

deepdive支持在linux和mac上安装,安装过程中需要在线下载资源,首先打开你的终端,开始安装
bash <(curl -fsSL git.io/getdeepdive)
### DeepDive installer for Mac
+ curl -fsSL https://github.com/HazyResearch/deepdive/raw/v0.8.x/util/install/install.Mac.sh
1) deepdive                 5) postgres
2) deepdive_examples_tests  6) run_deepdive_tests
3) deepdive_from_release    7) spouse_example
4) deepdive_from_source
# Select what to install (enter for all options, q to quit, or a number)? 1

deepdive在使用过程中,产生的数据都存放在数据库中,依赖于postgre、mysql等关系型数据库,可以直接输入如下命令在机器上安装postgre。

bash <(curl -fsSL git.io/getdeepdive) postgres

成功安装完了之后,则开始运行你的第一个例子

运行实例

1.下载实例

bash <(curl -fsSL git.io/getdeepdive) spouse_example

下载好了之后,需要修改一下db.url文件,将其中的数据库连接改为自己实际的连接路径。

2.数据加载

ln -s articles-1000.tsv.bz2 input/articles.tsv.bz2
deepdive do articles

当前步骤是将tsv中的文件导入到postgre中,为nlp做预备工作。

3.数据语义处理

deepdive do sentences

当前步骤是利用stanford-nlp将指定的文章分解成句子、单词,并且为这些词标注词性,标签等。依靠命名实体识别标签,我们能够识别出文章中提到的人物姓名

deepdive do person_mention

利用nlp处理后已经词性标记的句子,我们通过自定义python脚本来进行指定实体抽取。

deepdive do spouse_candidate

对于有监督的机器学习,该应用程序继续从这些候选人的背景下提取功能,并创建一个训练集编程发现有前途的正面和负面的例子,使用远程监督。

deepdive do spouse_feature

调用deepdive封装的ddlib工具包生成属性、文本特征集。

deepdive do spouse_label

通过启发规则(用户自己定义的关系规则)和已知数据(dbdata)对实体对进行distant supervise.

4.关系预测

deepdive do probabilities

使用处理后的数据,该应用程序构建了一个统计推断模型来预测是否提到一个正确的配偶或不提及,估计的参数(即,学习权重)的模型,并计算其边际概率。

扫描二维码关注公众号,回复: 16329494 查看本文章

猜你喜欢

转载自blog.csdn.net/u013412066/article/details/68065518