因果分析与关联分析的联系

因果分析中的关联分析

因果分析的发现在大数据背景下变得越发重要,在数据分析领域,人们开始尝试着利用人工智能对数据进行因果分析,但一个因果关系的得出是错综复杂的,不单单是通过机器就能够解决的。

在数据分析中,我们始终对因果分析问题感到困扰,搞不清楚事物间的因果联系。一般最先从统计角度对可用数据进行分析,通过具体的分析方法处理数据,特征学习建立分析模型,而因果分析在本质上与机器学习建模预测不同。虽然我们可以尝试通过学习带有类标签的数据建立模型来预测结果,但是我们并不能确定预测的结果、也不清楚预测的过程、有些时候对于结果我们更多的是未知大于已知。

 

因此要清楚究竟想寻求怎样的因果关系,首先要明白因果关系是一个事件(即“因”)和第二个事件(即“果”)之间的作用关系,其中后一事件被认为是前一事件的结果。一般来说,一个事件是很多原因综合产生的结果,而且原因都发生在较早时间点,而该事件又可以成为其他事件的原因。

关联分析中挖掘出的有用的关联规则能够为因果分析提供初始的原因条件,因为关联分析能够发现大量数据集中项集之间的关联性或相关性,以及两个或多个变量的取值之间存在某种规律性。这样关联性的规则便是因果关系中的“数据源”。因果分析基于这些规则去发现事物间的因果关系,这便需要在关联分析的基础下结合规则出现的时间顺序进行深一步的因果分析。

图关联规则发现因果关系

在现在数据特征如此丰富的背景下,数据分析工具被期望挖掘出清晰的、准确的、可解释的关联规则的同时能够根据时间的先后顺序进行深层次的分析,但是现有的关联性分析工具中分析出的关联规则都是基于关系型数据的表达式:而且这些表达式在大部分业务场景中并不能清晰的描述出发现的规则,更不具备可解释性,因而更难去进行深一步的因果分析。

规则表达式

同时 在数据规模越来越大、数据结构越来越复杂的大数据时代,传统的关系型数据暴露出了建模缺陷、水平伸缩等诸多问题,因此具有更强大表达力的图结构下的数据开始被大量领域用于存储、处理、分析数据。图(Graph),将信息中的实体,以及实体之间的关系,分别抽象表达成顶点以及顶点间的边这样的结构数据。用于挖掘人、物和实体间的潜在不易观察的行为和联系,图结构更够更好的表达数据之间的关联性,在行业中许多非图结构的数据,也常常被转换为图数据进行分析。

 图 Graph

图数据能够刻画个体之间的关系,尤其适合大数据关联关系相关的分析计算。通过图的边、点、属性等特征实现了关联分析中的“因”的深度挖掘,为因果分析的“归因”提供了基础深层次、高精准,可解释的关联规则才能辅助数据分析人员进行正确的、有效的、可解释的因果分析

通过图数据进行关联分析得到关联规则;以及将关系数据以图结构的方式去存储、处理、分析;使用图关联规则去呈现数据间的相关性,使得规则更具备可解释性,并且通过关联规则中的时间顺序,将事物间的关联性联系的更加紧密,有利于数据分析人员知晓关联规则中的前因后果,对数据进行深层次的因果分析。

实现关联到因果的工具

对于关系型数据转图数据的研究在数据领域已经有很多人在做了,尤其在数据库方面,图数据库已然遍地开花;但是基于图数据的数据分析工具却在行业里并不多见,图数据库也仅仅是基于图结构处理、存储数据,并不能针对性的分析数据中的相关性。图数据的能量并没有被完全发掘出来,行业中迫切需要能够深度处理图数据的数据分析工具,这不仅是挖掘数据中存在的关联规则的关键,更是由而分析因果关系的重要基础。

经网罗各大在线平台数据分析工具,除图数据库以外,真正做到从关联规则实现因果关系的数据分析工具便是——关河因果。长时间的循环复用了这款数据分析工具后发现,这款分析系统不仅做到了如图数据库般将关系型数据基于业务需要在线转换为图数据(实时在线转换,无需存储,不改变原始数据),再从大规模的图数据中自动挖掘关联规则。相比于图数据库将关系型数据转换为图数据,在对图数据进行处理繁琐的分析过程,再通过图结构展示数据间的关联规则。关河因果更便捷的得到了关联结果,还没有改变数据原始的存储状态,同时在现今数据领域中大部分数据源都还是以关系型存储的,因此关河因果更加适用于如今的行业需求。而且其时间滑窗的功能解决了不同时间段对规则产生的影响,能够更好的辅助人为根据关联规则去分析数据中的因果关系,因为经由关河因果挖掘的关联规则是更准确的,更深度的,更全面的。实现了从关联分析进入因果分析。

关联规则实例

以上资料都是基于国内现状查询整理的。如有需求,后续将会继续为大家分享国外数据分析工具的资讯。

猜你喜欢

转载自blog.csdn.net/DuJinn/article/details/126344227