论文解读:PRIPEL:包含上下文信息的隐私保护事件日志发布

PRIPEL: Privacy-Preserving Event LogPublishing Including ContextualInformation

解决的问题

现有技术仅限于流程的控制流,而忽略上下文信息,例如属性值和持续时间。因此,这排除了涉及上下文因素(时间戳,属性值)的任何形式的过程分析。为了弥合这一差距,我们引入了PRIPEL,这是一种用于感知隐私的事件日志发布框架。与现有工作相比,PRIPEL具有截然不同的角度,可确保在个别案例的级别(而不是完整的日志)上保持隐私。这样,可以保留上下文信息以及长尾过程行为,从而可以应用一系列丰富的过程分析技术。

引言

在这里插入图片描述

如此丰富的事件日志不仅能够发现流程的控制流模型,而且还为多维分析提供了起点,该分析将上下文对流程执行的影响纳入其中。一个例子是根据时间信息(例如,夜间到达),患者特征(例如,年龄和性别)和活动结果(例如,分配的药物)来预测患者的剩余等待时间[23]。包含此类上下文信息可为细化案例类别。

事件日志,尤其是那些包含上下文信息的日志可能包含与敏感数据相关的事件指向涉及流程执行的个人[26]。

排除了上下文因素会阻止任何细粒度的分析,而这些分析会包含不同类别案例的详细信息。但是,以匿名性为背景的上下文信息聚合(参见[12])不适合克服此限制。这样的聚合导致长尾处理行为的损失,即罕见的罕见情况痕迹,因此对于任何分析都特别重要(例如由于异常的运行时特性)。

所提方法

我们的想法是确保事件日志基于个体案例而不是整个日志具有差分隐私性。为此,PRIPEL框架充分利用了差分隐私的并行组成原则。基于活动序列的不同私有选择,来自原始日志的上下文信息通过序列丰富步骤进行整合。随后,按照局部差分隐私原则对集成的上下文信息进行匿名处理:

优势

在各个案例的水平上确保隐私是根本不同的角度,这使我们能够克服现有工作的上述局限性。 PRIPEL是第一种方法:

  • 不仅可以确保控制流的差分隐私,还可以确保事件日志中的上下文信息的差分隐私
  • 同时又保留了长尾过程的大部分行为,因为差异性隐私可确保不再识别属于特定个人的个人数据

概念

确保本地差分隐私

定义了一个匿名函数,该函数将噪声插入数据中,以隐藏有关个人的信息,同时保留尽可能多的有关总体人口的特征。已经开发了几种这样的机制,以匿名化各种数据类型,包括确保数字,分类和布尔数据具有差分隐私的机制。

  • 数值数据–拉普拉斯机制:拉普拉斯机制[5]是数字值的加性噪声​​机制。它从拉普拉斯分布中提取噪声,该噪声是根据隐私参数和数据分布的敏感度进行校准的。后者定义为每个人可能造成的最大差异。
  • 布尔数据-随机响应。为​​确保布尔数据具有差分隐私,用户可以使用随机化响应[37]。该算法基于以下思想:掷硬币决定是否显示个人的真实价值,或者是否选择了随机值。在此,随机化取决于差分隐私保证的强度。在本文中,我们将使用所谓的二进制机制[16]。
  • 分类数据-指数机制。要处理分类数据,可以使用指数机制[27]。它可以定义类别值的域的不同潜在值之间的效用差。一个值被另一个值交换的概率取决于引入的概率损失。
  • 差分隐私的并行组成。鉴于能够为各种数据类型提供差分隐私的机制,(本地)差分隐私的关键属性是它是组成性的。直观上,这意味着当对不相交的数据集执行的多个-differential-private机制的结果合并时,合并后的结果还提供了-differential privacy [28]。

PRIPEL框架

在这里插入图片描述
框架将事件日志作为输入并将其转换为匿名的,包括上下文信息和保证-差分隐私。

  • 首先应用跟踪变量query Q,查询返回活动序列多集,以确保从控制流角度来看不同的隐私。
  • 其次,该框架通过从原始logL中丰富上下文信息(即时间戳和属性值)来丰富Q所获得的活动序列,从而构造了新的踪迹。这可以实现序列富集,这将导致matched 事件日志Lm。
  • 最后,PRIPEL通过利用差分隐私的并行组成的最大值,分别匿名化时间戳和属性值。产生的事件logL’保证了-差分隐私,同时很大程度上保留了原始logL的信息。

Trace Variants Query

框架的第一步从控制流的角度着眼于事件日志的匿名化。特别是,该框架应用了一个轨迹变量查询,该查询返回活动序列多集,这些活动序列以差分私有方式捕获轨迹变量及其频率。考虑到即使从事件日志中发布活动序列,即删除所有属性值和时间戳,也足以将个体的身份与不频繁的活动序列联系起来,所以这一步骤是必不可少的[12,25]。例如,非常规治疗路径可能足以解决特定患者的身份。在PRIPEL中,我们采用了最新的隐私保护轨迹变量查询实现[25]。它采用拉普拉斯机制(请参见第2.3节)在轨迹变量查询的结果中增加噪声。如表2中示例性查询结果所示,此机制可以更改轨迹变体的频率,完全删除变体并引入新的变体。请注意,trace variant查询的大小通常与原始日志中的跟踪数量不同。所使用的tracevariant查询配置有两个参数,n和k,这会影响该机制用于生成查询的前缀树。
在这里插入图片描述
n设置前缀树的最大深度,该深度确定查询返回的活动序列的最大长度。根据所探索的潜在活动序列的数量,使用参数进行绑定以限制机制的状态空间。较高的k意味着仅考虑更常见的前缀,这会减少运行时间,但可能会对结果日志的效用产生负面影响
在这里插入图片描述

案例研究

sepsis:1050个跟踪分布在846个跟踪变体中。

测试了不同参数,

事件日志的效用

运行时间

考虑了三个级别:

  • 事件级别(属性):
  • 轨迹级别(持续时间):
  • 日志级别(流程工作量):

数据属性值:在事件级别,我们将匿名日志中数据属性的值分布与原始分布进行比较。败血症日志主要具有布尔值的属性。它们的值分布的质量易于量化,即通过将匿名logL’中的真实值的分数与L中的分数进行比较。为了说明差分隐私参数对属性值质量的影响,我们评估了布尔属性 InfectionSuspected 的值分布。如表4所示,此属性的真值在原始日志中对81%的情况为真.
在这里插入图片描述
匿名的分布合理的保留了最高ε值,即最不严格的隐私保证。在那里,分布具有75%的真实值。然而,对于更强的隐私保证而言,分布的准确性下降了,对于ε= 0.1,几乎达到了完全随机性。这说明可以为某些隐私级别保留属性值的质量,但对于更严格的设置可能会受到影响。请注意,鉴于这些结果是通过对单个值进行匿名处理而获得的,为获得更强的隐私担保而降低的质量与差分隐私的概念固有地联系在一起,因此与PRIPEL框架的细节无关。

案例持续时间。接下来,我们调查匿名日志中案例持续时间的准确性。与先前讨论的单个事件属性的质量不同,案例持续时间的质量受框架的所有三个步骤影响。因此,在解释表4中描述的结果时,重要的是要考虑到匿名记录中的最大迹线绑定到30个事件(由于选择了参数n),而原始记录包含的迹线最多包含370个事件。但是,由于增加了噪音,我们仍然可以在匿名日志中观察到更长的持续时间。此外,在所有情况下,平均案例持续时间都远远高于中位数案例持续时间。这表示就更长的持续时间而言,日志包含多个异常值。所有匿名日志都揭示了这一见解。我们得出的结论是,PRIPEL保留了有关轨迹级别的见解,例如案例的持续时间。

流程工作量:最后,在日志级别,我们根据在任何特定时间处于活动状态的案例数来考虑流程的总工作量。鉴于匿名事件日志可以具有比原始日志高得多的跟踪数量,如图3所示,考虑活动案例的相对数量随时间的进展。红色圆点表示原始事件日志,蓝色三角形表示匿名事件日志,其值为= 1.0。该图清楚地表明随着时间的推移总体趋势是持续的。但是,匿名日志显示的工作量始终高于原始日志。此外,匿名日志的时间变化不是那么严重。这表明必要的噪声插入可以消除某些变化。尽管如此,结果表明PRIPEL保留了进行此类日志级过程分析的效用。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42253964/article/details/108594854
今日推荐