设施位置放置和K-中值的增量式算法 fotakis

Abstract

在Facility Location和k-Median的增量版本中，需求点一次到达一个，并且该算法必须通过将每个新需求添加到现有群集或将其置于一个新的单例群集中来保持一个好的解决方案。该算法还可以在任何时间点合并一些现有的群集。我们提出了设施位置的第一个增量算法，它具有统一的设施成本，实现了恒定的性能比，并且对k-Median的第一增量式算法实现了恒定的性能比率，使用O（k）中值。

1.Introduction

用于数据聚类的增量算法模型由实际应用来推动，其中需求序列事先不知道，并且该算法必须使用受限制的操作集合来维持良好的聚类，这导致分层结构的解决方案。 Charikar等人[3]引入了增量聚类框架，以满足信息检索中数据分类应用的需求。

在本文中，我们考虑度量设施位置和k-中值的增量版本。在增量式k-中值[5]中，需求点一次到达一个。每个需求都必须添加到现有集群中，或者在到达时放置在新的单例集群中。在任何时候，该算法还可以合并一些现有的群集。每个集群都由其中间设施表示，其位置在集群创建时确定。当某些集群相互合并时，新集群的median必须从其组件的median中选择。目标是维持一个由最多k个集群/中心组成的解决方案，该解决方案可以最大限度地减少迄今为止考虑的需求的总分配成本。需求的分配成本是与当前包含需求的集群的中心的距离。

在增量设施位置，需求点一次到达一个，并且必须在到达时分配到现有设施或新设施。在任何时候，该算法还可以通过关闭第一个设施并将当前分配给它的所有需求重新分配给第二个设施来将设施与另一个设施合并。目标是维持一个解决方案，使设施和分配成本的总和最小化。设施成本仅考虑当前开放的设施，而需求的分配成本则是当前被分配需求的设施的距离。

这两个问题都是由需求在线到达的设置集群问题推动的（例如集群网络，数据挖掘），并且该算法必须保持良好的解决方案而不需要完全重新集群。为了避免集群扩散，允许算法合并现有集群。在增量k-中值中，集群的数量是预先固定的。另一方面，增量设施位置为应用程序提供了一个模型，其中由于需求序列的先验信息有限，无法预先确定集群数量。因此，我们引入统一的设施成本，强制实施相对较少数量的集群。

我们使用性能比[3]评估增量算法的性能，其定义与竞争比率的定义基本相同（例如，[2]）。如果对于所有的需求序列，在同样的情况下，该算法的耗费最多是最优离线算法的c倍，其中离线算法知道完整的需求序列，则称增量算法可以达到c的性能比率。我们让n表示需求的总数。

与在线算法和数据流算法对比。与在线算法类似，增量算法承诺在不知道未来需求的情况下做出不可撤销的决策。更具体地说，当新的需求到达时，该算法可以决定将需求添加到现有群集或者将一些群集彼此合并。这些决定是不可撤销的，因为一旦形成，集群不能被分解。但是，我们并没有意识到任何简单和自然的不可撤销的成本概念与把一些需求合并到一起的决定相联系。

增量k-中值算法可以被认为是k-中值的自然在线版本。然而，增量设施定位与[10]中介绍的在线设施位置（OFL）的问题完全不同。尤其是，OFL的动机是网络设计应用，其中重新配置是昂贵且通常不可行的。因此，在特定地点开房设施并向设施分配需求的决定是不可撤销的，以及相应的成本也是不可撤销的。另一方面，增量设施定位的动机是集群应用，在这种应用中，合并现有集群不仅可行，而且也是理想的，并且重要的限制是现有集群不应该被破坏。因此，只有把一些需求聚集在一起的决定是不可撤销的。因此，OFL的竞争率为[6]，增量设施位置的竞争率为常数

增量算法也与用于聚类问题的单程流算法相似（例如，[9]为流计算模型的形式定义）。在流式算法的情况下，重点是空间和时间高效的算法，通过对输入进行理想的单次扫描来实现较小的近似比。针对k-Median的流式传输算法在解决方案的结构或可用操作集方面不受限制。另一方面，增量算法必须在做出不可撤销的决定的情况下来保持良好的层次聚类，但它们只能在多项式时间内运行。尽管如此，所有已知的用于聚类问题的增量算法都可以直接视为或轻易转换为有效的单程流算法（例如[3,8,5,4]和本文）。

Previous Work。 Charikar等人 [3]提出了k-Center的增量算法，该算法使用k个集群来实现常数的性能比。 Charikar和Panigrahy [5]提出了一种增量算法Sum k-Radius，它使用O（k）簇获得常数级别的性能比。他们还证明，任何确定性增量算法对于维持至多k个簇的k-中值必须具有Ω（k）的性能比。确定是否存在使用O（k）中值可以实现恒定性能比的增量算法被认为是[5]中的一个公开问题。

在[8,4]中，他们提出了k-Median的一次通过流算法，该算法假定n是事先已知的。对于比小得多的k，Guha等人的算法 [8]使用 medians 实现了的性能比，时间复杂度是，使用空间为。Charikar等人的算法 [4]使用 medians以高概率（whp.）实现了常数级能比，并且在时间和空间中运行。

OFL [10,6,1]的算法是设施位置唯一已知的增量算法。在OFL [10]中，需求一次到达一个，并且在抵达时必须不可撤销地分配给现有或新的设施。在[10]中，提出了和ω（1）的下界。在[6]中，下界被改进为并给出了 deterministic。在[1]中，它提供了一个简化的和更快的对于d维欧氏空间的算法。

只有在特定地点开放设施的决定是不可撤销的，[10,6]中的下界才会成立。因此，它们不适用于增量设施位置。然而，[6]的下界意味着每个维护设施的算法都必须承担总最初分配成本ω（1）乘以最优成本，其中需求的初始分配成本是它离第一个需求被分配到的设施的距离。因此，除非使用Ω（klogn）设施（例如，[4]的算法），否则将合并视为黑箱操作的每个算法都不能在常数因子内近似最优分配成本。换句话说，为了建立一个恒定的性能比率，需要一个合并规则，它可以有效地减少算法的设施和分配成本。

Contribution

我们提出了第一个度量设施位置的增量算法，其设施成本一致，可以实现常数级的性能比。该算法结合了开放新设施的简单规则和基于距离而不是成本考虑的新颖合并规则。我们使用一种新技术来证明类似于最佳解决方案由单一设施组成的特例的情况在分析中占主导地位。这种技术在[6]中也是隐含的，并且可能找到其他在线问题的应用。为了克服[6]的下界造成的限制，我们证明在主导的情况下，合并操作也降低了分配成本。

使用设施位置算法作为构建模块，我们获得了k-Median的第一个增量算法，该算法使用O（k）个中值来实现恒定的性能比，从而解决了[5]的问题。换句话说，我们改善了从到O（k）的常数级性能比率所需的中位数。将我们的技术与[4]的技术相结合，我们获得了一个随机增量算法，可以实现常数级的性能比率。使用O（k）中值并在时间和空间中运行。这个算法也可以被看作是k-Median的一个时间和空间高效的单程流传输算法。

Notion

我们只考虑单位需求，并允许多个需求位于同一点。对于增量设施位置，我们将注意力集中在统一设施成本的特殊情况下，其中开放设施的成本（用f表示）对所有点都是相同的。我们还可以互换地使用术语facility，median和cluster。一个度量空间M =（M，d）通常由它的点集M来标识。距离函数d是非负的，对称的，并且满足三角不等式。对于点u，v∈M和子空间M '⊆M，d（u，v）表示u与v之间的距离，D（M'）表示M'的直径，d（M'，u）表示u 和M0'的最近点的距离。 d（∅，u）=∞。对于一个点u∈M和一个非负数r，Ball（u，r）≡{v∈M：d（u，v）≤r}。

设施位置放置和K-中值的增量式算法 fotakis

猜你喜欢