【抽样理论】有偏抽样和生存者佯谬

一、说明

        在统计学中,抽样是需要无偏的,抽样过程是需要严格设计的。否则就可能产生与事实完全不同的结论。半篇以历代统计学者的经验,讨论这种偏差背后的逻辑内容。

二、有偏采样

        有偏采样是指在样本的选择过程中,某些样本的概率被赋予了更高的权重或优先级,从而导致样本集合不再具有代表性和随机性。这种采样方法会导致所得到的样本集合与总体存在偏差,进而影响到分析和结论的准确性。

        举个例子,如果在对一个城市的人口进行调查时,只选择在市中心地区居住的人作为样本,那么这种采样方法就是有偏采样。因为这种采样方法会忽略在郊区或远离市中心的人口,在一定程度上无法代表该城市的整个人口分布。

        在数据分析和机器学习中,有偏采样也可能导致算法的精度和泛化能力下降,因此需要采用更为均匀和随机的采样方法来确保结果的准确性和可靠性。

三、何为单方论证

    

        单方论证压制证据,或不完整证据的谬误,是一种非形式谬误,是指向似乎证实特定立场的个别案例或数据,而忽略可能与该立场相矛盾的相关和类似案例或数据的重要部分的行为[1]。采樱桃可能是有意或无意的[2]

        这种谬误也称为采樱桃(Cherry picking),该术语基于收获水果的感知过程,例如采樱桃。挑水果的人把好的水果挑出来,看到的人可能会以为所有水果都是好的,实际上并不是。这也可能会给水果的品质留下错误的印象(因为它只是一个样品而不是一个代表性样品)。 有时与采樱桃相混淆的概念是只收集容易收获的果实,而忽略树上更高因此更难获得的其他果实(见低垂果实low-hanging fruit)。

        采樱桃具有负面含义,因为这种做法会忽略、忽视或直接压制可能导致全貌的证据。

采樱桃可以在许多逻辑谬误中找到。 例如,“轶事证据的谬误”倾向于忽略大量有利于个人已知的数据,“选择性使用证据”拒绝不利于论证的材料,而错误的二分法在有更多可用选项时只选择两个选项。一些学者将挑选樱桃归类为选择性注意的谬误,其中最常见的例子是确认偏误[3]。 采樱桃可以指数据或数据集的选择,因此研究或调查将给出期望的、可预测的结果,这可能会产生误导,甚至与现实完全相反[4]

四、何为生存者佯谬

4.1 定义或概念

        幸存者偏差[1][2]幸存者偏误(英语:survivorship bias),也称为生存者偏差[3],是一种逻辑谬误,属于选择偏差的一种。当过度关注“幸存”的人事物,从而造成忽略那些没有幸存的(也可能因为无法观察到),便会得出错误的结论。 

        生存偏见可能导致过度乐观的信念,因为失败被忽略,例如当不再存在的公司被排除在财务业绩分析之外时。它也可能导致他人误认一个群体的成功具有一些特殊属性,而不仅仅是巧合(相关证明了因果关系)。其谬论形式为:幸存过程B的个体A有特性C,因此任何个体幸存过程B需要有特性C。有特性C但无法幸存过程B的个体被忽略不加以讨论。逻辑偏差在于只关注筛选结果做出评估,而忽略筛选条件与筛选机制等资讯。用俗语“死人不会说话”来解释其成因意指当取得资讯之管道,仅来自于幸存者时(因为无从由死者/淘汰者/离场者获得来源),此资讯可能会存在与实际情况不同之偏差。这种偏差可以导致各种错误结论。

4.2 概念之起因

        二战期间的1941年,美国哥伦比亚大学统计学亚伯拉罕·沃德教授接受美国海军的要求,运他在统计方面的知识给出关于‘飞机应该如何加强防护,才能降低被炮火击落的几率’的建议。沃德教授针对盟军的轰炸机遭受攻击后的相关数据进行分析和研究后发现:机翼是整个飞机中最容易遭受攻击的位置,而发动机则是最少被攻击的位置。因此美国海军指挥官认为‘应该加强机翼的防护,因为这是最容易被击中的位置’,但是沃德教授给出的结论是‘我们应该强化发动机的防护’。

        沃德教授提出以下其加强机身防护意见的依据:

  • 本次统计的样本,仅包含没有因敌火射击而坠毁并安全返航的轰炸机。
  • 沃德教授假设所有中弹的弹著点应该会平均分布在机身各处,而能安全返航的轰炸机机身中弹数量较多的区域,是即使被击中也比较不会导致坠机的部位。
  • 机翼被击中很多次的轰炸机,大多数仍然能够安全返航。
  • 发动机弹孔较少的原因并非真的不容易中弹,而是一旦中弹,其生还并安全返航的可能性就微乎其微。

        军方最终采取了教授提出的增加发动机防护的建议,后来证实该决策是完全正确的。这项研究对当时仍在发展初期的作业研究领域具有深远的影响。

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/131367678