R语言进行探索性数据分析以确定影响保险公司为医疗事故诉讼支付的索赔金额的因素

医疗事故诉讼

进行探索性数据分析,以确定影响保险公司为医疗事故诉讼支付的索赔金额的因素
我们分析数据集“诉讼”的第一种方法是确定样本数量、变量类型、用于验证数据清理的缩放/编码约定(如果有)。接下来,数据集看起来很干净,没有丢失值,对于分类变量,用它们的实际值替换编码约定,以便更好地理解它们。因此,私人律师、严重性和性别变量编码惯例得到更新。
如下图所示,首先安装并加载分析所需的库。在本例中,我们使用了“tidyverse”、“funModeling”和“Hmisc”。这些软件包设计用于探索性数据分析、数据准备、数据操作、探索和可视化。将数据集文件读入R以访问数据并进行分析。
image

了解样本数、列数及其对应的数据类型是一种很好的做法,如下所示。
image

下图显示了数据集文件中每列的零的数量(Q_Zeros)、零的百分比(P_Zeros)、无限数值的数量(Q_Inf)、无限数值的百分比(P_Inf)、NA的数量(Q_Na)、NA的百分比(P_Na)、数据类型(Type)、唯一值的数量(Unique)。
考虑此输出的原因是,包含大量零的变量和几个缺少值的变量可能对分析没有用处,并可能导致偏差模型。
另外,请注意,Age有一个零值,其余数据都是干净的

猜你喜欢

转载自blog.csdn.net/weixin_54707168/article/details/121889186