基于改进kNN算法的非侵入式负荷识别方法

「这是我参与11月更文挑战的第19天，活动详情查看：2021最后一次更文挑战」

前言

文章最开始，解释一下文章中的几个名词:

NILM: 是指在电力入口处安装监测设备，通过监测该处的电压、电流等信号就可以分析得到负荷集群中单个负荷的种类和运行情况。之后对获取到的负荷信息进行识别，就可以得出当前所用的电器是什么？是否有故障等。
KNN: K近邻算法，基于欧式距离，如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。(解释来源: 百度百科)

题目: 基于改进kNN算法的非侵入式负荷识别方法
作者: 延菲,张瑞祥,孙耀杰,陶余会,黄国平,孙伟涛
期刊: 复旦学报(自然科学版). 2021,60(02)
关键词: 负荷识别;kNN算法;二值V-I轨迹;综合相似度;
英文关键词: load identification; KNN algovithm; binary V-I trajectory; comprehensive similarity

KNN当数据集存在不平衡问题时，样本数量较多的类别会对样本数量较少的类别造成干扰，文章针对这一问题，通过为训练样本分配不同的权重，增加少数类样本在分类判决时的表决权。

文章选取的负荷特征为 V-I 轨迹和幅值，并提出了基于两种特征综合相似度的负荷类别判决方法。

对于 V-I 曲线，通过映射做归一化处理，将原始 V-I 数据转化为二值 V-I 轨迹。

评价指标采用宏平均值 F1 、精确率、召回率等

最终通过 PLAID 数据集和采集的实验室数据验证改进的 KNN 算法的有效性。

kNN算法的缺点在于当数据集存在不平衡问题时，样本数量较多的多数类训练样本容易被选为K最近邻，对少数类的判决造成干扰．

如何合成数据，根据什么样的规则合成数据？(有待查询)

此文章中使用的方法为第二种方法，权重分配方法也比较简单，使用 weight(i) = 1 / size(i) ，遵循少数类样本权重大、多数类样本权重小原则。

仅通过样本数量来赋权值真的好吗？如果换做更专业的分配权重方法是否会提高算法的精准度?

我查阅了几篇文章，目前在别的研究方向 KNN 一般使用 DS-WKNN 基于距离加权或者 KDF-WKNN 基于核的差重建方法分配权重，亦或者给上述方法添加修正因子，进一步提高权重分配合理性。

我主要查了知网论文，目前 KNN 在 NILM 的应用不多，改进也只有一篇，再次改进不知道是否可以成为研究方向，先记录一下。

综合判别法的思路并不难，大致分为下面四部:

计算待测样本与所有训练样本的 V-I 轨迹相似度和幅值相似度，分别记为 Sim1 和 Sim2
Sim1 = 1 / (1 + dist1)
Sim2 = 1 / (1 + dist2)
dist1和dist2分别为 2 个样本间 V-I 轨迹的距离和幅值的距离，均为欧氏距离．
按照 Sim1 的大小降序排列，取前 K 个 Sim1 最大的训练样本作为当前测试样本的K最近邻；
计算当前待测样本与所有 K 最近邻的综合相似度

Sim(a, Tj) = Sim1(a, Tj) * weight(Tj) - Sim2(a, Tj)
统计待测样本与 K 个最近邻中各类的总综合相似度，取总综合相似度最大的类作为预测结果。

使用宏平均 F1 值评估算法有效性。

宏平均 F1 值参考链接 : 宏平均值、精确率、召回率等