「这是我参与11月更文挑战的第19天,活动详情查看:2021最后一次更文挑战」
前言
文章最开始,解释一下文章中的几个名词:
- NILM: 是指在电力入口处安装监测设备,通过监测该处的电压、电流等信号就可以分析得到负荷集群中单个负荷的种类和运行情况。之后对获取到的负荷信息进行识别,就可以得出当前所用的电器是什么?是否有故障等。
- KNN: K近邻算法,基于欧式距离,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(解释来源: 百度百科)
文章信息
- 题目: 基于改进kNN算法的非侵入式负荷识别方法
- 作者: 延菲,张瑞祥,孙耀杰,陶余会,黄国平,孙伟涛
- 期刊: 复旦学报(自然科学版). 2021,60(02)
- 关键词: 负荷识别;kNN算法;二值V-I轨迹;综合相似度;
- 英文关键词: load identification; KNN algovithm; binary V-I trajectory; comprehensive similarity
文章总结
KNN当数据集存在不平衡问题时,样本数量较多的类别会对样本数量较少的类别造成干扰,文章针对这一问题,通过为训练样本分配不同的权重,增加少数类样本在分类判决时的表决权。
文章选取的负荷特征为 V-I
轨迹和幅值,并提出了基于两种特征综合相似度的负荷类别判决方法。
对于 V-I
曲线,通过映射做归一化处理,将原始 V-I
数据转化为二值 V-I
轨迹。
评价指标采用宏平均值 F1
、精确率、召回率等
最终通过 PLAID
数据集和采集的实验室数据验证改进的 KNN
算法的有效性。
学习记录
KNN算法的缺点
kNN算法的缺点在于当数据集存在不平衡问题时,样本数量较多的多数类训练样本容易被选为K最近邻,对少数类的判决造成干扰.
KNN缺点解决方案
- 欠采样和过采样: 删除多数类样本和合成少数类样本,从而消除数据集不平衡问题(类似英文文献中提到的合成数据)
如何合成数据,根据什么样的规则合成数据?(有待查询)
- 对算法进行改进,为训练样本分配不同的权重,增加少数类样本在分类判决时的表决权.
此文章中使用的方法为第二种方法,权重分配方法也比较简单,使用 weight(i) = 1 / size(i)
,遵循少数类样本权重大、多数类样本权重小原则。
关于对 KNN 分配权重的疑问与展望
仅通过样本数量来赋权值真的好吗?如果换做更专业的分配权重方法是否会提高算法的精准度?
我查阅了几篇文章,目前在别的研究方向 KNN
一般使用 DS-WKNN
基于距离加权 或者 KDF-WKNN
基于核的差重建方法分配权重,亦或者给上述方法添加修正因子,进一步提高权重分配合理性。
我主要查了知网论文,目前 KNN
在 NILM
的应用不多,改进也只有一篇,再次改进不知道是否可以成为研究方向,先记录一下。
综合判别法
综合判别法的思路并不难,大致分为下面四部:
-
计算待测样本与所有训练样本的
V-I
轨迹相似度和幅值相似度,分别记为Sim1
和Sim2
Sim1 = 1 / (1 + dist1)
Sim2 = 1 / (1 + dist2)
dist1和dist2分别为2
个样本间V-I
轨迹的距离和幅值的距离,均为欧氏距离. -
按照 Sim1 的大小降序排列,取前
K
个Sim1
最大的训练样本作为当前测试样本的K最近邻; -
计算当前待测样本与所有 K 最近邻的综合相似度
Sim(a, Tj) = Sim1(a, Tj) * weight(Tj) - Sim2(a, Tj)
-
统计待测样本与
K
个最近邻中各类的总综合相似度,取总综合相似度最大的类作为预测结果。
评价指标
使用宏平均 F1
值评估算法有效性。
宏平均
F1
值参考链接 : 宏平均值、精确率、召回率等
疑问
- 二值
V-I
轨迹如何做KNN
,如何求其欧氏距离? - 二值
V-I
轨迹是怎样实现归一化的?