2. 东北大学秦皇岛分校 计算机与通信工程学院, 河北 秦皇岛 066004;
3. 东北大学秦皇岛分校 控制工程学院, 河北 秦皇岛 066004
2. School of Computer & Communication Engineering, Northeastern University at Qinhuangdao, Qinhuangdao 066004, China;
3. School of Control Engineering, Northeastern University at Qinhuangdao, Qinhuangdao 066004, China
电力公司通常利用电网地理信息系统(geographical information system, GIS)获得准确的电气设备信息及拓扑结构连接信息, 进行低压配电网的运行、维护及故障响应等工作[1].然而, 电网GIS难以实时更新, 其记录的拓扑信息与实际的连接结构往往存在一定差异[2], 而传统的校验工作依赖于较大的人力、物力资源和成本投入.为此, 基于高级量测体系(advanced metering infrastructure, AMI)的配用电大数据特征为提高GIS精度提供了替代解决方案[3-4].其中, 基于用户电压时间序列数据相关性分析的离群点检测是一项重要的配电网数据挖掘技术.
在低压配电网中, 由于用户负荷的不确定性, 各节点电压呈现不规律波动.电气距离比较近的用户负荷, 其电压曲线波动性相关度较高, 反之相关度较低[5].文献[6]通过计算不同用户智能电表电压曲线之间的相关系数来校验用户所属台区的正确性.文献[7]基于用户电压数据的相关特性及其稀疏马尔可夫随机场景描述, 提出一种面向特定区域配电网的拓扑重构算法.然而, 针对大规模、复杂的低压配电网, 仅通过电压数据相关性分析难以实现快速、大批量、自动化的拓扑结构校验.文献[8]提出采用离散Fréchet距离和剪辑近邻算法进行低压配电网拓扑结构校验; 通过定义待校验用户与所在台区其他用户、相邻台区所有用户之间的智能电表电压曲线的离散Fréchet距离, 运用剪辑近邻算法检验连接关系是否正确.但是, 当同一台区用户电气距离分布不均匀时, 基于距离度量的校验方法难以确定用户归属正确性的阈值.
针对上述问题, 文献[9]提出了对离群程度定量分析的局部离群因子(local outlier factor, LOF)方法.但是, 离群点概念本身存在一定的局部特性, 与特定电气距离内的用户分布密切相关.为此, 文献[10]提出采用高斯核密度函数改进LOF算法, 使其具有较稳定的判定阈值, 且能够处理非均匀分布的用户用电数据集.尽管如此, 用户的LOF值严重依赖于k-距离值的选取.一方面, 当配电网台区中存在局部电压曲线相似性较高的离群组用户时, 若k-距离选择过小, 则离群组用户的LOF值趋近于1, 从而被识别为正常用户; 另一方面, 若k-距离选择过大, 则相距较远的正常用户易被误判为离群用户, 从而降低了检测的准确率.
为了在有效识别配电网离群组用户的同时保障检测准确率, 文中通过聚类分析与LOF算法进行低压配电网拓扑结构校验.引入近邻传播[11](affinity propagation, AP)聚类算法, 将待校验台区用户按电压曲线相似性程度划分为多个簇, 通过对各簇簇心进行基于LOF算法的离群点检测, 有效地识别出所属台区错误的用户组, 并将该组用户电压数据置于附近台区下进行验证, 从而实现快速低压配电网的拓扑结构校验.
1 基于AP-LOF的离群组检测方法 1.1 LOF算法的相关定义LOF离群点检测方法主要利用k近邻算法, 通过计算每个样本数据点所处的局部邻域内的异常程度来确定是否离群.通常采用皮尔逊相关系数r(x, y)∈[-1, 1]作为不同用户电压曲线的相似性度量, 表示如下:
(1) |
式中:xi和yi分别表示两个不同用户在i时刻的采样数据; x和y分别表示两个用户电压时间序列数据的均值.由此可知,r(x, y)的绝对值(即距离)越趋近于1,表明两个用户电压曲线的相似性越强.由此,给出以下定义,对于任意配电网用户对象p有:
1) k距离:用户集D中与用户对象p相关系数绝对值最小(距离最近)的第k个用户qk(由小到大排列)与p的距离:
(2) |
式中,Dk(p)⊆D表示与用户对象p距离最近的k个用户的集合.
2) k距离邻域:用户集D中与用户对象p的距离不小于k距离的用户构成的集合:
(3) |
3) 可达距离:对任意用户对象o′,若o′∈Dk(p),则o′与p之间的可达距离为p的k距离kdis(p),如图 1所示; 否则,可达距离为二者之间的相关系数绝对值:
(4) |
4) 局部可达密度:p到其邻域内所有用户的平均可达距离的倒数:
(5) |
5) 局部离群因子:p的局部可达密度相对邻域内所有用户局部可达密度的平均值的倒数.局部离群因子表征用户对象p的离群程度:
(6) |
显然,p的局部可达密度越低,且o′的局部可达密度越高,则LOF(p)的值越大.据此,可以有效识别用户集中的离群用户个体.
由图 1可知,p为远离用户集的一个用户,设k=3,则Dk(p)={q1, q2, q3},用户对象p的k距离为kdis(p)=|r(p, q3)|.在p的k距离邻域内计算可达距离,若o′∈Dk(p),则reachdis(p, o′)=kdis(p); 否则,reachdis(p, o′)=|r(p, o′)|.由此可以得到p的局部可达密度,并进一步根据式(6)计算得到LOF(p).
然而实际的配电网用户数据集通常不均匀分布, 正常用户和离群用户各自呈现相关度较高的局部簇拥, 如图 2所示.在这种情况下, 采用传统的LOF离群点检测方法将出现两种检测结果:①将离群组用户识别为正常用户; ②将距离较远的正常用户识别为离群用户.
由图 2可知,数据集呈现正常用户组和离群用户组两簇局部相关度较高的子集,其中A为距离正常用户组相对较远的正常用户个体,B为一组包含5个用户的离群组.当k≤4时,由于B组局部簇拥,导致组内用户间局部可达密度均较高,根据式(6)可知,B组内用户的LOF值均趋近于1,被识别为正常用户,因此无法有效识别该离群组.进一步增加k值,取k=7,此时B组内用户与3个正常用户构成一组检测对象,并形成局部可达密度差异,B组内用户的LOF值大于1,因此可将B组识别为5个独立的离群用户.此外,随着k值的增加,A相对于其他正常用户的局部可达密度进一步减小,则A的LOF值可能大于1,并被识别为离群用户.另外,对5个独立的离群用户需要进行5次重复性验证,这个过程严重限制了验证效率.
1.2 AP-LOF离群组检测方法基于以上分析,配电网连接验证工作亟需一套既可以准确识别离群组用户又能够保留离群组内相关性特征的检测算法,为此,引入AP聚类算法.作为一种高效的基准聚类算法,其核心思想是以数据点偏离簇中心误差最小化为目标条件来寻找一组聚类中心.相较于其他聚类算法,AP聚类算法无需人工设定聚类簇数,而是依靠“信息传递”机制迭代循环寻找最优聚类簇数.这种信息传递机制中主要包含两类信息:吸引度和归属度.通过数据点之间的相似度迭代计算更新数据点的吸引度矩阵R=(rij)和归属度矩阵A=(aij),依据rii+aii>0是否成立来判断是否为聚类中心.当迭代次数超过最大值或是连续多次迭代计算质心不发生变化时,终止迭代,同时将其余的数据点分配到相应的簇中.
对于数据集X={x1, x2, …, xi},其中xi代表一个数据点,xi=[xi1, xi2, …, xid],d表示数据点的维度.AP聚类算法计算步骤如下:
1)计算相似度矩阵S=(sij).利用式(1)各数据点之间的皮尔逊相关系数表示相似度, 即
(7) |
式中,P(i)为初始偏向度,表示数据点i作为聚类中心的偏向程度,通常取数据点之间相似度最小值.P(i)越大,表示该数据点越有可能作为聚类中心.
2) 信息的相互传递.吸引度矩阵R的元素rij表示从用户i到用户j的信息,具体表示数据点xj作为数据点xi聚类中心的适合程度; 归属度矩阵A的元素aij表示从用户j到用户i的信息,具体表示数据点xi选择数据点xj作为聚类中心的适合程度.
(8) |
(9) |
然而, 式(8)和式(9)存在一定的振荡, 导致收敛速度较慢, 因此引入阻尼因子λ∈(0, 1), 则信息传递过程可以表示为
(10) |
(11) |
3) 确定聚类中心.如果xj要作为xi的聚类中心, 那么j需满足
(12) |
即当i一定时,使aij+rij最大的j值.
4) 终止迭代.当达到规定最大迭代次数或经多次迭代聚类中心未发生变化时, 算法结束.
利用AP聚类算法, 迭代计算最佳的聚类中心, 使数据点偏离簇中心误差最小化, 确保将相关系数较高的用户归为一簇.簇心计算如下:
(13) |
式中:vkj表示第i簇内用户k在j时刻的电压数据; Di表示第i簇内的用户集合.计算得到簇心集vi′={vi1′, vi2′, …, vnj′, …}.对簇心集进行LOF离群程度校验,当簇心i被识别为离群点时,表示第i簇用户集为原数据集的离群组.基于AP-LOF离群组检测的配电网连接验证方法具体步骤如下:
步骤1 读取台区用户电压时间序列数据集, 并根据式(7)计算用户间相似度矩阵S, 同时初始化吸引度矩阵R和归属度矩阵A;
步骤2 迭代计算聚类中心是否变化, 当达到最大迭代次数或聚类中心不再变化时, 终止迭代;
步骤3 依据聚类中心将用户划分至各簇, 并利用式(13)计算簇心集;
步骤4 利用式(1)计算各簇心间的皮尔逊相关系数, 并根据式(6)计算簇心局部离群因子, 从而得到原数据的离群组用户.
2 结果与讨论原数据集来自某市电力公司采集的台区A内324个用户的电压-时间序列数据, 时间范围为2017年4月1日至4月30日, 采集间隔为1 h.LOF算法的邻域用户数k分别选取用户总数的5%~20%, 用阈值g表示.
基于LOF算法的台区A离群点检测结果如图 3所示.当g=5%时, 所有用户的LOF值均接近于1, 此时所有用户均被识别为正常用户; 当g=10%, 15%, 20%时, 可以看到, 用户309~324的LOF值大于1, 同时其他部分用户LOF值亦偏离1, 此时用户309~324及其他部分用户被识别为离群点.这是因为检测结果受阈值g的影响, 无法确定一个合适的离群点判别阈值, 导致判别结果模糊, 从而无法准确识别离群用户.此外, 从检测结果无法得出离群用户间的相关性特征, 影响验证效率.
采用AP-LOF离群组检测方法, 台区A内324个用户数据集的AP聚类结果如图 4所示.可以看到, 原数据集被划分为29簇, 其中簇1~28相对集中于两个区域, 簇29(左下角)偏离其他簇.
进一步对各簇簇心进行LOF离群程度校验, 结果如图 5所示.其中, 簇心29的LOF值远大于1, 其他簇心的LOF值围绕1小范围波动, 这表明簇心29的局部密度低于其他簇心, 即第29簇内的用户整体偏离于其他用户, 为离群组用户.
针对两种算法的现场实地考察结果如表 1所示, 其中TP, FP, FN分别表示检索到的离群用户个数、检索到的离群用户中实际正常的用户个数, 以及未检索到的离群用户个数[12].由表 1可知, 当g=5%时, 采用LOF算法无法校验出离群用户.当g=10%时, 可以校验出19个离群个体, 其中包括3个实际正常连接的用户.因此, 当选取的邻域用户数k小于实际离群组用户数时,LOF算法无法校验出离群用户; 当k大于离群组用户数时,可以校验出离群用户,但发生误判的用户数随g的增加而增多.而采用AP-LOF算法可以准确地校验出离群组用户309~324且无误判用户,进一步验证了本文方法的有效性.
本文提出一种基于AP-LOF离群组检测的配电网连接验证方法, 通过引入AP聚类算法保留了用户组内的相关性特征, 并将聚类簇心用于基于LOF的离群程度校验.实验结果表明, 与传统的LOF算法相比, AP-LOF算法避免了判定阈值对检测结果的影响, 能够准确有效地对台区内的离群组用户进行校验, 提高了配电网连接验证效率.
[1] |
Short T A. Advanced metering for phase identification transformer identification, and secondary modeling[J]. IEEE Transactions on Smart Grid, 2013, 4(2): 651-658. DOI:10.1109/TSG.2012.2219081 |
[2] |
Luan W, Sharp D, LaRoy S.Data traffic analysis of utility smart metering network[C]//IEEE Power Energy Society General Meeting.Vancouver: IEEE, 2013.DOI: 10.1109/PESMG.2013.6672750.
|
[3] |
Wang Y, Qiu H, Tu Y, et al. A review of smart metering for future Chinese grids[J]. Energy Procedia, 2018, 152: 1194-1199. DOI:10.1016/j.egypro.2018.09.158 |
[4] |
栾文鹏, 余贻鑫, 王兵. AMI数据分析方法[J]. 中国电机工程学报, 2015, 35(1): 29-36. (Luan Wen-peng, Yu Yi-xin, Wang Bing. AMI data analytics[J]. Proceedings of CSEE, 2015, 35(1): 29-36.) |
[5] |
Luan W P, Peng J, Maras M, et al. Smart meter data analytics for distribution network connectivity verification[J]. IEEE Transactions on Smart Grid, 2015, 6(4): 1964-1971. DOI:10.1109/TSG.2015.2421304 |
[6] |
Luan W P, Peng J, Maras M, et al.Distribution network topology error correction using smart meter data analytics[C]//IEEE Power Energy Society General Meeting.Vancouver: IEEE, 2013.DOI: 10.1109/PESMG.2013.6672786.
|
[7] |
Bolognani S, Bof N, Michelotti D, et al.Identification of power distribution network topology via voltage correlation analysis[C]//IEEE Conference on Decision and Control.Florence: IEEE, 2013: 1659-1664.
|
[8] |
耿俊成, 张小斐, 郭志民, 等. 基于离散Fréchet距离和剪辑近邻法的低压配电网拓扑结构校验方法[J]. 电测与仪表, 2017, 54(5): 50-55. (Geng Jun-cheng, Zhang Xiao-fei, Guo Zhi-min, et al. Topology verification of low-voltage transformer areas based on discrete Fréchet distance and editing nearest-neighbors method[J]. Electrical Measurement & Instrumentation, 2017, 54(5): 50-55. DOI:10.3969/j.issn.1001-1390.2017.05.009) |
[9] |
Breunig M M, Kriegel H P, Ng R T, et al.LOF: identifying density-based local outliers[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.New York: ACM, 2000: 93-104.
|
[10] |
孙毅, 李世豪, 崔灿, 等. 基于高斯核函数改进的电力用户用电数据离群点检测方法[J]. 电网技术, 2018, 42(5): 1595-1604. (Sun Yi, Li Shi-hao, Cui Can, et al. Improved outlier detection method of power consumer data based on Gaussian kernel function[J]. Power System Technology, 2018, 42(5): 1595-1604.) |
[11] |
Wang C, Lai J, Suen C Y, et al. Multi-exemplar affinity propagation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(9): 2223-2237. |
[12] |
Jiang M, Faloutsos C, Han J.CatchTartan: representing and summarizing dynamic multicontextual behaviors[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York: ACM, 2016: 945-954.
|