基于形状相似的日负荷曲线多重聚类分析及其应用.pdf
4页·电力系统· 嘭£喜羽2008年第27卷第20期基于形状相似的日负荷曲线多重聚类分析及其应用段 青赵建国 罗 珂(山东大学电气工程学院250061)摘 要 提出了针对电力系统日负荷曲线的基于时闻序列形状相似的多重聚类分析方法,并进行了数学证明仿真结果表明,该方法能准确地对电力系统历史日负荷样本进行符合实际变化规律的分类,并能发现较特殊的日负荷样本在短期负荷预测应用中,使用该方法后在降低了输入向量空间维数的同时也得到了较高的预测精度关键词 聚类 时间序列 形状相似 电力负荷1 引言电力系统负荷数据经过长期保存,已经形成了一个巨大的时间序列数据库对这些历史数据进行挖掘、分析并从中发现有价值的规律、模式和知识是目前一项热点研究工作…将具有相似变化趋势的电力负荷曲线进行聚类,可对各聚类进行内在规律分析,从中发现影响电力负荷的各种重要因素关系旧o,如日期类型、气候影响条件等;发现负荷数据中的离群数据以及提供数据校正的支持;为各种负荷预测技术(如神经网络、支持向量机等)提供历史数据训练集;建立范例推理库和快速索引机制等2相似性度量2.1 欧氏距离相似性度量的局限性聚类分析是把一个多维数据集分解或划分成组,使同一组中的点彼此相似,但与其他组中的点尽可能不同¨1。
电力系统日负荷曲线聚类分析中对相似性的定义和判断都仅局限于将几何平均距离作为聚类依据,如欧氏距离、明考斯基距离等H1然而对于具有时间序列性质的负荷曲线来说,仅利用几何平均距离作为相似性的度量是存在局限性的,因为时间序列数据容易受时间序列的噪声、尺度、平移和幅度等因素的影响,而且时间序列的值不是某个对象固有的属性值,而是随时间不断变化的具有一定独立意义的数据值2.2基于形状相似的度量为了消除这种欧氏距离,仅考虑空间中各点的距离是不够的,应考虑变量间的协方差(covari—aHce)设m维向量x和y,则协方差是衡量X和y如何一起变化的尺度:如果x中的较大值趋向于和y中的较大值关联且x中的较小值和y中较小值趋向关联,那么协方差是一个大正值如果x中的较大值趋向于和y中的较小值关联,那么协方差将是一个负值‘31协方差的值依赖于x和y的范围,可以通过标准化方法来消除这种依赖性得到的结果是x和y间的样本相关系数P(x,Y)(sample correla-tion coefficient)”1,即∑[石(i)一;][y(i)一多]p(X,Y)=—_;『三兰———————i—————————_(∑[戈(i)一互]2∑[y(i)一多1 2)2121 I;J(1)式中,互是x的样本均值,x=1/m∑菇(i);多是y的样本均值,,,=l/m∑Y(i)。
设DA,曰)为时间序列A和时间序列曰间的相似距离,在相似性度量中所期望的度量属性应该具有如下特性‘61:(1)D,(A,曰)=D,(B,A)A,B)>t0A,A)=0A,B)=0等A=B根据这些特性要求,可以定义如下相似性距离公式DA,曰)=1一p(A,曰)一53—嘭甚易t43 2008年第27卷第20期 基于形状相似的13负荷曲线多重聚类分析及其应用∑[口(i)一三][b(i)一5]=1 一—_-二兰———————i———————- (2){∑[口(i)一五]2∑[6(£)一5]2)2令向量口=a(i)一a,卢=b(i)一5,则相似性距离公式可以化简为 蹦邮)“一百‰(3)下面证明DA,B)具有上述特性要求特性(1)-可由DA,B)的定义直接得出Dp(邶)-1一瓦‰“一瓦‰“一万‰=Dp∽,A’特性(2)一特性(4)可由柯西一许瓦兹(Cauchy—Schwaz)不等式得出I(口,卢)I≤||tlt:·}|卢Il:,当且仅当口、JB线形相关时等式成立,考虑到负荷时间序列的数据特殊性(非零正实数),可得D,(A,B)≥0,且D,(A,A)=0,DA,曰)=O号A=B,故此得证由证明可以看出,用D。
A,曰)满足作为衡量负荷序列间相似性度量的基本要求下一步还需进一步证明在负荷序列出现平移和幅值按比例缩放时的相似性度量,即是否具备DA+cs),B)=DA,B)的特性,这里cs为幅值缩放参数,c为平移参数c^sA+csH),B)=. ((CASA+csH)一(CASA+csH))1·卢1』(c^sA+c趼)一(cAsA+c鲫)8 2·0卢0 2·一蔫高尚小音‰1-下iF瓦翮■丽_1一币F司F丽. (a(i)一a)’.口州一而币Fi盯]闭【“一百瓶却p(AJ)由此可以得出,利用DA,B)在聚类分析中作为相似性度量具备了良好的特性3 多重聚类仿真分析在此采用结合欧氏距离和DA,B)为标准的多重聚类方法,在使用欧式距离分析时利用最常用的k—means聚类算法首先对海量的数据进行聚类分析,充分利用k—means算法的快速性然后再一54一利用以DA,B)为标准的凝聚式层次聚类进行多重细分,形成基于树结构的聚类结果,最终得到多重细分的负荷样本聚类集为检验提出的多重聚类分析方法的可行性,对各种负荷样本进行了仿真分析本文仅列举了以“EUNITE”网站提供下载的国际电力负荷预测竞赛的竞赛数据‘刊为仿真样本集的分析结果。
对归一化的原始日负荷样本进行k—means聚类分析根据平均轮廓系数,将日负荷样本分为相对负荷较高和较低的两个类是利用欧式距离标准进行聚类分析最合适的结果,如图1所示这与样本地处欧洲高纬度地区,春、秋和夏季气温变化不大(原始样本中最高温度也只有26.5℃),而冬季气温较低(原始样本中最低温度为一14.2℃)的实际情况相一致由于冬季取暖用电的需求较高,所以出现了冬季电力日负荷较高的情况然而经过这种以欧氏距离为标准的聚类分析,其结果远远不能满足实际规律需求,因此必须对这两个类进行更深层次的分解20 40 60较低负荷类20 40 60较高负荷类图1 k—means聚类分为两类后结果显示图将这两个类再以DA,曰)标准进行凝聚式层次聚类分析,从树形聚类结果中各取三个类后,发现较低负荷类的节假13(包括星期六、星期天和法定特殊假13)负荷样本与工作El负荷样本被分为两个完全不同的类,并且在节假日负荷样本类中有两天的数据比较特殊,被单独分为了一类,它们分别是1997年3月30日星期日和1997年3月31日法定特殊假日,如图2所示较高负荷类被再分为三个类后如图3所示其中较特殊负荷类4是由一部分工作日组成,负荷类6中除大部分为节假日外还有与节假日临近的工作l98765432●OOOOOOO0OO198765432●OOOO0OOOOO基于形状相似的日负荷曲线多重聚类分析及其应用 嘭艺每谓2008年第27卷第20期5U ,U ,U较特殊负荷类1 节假日负荷类2 工作日负荷类3图2较低负荷类再细分为三个类日,而负荷类5全部由工作日组成。
这六个类已经基本代表了所给样本的实际负荷变化的规律,完全可以满足应用需求类6图3 较高负荷类再细分为三个类这种以数据驱动的有监督的聚类方式,更好地反应了客观实际,排除了人为主观判断进行盲目分类的影响,使得到的结果更具有代表性4短期负荷预测应用引用“EUNITE”网站国际负荷预测竞赛的题目,将上述得到的聚类结果应用于短期负荷预测模型中该网站提供了1997—1998年东斯洛文尼亚电力公司每30 rain的日负荷数据,以及相应的日平均气温和节假日时间,目标是预测1999年1月中每天的最高负荷值预测值误差评价指标为:(1)平均绝对百分误差MAPE:100×上童l生生I (4)n置ILR;(2)最大绝对误差M=max(1 L一L,1) (5)式中,i=1,…,31;£是给出的1999年1月中第i天的最高负荷真实值;L,是相应第i天的最高负荷预测值;,I是1999年1月的天数3l天在此,先将1999年1月每日的负荷曲线与上述得到的六个聚类集进行模式匹配,模式匹配的标准同样采用上述提出的基于曲线形状相似的标准——DA,B)在保证训练集中样本个数足够的情况下(此处定义为100个),得到了1999年1月各天分别属于哪一个训练集,如表1所示。
从表1可以看出,1月1日单独匹配训练集1,它包括聚类集1和6,1月3日单独匹配训练集3,它包括聚类集6、l和2,可见这两天的负荷曲线比较特殊训练集2包括聚类集6和2,它与1月的节假日相匹配,而训练集4与工作日相匹配,它仅包括聚类集5表1经曲线形状匹配后得到的训练集模型在匹配的聚类集编号中,各编号是按DA,B)相似度值大小进行排列的由此可以利用这四个训练集,训练四个预测模型,然后对相应的1月各天进行分别预测在此应用基于稀疏贝叶斯概率学习模型的相关向量机(RVM)作为预测模型,该预测模型的预测机理详见参考文献[8]作为比较,建立了三个RVM预测模型,如表2所示表2三个RVM预测模型比较一55—嘭艺磊胡2008年第27卷第20期 基于形状相似的日负荷曲线多重聚类分析及其应用其中模型1采用了表1中匹配的四个训练集,分别建立四个预测器,预测其对应的1999年1月各天的最高负荷值由于与负荷预测相关的影响因素如日期类型、温度等已经隐含在各个聚类集中,则输入向量仅需要考虑时间序列参数,即训练集中相应的日最高负荷值,在此定义了包括前一星期各天和前三星期同一天的共10个日最高负荷值模型2以全部历史样本训练集,输入向量与模型1相同。
模型3同样以全部历史样本为训练集,但是输入向量在考虑时间序列参数同时还加上了日期属性参数和平均温度参数共32个值其中日期属性定义为工作日为0,节假日为1,而平均温度也归一化在区间[一1,1]之间5 结束语通过上述仿真研究,可以得出,利用欧氏距离和DA,B)为标准的多重聚类方法所得到的结果与实际日负荷变化规律是一致的在排除人为主观因素判断影响下,该方法根据实际负荷数据的变化自动将负荷样本进行符合客观影响因素的再细分,可以准确地得到在各种负荷水平下的不同节假日类型和工作日的不同分类,并能发现较特殊的负荷样本经负荷预测应用仿真实验说明,此聚类方法在实际工程计算中具有前景广阔的实用价值仿真实验结果如图4所示,而预测值误差评价 [1]对比结果如表3所示≥800冬蓑750.K峨700650实际值RVM预测模型1RVM预测模璎2RVM预测模型3一}t~矗甄 r 鹱§越一 v 蔫:●遥. Ji TIO 5 10 15 20 25 30日期1999,1.1—1999,1.31图4三个RVM预测模型仿真实验结果表3 三个RVM预测模型结果误差分析对比从表3可以看到,预测模型1不仅大大降低了输入向量空间,减少了计算内存需求,缩减了计算时间,而且这种模型同时也得到了较高的预测精度(该网络负荷竞赛的优胜者为台湾大学林智仁博士,其平均绝对百分误差为2,最大绝对误差为50 MW)…,与模型3相比,其预测精度也得到了不相上下的结果。
一56一[2]参考文献贺东明.聚类分析法在短期负荷预测中的应用[J].广东电力,2006,19(1):19—21.张智晟,孙亚明,张世英.面向相似性搜索的时间序列表示方法述评[J].电网技术,2004,30(2):51-56.[3]David Hand,Heikki M,Padhraic S.Principles of datamining[M].Massachusetts Institute of Technology,2001:21-23,186-199.[4] Fatima R,Joge D,Vera F.A comparative analysis ofclustering algorithms applied to load profiling[C].Thethird International Conference on Machine Learning andData Mining in Pattern Recognition,Leipzig,2003.[5] 。





