
发电商基于Q—Learning算法的日前市场竞价策略.pdf
6页第3 期 王 帅: 发电商基于Q — L e a r n i n g 算法的日 前市场竞价策略 能 源市场与改革 合于模拟小型系统[6 1 Q — L e a r n i n g算法是类 似于动态规划 算法 的一种 增强学 习方法 ” 它提供智能系统在马尔科夫环境 ( 即环境 中的状态是符合马尔科夫性质 的离散 随机过 程 ,未来状态 只和 当前状态有关) 中利用 经历 的动 作序列选择最优动作 它的最大优点在 于不需要 对 所处的动态环境建模 ,可以处理 动态环境 中的不完 全 、不确定信息 ,产生最佳策略,选择最优行动, 从 而影响其所处的动态环境 】 ,且计算速度快 ,可 以进行策略优化文献 [ 9 】 用 Q — L e a r n i n g 算法研 究 了完全竞争市场中 P AB模式( 即结算价格为发 电 商报价)下发电商 日前报价策 略问题 ,没有考虑发 电商拥有多 台机组的情况 文献【 1 0 ] 用 Q — L e a rni n g算 法研究 了 日前市场 中线 路阻塞对 市场价格 的影 响 本文用智能代 理代表发 电商 ,以出清价格作为系统 状态 ,用 Q — L e a r n i n g算法优化竞价策略 ,研究市场 价格 的形成过程。
1 日前市场仿真模型 本文模 型中的 日前市场为发 电侧市 场 ,即不考 虑需求侧 的投标 每个交易 日开始前一天, 独立调度 机构( I S O) 根据负荷预测结果 向所有 的发电商公布下 一交易 日内每个时段的负荷预测值 ,并且假定预测 值基本准确 ,其与实际系统的偏差不影 响交易期 内 的合同交易量 各个发 电商得 到负荷 预测信息后 , 根据历史交易信息以利润最 大化为 目标进行策略优 化,为其每一台机组上报一条报价曲线 ;I S O采用统 一的系统边际价格结算模式( S M P ) ,以购电费用最小 为 目标分配电量 ,确定出清价格( 入) ,并把结果反 馈 回发 电商交易达成后再开始下一交易 日的竞价 I S O采用单部制竞价方法 ,即出清计算时不考虑各 台 机组的技术 约束 、启停费用等 如果 出清结果不符 合技术约束 ,发电商可 以通过第 2次报价调整策略 同时假定输电网络不存在阻塞现象,整个输电网络 相当于一个单节点 ,即网络结构不影响出清结果 通常机组发 电成本是发 电功率 的二 次函数 ,则 边际成本为一条斜线 ,公式分别如下 : G = 6 }q + c ( 1 ) —O C一, i = 2 o ~ q + 6 ( 2 1 C l qi 式中: c 瘌q 分别为发电机组的发电成本和功率; c h 、 b 为发电机组i 的成本曲线系数 ;C i 为与固定成本有关的 费用 。
假设 市场 中有Ⅳ 个 发电商 ,日前市场 中t 时刻 发电商优化报价策略的 目标函数为 : ma x R = A ' q / 一 C i ( q ( 3 ) s . t . q i ,m<< - q ≤g ~ 或 : 0 ( 4 ) 式中:R t i 和9 分别为机组i( i = 1 , 2 , ⋯, Ⅳ)在t 时段 的利 润和出清电量 ;A 是该时段 的市场出清电价q i 和 g 一 分别是机组i 的最小和最大出力约束 ;C i ( q ) 为机组 的成本 函数 I S O以购 电费用最小为 目标确定 出清价格和出清 电量 ,计算公式为: m i n C = ( g ) ( 5 ) i Q u = q ( 6 ) g 面 < g < g o r q i= 0 ( 7 ) 式中:C 为总购电费用 ; f( q i ) 为机组i 的报价曲线函数 在采用 S MP竞价机制时 ,系统按最高成交价格和所 有 的发 电商结算 ,出清价格A = m a x 0 q ( q ) ) ,每一轮次 交易结束后各个发 电商会得到 系统 的出清价格( A ) 和各 自的出清 电量 。
本文采用特别适用于单时段 出 清的排队法求解【 】 2 1 “ 容量价格对”报价方式是世界上绝大多数电力 市场采用 的一种报价方式 将 “ 容量价格对 ”的各 个 价格下 的出力 累加 ,可 以得 到阶梯形报 价 曲线 本文借鉴文献[ 6 ] 并作 了进一步改进 ,采用分段阶梯 函数的报价曲线作为发 电商的竞价曲线 假设各个发 电商都按照机组 的出力范围均匀地 将容量划分为/ / , 段 ,得到一组容量段 ,[ c ) , [ C , C 2 ) , ⋯,[ , C 慨] 用每段较高的容量 ,按照式( 2 ) 得出每个 容量段的边 际生产成本P ( i = 0 , 1 , ⋯, 凡 ),以这个价格 为该容量段的报价基 准价格 ,则报价 曲线集可以表 示为 : B = [ C l l + k A l , C 2 2 + k A l , ⋯, C , p + △ 力 ( k = 0 , ±1 , ⋯, ± ( 8 ) 式中 : 为机组的最大出力限制; p i 为对应容量段G 的边 际生产成本 ;假 设 以 △Z 为确定 的价格浮动步 第3 期 王 帅: 发电 商基于Q — L e a r n i n g 算法的日 前市场 竞 价策略 麓源市场与改革 e 束情况下,发电商实现策略最优的方法。
T ra n s a c tio n o n P o w e r S y s t e m s, 2 0 0 3 , 1 8 ( 1 ) : 1 1 - 1 8 . [ 7 ] 张春 阳, 陈小平, 刘贵全, 等.Q— l e a rni n g算 “TL - 7 L其在 囚徒 困境 问题 中 参考 文献 : 的实 现[ J 1 . 计算机工程与应用 , 2 0 0 1 , 3 7 ( 1 3 ) : 1 2 1 — 1 2 2 , 1 2 8 . [ 1 ] 文福拴 , D a v i d A K. 电力 市场 中的投标 策fi g[ J ] . 电力 系统 自动化 , [ 8 ] 张汝波, 杨 广铭, 顾 国昌, 等. Q .学习及 其在智能机 器人 局部路 径规 2 0 0 0 , 2 4 ( 1 4 ) : 1 - 6 . 划 中的应,%rO i- 究[ J ] . 计算机研究与发展 , 1 9 9 9 , 3 6 ( 1 2 ) : 1 4 3 0 — 1 4 3 6 . [ 2 ] 谢识 予. 有 限理性条 件下 的进 化博 弈理论 [ J ] . 上海财 经大 学学报, [ 9 1 Ga o f e n gXi o n g , T o mo n o r i H a s h i y a ma . A n e l e c t ri c i t y s u p p l i e r b i d d i n g 2 0 0 1 , 3 ( 5 ) : 3 — 9 . s t r a t e g y t h r o u g h Q — l e a rni n g : 1 E E E P o we r E n g i n e e ri n g S o c i e ty 2 0 0 2 [ 3 ] C h ri s t o p h e r J Da y , Be n j a n F H o b b s , J o n g — S h i P a n g . Ol i g o p o l i s t i c S u mme r Me e t i n g [ C ] . c o mp e t i t i o n i n p o we r n e t wo r k s :a c o n j e c t u r e d s u p p l y f t mc t i o n [ 1 0 ]R a j k u ma r R a g u p a t h i , T a p a s K Da s . A s t o c h a s t i c g a me a p p r o a c h f o r a p p r o a c h [ J ] . I E E E T r a n s o n P o we r S y s t e m, 2 0 0 2 , 1 7 ( 3 ) . mo d e l i n g wh o l e s a l e e n e r gy b i d d i n g i n d e r e g u l a t e d p o we r ma r k e t [ J ] . [ 4 ] J a me Ni c o l a i s e n , V a l e n t i n P e t r o . T h e ma r k e t p o w e r a n d e ffic i e n c y i n I EE E T mn s o n P o we r S y s t e mr n ,2 0 0 4 , 1 9 ( 2 ) . a c o mp u t a t i o n a l e l e c t r i c i ty ma r k e t wi t h d i s c ri mi n a t o r y [ 1 1 ] C J C H Wa t k i n .L e a r n i n g fr o m d e l a y e d r e w a r d s[ M】 . L o n d o n : d o u b l e — a u c t i o n p ri c i n g [ R] . I S U E c o n o mi c R e p r o t , 2 0 0 1 . C a mb ri d g e Un i v e r s i t y , 1 9 8 9 [ 5 ] Z o u b i n , Ya nma o s o n g , Xi e x i a n y a . T h e c o mp a r i s o n b e twe e n p ri c i n g [ 1 2 ]于尔铿, 周京 阳, 吴玉生, 等. 发 电竞价算法 ( 一)——排 队法[ J ] . 电 me t h o d O 11 p o o l — b a s e d e l e c t r i c i ty ma r k e t u s i n g a g e n t - b a s e d 力 系统 自动化,2 0 0 1 ,2 5 ( 4 ) : 1 6 . 1 9 . s i mu l a t i o n :2 0 0 4 I E E E i n t e ma t i o n a l c o n f e r e n c e o n e l e c t ri c u t i l i ty [ 1 3 ]郭茂祖, 刘 扬, 黄梯 云, 等.加 强学习主要算法的 比较研 究[ J ] . 计算机 d e r e gul a t i o n , r e s t r u c t u ri n g a n d p o we r t e c h n o l o g i e s ( DR P T 2 0 0 4 )[ c ] . 工程与应用,2 0 0 1 , 3 7 ( 2 1 ) : 1 6 - 1 8 , 4 8 . Ho n g k o n g : A p r i l , 2 0 0 4 [ 1 4 ]郭茂祖, 王亚东, 孙华梅, 等. 基 于 Me t r o p o l i s 准则 的 Q一 学习算法研 [ 6 ] Ga j j a r G R , K h a p a r d e S A, N a g a r ~ u P . A。
