浙江公司VoLTE优化工作交流new
基于端到端信令的VOLTE网络优化,中国移动 浙江公司2016年4月,目录,一,浙江网络概况,二,关键问题分析,我省按照集团“质量优先 、分区商用 、分阶段推广 ”的整体原则开展VoLTE商用工作,杭州在15年8月17日正式商用,温州、绍兴、湖州、丽水于15年10月份正式商用,其他地市11月正式商用。,浙江概况,截止4月11日,全网开通4G基站8.2万个,VoLTE后台开户200.5万(活跃35.4万),日均话务量44.63万erl(流量1.5TB),日均试呼数297万次,ESRVCC切换次数10.4万。信令指标:VoLTE网络接通率98.72%,VoLTE拨打VoLTE平均时延3.2s,eSRVCC成功率95.55%,掉话率0.14% ,初始注册成功率97.86%。路测指标:,3月份全省VOLTE落单投诉126张,其中客户原因工单87张,占比70%,网络原因工单25张(支撑平台与HLR/HSS数据同步问题原因11张,网络设备故障9张,局数据/参数问题4张,无覆盖/弱覆盖1张),占比19.84%,具体如下分布:,用户投诉,目录,一,浙江网络概况,二,关键问题分析,浙江端到端信令平台功能,功能,注册专题分析接入专题分析切换专题分析掉话专题分析时延专题分析,投诉用户详单查询 投诉用户会话跟踪投诉用户辅助分析,VIP用户VoLTE分析VIP用户VoLTE洞察,业务总量概览 业务指标概览业务指标全集,业务质量监控,业务质量分析,用户投诉处理,VIP监控,终端性能分析终端渗透率分析终端用户数分析,终端分析,地市、网元、小区、终端维度指标呈现,多维指标查询,“搭积木式”指标查询,VIP监控,实时跟踪,问题定界,面向专家也面向门外汉!,自动定界,故障树,分域分析,VoLTE信令监测系统实现监控级、用户级和专家级分析功能。监控级分析对实现多维度实时监控;用户级分析实现投诉处理和VIP用户保障;专家级分析实现专项优化功能。,VoLTE端到端分析优化整体思路,1“指标劣化” 驱动型,2“异常失败” 驱动型,3“投诉处理” 驱动型,由端到端,聚焦集团“八元六阶”,以“六元六域四环”方法论为指导,按照“分析-定位-处理-优化”的迭代思想,展开VoLTE优化分析工作。,思路:以VoLTE业务关键实现过程为串联,分析六元指标,映射至关联KPI,通过四环方法:确定问题域、确定问题网元、粗定失败原因、确定根因,来归属到六域专业。,从不同的呼叫场景维度,根据失败原因值定义异常场景;通过对周期内异常场景发生次数波动的监控,掌握影响关键性能指标的异常因素。,思路:定期从域、网元等维度对全网失败占比进行统计,对高失败占比原因值进行分析,发现特定场景共性问题,形成异常失败速查表并固化至应用,形成自动定界逻辑。提高日常问题处理效率。,“优指标、少异常、减投诉”是VoLTE端到端分析优化方法制定、应用的驱动力和最终体现。在此基础上,基于大数据分析聚焦共性问题寻找根因,总结规律全网推广。,投诉是来自客户最真实的体验感知,通过投诉可以发掘隐藏更深的感知问题,是分析优化由点及面的过程。投诉处理概念也从传统的后分析向投诉预警进行转变。,投诉新机制,投诉处理,投诉预警,思路:投诉分析及归类梳理投诉定界逻辑 优化投诉处理流程 前台:引入20s用户问题快速定界流程 ,定界结果及用户信息嵌入工单中,提升前台处理效率。后台:引入自动定界、单据查询、信令回溯功能,加快运维人员分析效率。,引入用户业务监控功能,对关键用户进行质量把控,先于投诉发现问题,解决问题。 对关键用户失败次数进行阈值设定,通过派单流程实现发现、分析、处理、反馈闭环流程。,VoLTE感知优化聚焦,影响用户VOLTE感知的问题集中在四个方面:接不通、MOS低(含单通、断续)、eSRVCC切换失败和掉话。语音质差与MOS值强相关,在低MOS值(3.0)的情况下,语音质差情况会比较明显。据现网上下行MOS统计,全网语音质量MOS 3.6以下主要受丢包率(基本在1%以上)的影响较大,受抖动和时延影响较小。,通过SEQ平台从4万张话单中筛选出983例MOS值低于3.0的话单,其中上行质差占87%。,基于SEQ平台的数据挖掘分析,设备功能方面:开启终端省电功能(DRX)后,同一基站内超过600用户同时使用语音/数据业务时,概率性出现上行数据包无法正常发送,导致丢包。弱覆盖方面:上行弱覆盖导致上下行链路不平衡,导致丢包。网络参数方面:控制信道配置不足,同一小区内上行用户量多时概率性出现上行数据包未正常发送,导致丢包。外部干扰方面:全省4G网络受到网内、网外干扰的情况依然存在,如电信FDD干扰、干扰器、大气波导干扰(我省平原地区均有涉及)等,导致丢包。组网结构方面:4G网络组网结构复杂,目前存在F/D/E共计7个频点,等同于7张网络,切换、重选参数设置难度很大,在部分复杂场景下容易发生频繁切换问题,导致丢包。,VoLTE语音质差分析,VoLTE语音质量之上行丢包关键因素分析,与“上行丢包率”第一强相关指标为”上行MCS低于6阶占比“(指数0.31);从原理上分析,当上行MCS低于6阶时,一个上行RTP语音包无法通过RLC层4段分片在20ms内完成调度,会导致上行数据堆积的PDCP丢弃;其次MCS低于6阶时,上行SINR较差,容易导致上行出现重传或者残留误包;因此强相关成立。 分析“上行MCS6阶以下占比”指标,第一强相关“DTX比例”(指数0.5),第二强相关“PUSCH平均RSRP”,因此,导致“上行MCS6阶以下占比” 高是由弱覆盖和上行干扰的两个因素叠加产生。“上行丢包率”第二强相关指标是用户数(指数0.27),在用户数比较多时(大话务场景),会引起上下行CCE资源失败次数上升。 导致DTX的原因有两种:上行干扰、弱覆盖,提取杭州全网忙时与上行丢包率相关的11项关键指标,研究其相关性:,弱覆盖、大话务、上行干扰是影响上行丢包的三大关键因素!,VoLTE语音质量之下行丢包关键因素分析,下行丢包率第一强相关指标为“DTX比例”(指数0.17),“DTX比例”的第一强相关指标为“CCE8的聚合比例”,原因就是出现当出现DTX时eNodeB会抬升CCE的聚合级别;与下行丢包率强相关的“DTX比例”、”CCE8的聚合比例“指标均与”上行平均干扰电平“、”平均CQI”强相关;因此,影响下行丢包率的关键因素是弱覆盖、上行干扰、下行质量差,与大话务相关性较低。,提取杭州全网忙时与下行丢包率相关的12项关键指标,研究其相关性:,ESRVCC专题优化(1),EPC,Enhanced MSCS,MGW,MME,CS,Sv,eNodeB Band F,MSCS,eNodeB Band D,负荷均衡,切换准备:eMSC流程冲突缓存机制不足导致的“非稳态”切换场景,升级eMSC解决。,F/D系统内同异频邻区补全:MR/ANRF/D负荷均衡,2G侧拥塞、隐性故障、弱覆盖导致ESRVCC失败掉话,切换执行:MME等待eMSC切换响应定时器设置过短导致eSRVCC切换成功率偏低。,“124”法提升ESRVCC切换成功率,降低掉话: 以Sv口大数据为突破,聚焦ESRVCC“切换失败”、“切换频繁”,从eMSC、MME、2G BTS、4G eNB身上找原因;,四维邻区配置规则互操作门限优化,1、升级eMSC,解决四类“非稳态”切换场景问题;2、MME等待eMSC切换响应定时器的时长由1s优化为10s,修正信令平台eSRVCC切换定时器打点节点;3、S1切换准备定时器时长优化为20s;4、4G系统内邻区优化:基于受控ANR功能,结合工参数据,添加邻区对5387条。5、eSRVCC邻区优化:开展两批次邻区四维精细优化,第一批次合计添加邻区对68495条,删除邻区对694条,第二批次合计添加邻区对33769条,删除邻区对567条。6、2G协同优化: 以杭州为例,3月份发生过SRVCC切换的2G小区数有1.77万,出现过拥塞的小区数8934个,其中拥塞频发概率大于30%的小区377个,正在开展优化整治专项。7、弱覆盖整治:输出全省eSRVCC切换频次较多的小区,并结合MR弱覆盖数据,梳理了700个亟需整治的VoLTE弱覆盖小区,进行点对点攻关。,ESRVCC专题优化(2),VoLTE语音质量优化工作经验总结,VoLTE语音质量专项攻关成效,无线网络引起VoLTE语音质量问题的主要原因是丢包,经过一个来月实施密集的无线网优动作(3月内共实施25次有效参数或功能方案),在VoLTE业务量增长220%情况下,VoLTE丢包率指标持续改善,有力保障了3月底的百万VoLTE用户放号。,3号小区的上行QCI1丢包率很大,下行丢包率正常。下行听没有问题,而电话对端听不清语音,是上行语音差问题。,通过SEQ平台查询话单,确认语音质差时终端位于“庆丰新村D3”小区。在该小区VOLTE上行RTP丢包率出现大于5%的情况,严重影响用户体验,会出现断续、听不清等现象,符合现场测试感知(对端听不清楚)。,终端上了一次SR后,基站进行了SR调度。之后终端上报的数据中BSR 不为0,需要基站主动调度。 但在问题时间段,基站未对该UE进行调度。下一次调度间隔了335ms,调度类型还是终端上发了SR触发的SR调度。,等待BSR 320ms定时器超时才会重新发送SR,请求基站资源,跟踪确认,终端已经进入了DRX态。,案例1:大话务场景开启DRX长时间无调度问题,当单板用户数大于601的时候,用户分成4个散列进行调度。比如,现网激活期是10ms,休眠期也是10ms,如果用户散列的时间落在休眠期,会造成一段时间都无法散列到该用户,也无法触发BSR的调度。UE有残留的BSR,需要等到BSR定时器320ms超时在上报SR才能调度。,后续华为11.1版本会将有BSR上报的Volte用户单独进行调度,不再进入散列队列中排队进行调度,可有效解决该问题。目前关闭QCI1的DRX开关来规避。,1)UE正常的BSR上报。比如:SR上报后,到调度这段时间产生的语音包;或者UE上行其它承载产生的一些数据(信令,QCI9)。2)静默期转激活期时。基站在静默期不进行数据预估,对SR资源预估不准确。3)补偿调度对激活期和静默期的误判。目前华为基站8.1版本对激活期和静默期存在误判的问题,也存在SR资源预估不准确的情况。4)边缘用户。小区边缘用户上行可能会产生RLC分片,也会出现BSR。,上行资源调度与基站预估算法有关,以下情况会导致基站预估不准确:,案例1:大话务场景开启DRX长时间无调度问题,案例2:上行CCE资源受限导致上行丢包,【问题分析】STEP2:分析该小区的话统,发现该小区是10M带宽,用户数较多且存在邻区漏配 ,导致边缘用户数较多,大量边缘用户采用CCE8的聚合比例,使得上行CCE资源受限。,【问题描述】萧山机场浙旅大酒店SM_4上行高丢包,上行丢包率高达30%以上。,【问题分析】STEP1:分析基站侧跟踪数据,发现上行丢包时,出现连续的上行调度失败,失败原因是上行CCE资源不足(基站内部代码是41484)。,案例2:上行CCE资源受限导致上行丢包,【优化效果】对该小区开启受控ANR,补充了漏配邻区,并且与共址的小区开启了MLB均衡用户数,修改了上下行初始CCE分配比例,加大上行CCE的资源预留后,该小区的最大用户数降低到100以下,上行QCI1的丢包率下降到1%以下,【优化建议】梳理现网的大话务小区,以及CCE分配失败的话务统计,发现有类似小区要加大上行CCE的预留资源。梳理现网CCE8聚合比例高的小区,通常这类小区是边缘用户数较多,需要解决覆盖或者邻区漏配问题。话统中是否有大量的无邻区导致的无法触发的切换统计,说明有漏配邻区问题,要及时优化邻区。,对上行丢包TOP小区实施上行CCE资源调整验证,85个最严重小区的上行丢包率从1.2%下降到0.22%,改善明显;扩大实施146个忙时最大CCE分配失败次数超过500万的TOP小区,上行CCE分配失败率下降到1.99% 。,3GPP协议规定,上行PUSCH的调度信