好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于数据挖掘的深圳市地铁刷卡数据可视化分析.docx

15页
  • 卖家[上传人]:I***
  • 文档编号:227099069
  • 上传时间:2021-12-19
  • 文档格式:DOCX
  • 文档大小:184.16KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于数据挖掘的深圳市地铁刷卡数据可视化分析 殷玮宏 杨健 何兆东 黄燕如 杨明慧摘 要:我国公共交通智能化水平不断提升,公共交通系统内部产生的海量的运营数据,为城市的规划发展提供了新的研究视角通过地铁刷卡数据的挖掘与可视化,结合网络拓扑结构分析、OD分析与过度通勤理论,对深圳地铁的网络拓扑特性与通勤空间特征进行了研究研究结果表明,深圳地铁站点离散分布程度较大,地铁通勤存在过度通勤的现象,职住区分离现象日趋明显关键词:可视化;地铁网络拓扑;地铁OD;职住分离;通勤时长;数据挖掘Abstract:The intelligentization of the public transportation in China has been developing continually. The data produced by the public transportation system offers a new angle for research on the city planning. The research is conducted and visualized through the SCD(smart card data),combining network topology,OD and excessive commuting theory. It aims at researching on the network topology and the commuting space features of the metro in Shenzhen. The results show that the degree of the discrete distribution of the metro stations in Shenzhen is great. The phenomenon of excessive commuting exists in subway commuting,and the separation of work and residential areas is becoming more and more obvious.Keywords:visualization;metro network topology;metro OD;job-housing separation;commuting hours;data mining0 引 言城市公共交通作為低碳节能的交通方式,有助于降低社会出行总成本,成为国内外解决城市发展过程中面临的各种交通问题的重要出路,我国更是将城市公交优先发展上升到战略层面。

      通过研究乘客在乘坐公共交通工具出行的行为,分析其出行习惯及特征,对于建设更完善的公交服务系统具有重要意义在互联网时代,大数据的作用日益凸显,伴随公众出行而产生的海量数据背后蕴含着丰富的信息目前国内外对公交出行数据的研究主要针对公共交通智能卡数据(SCD)进行挖掘SCD数据结构比较简单,一般包含了乘客的ID、上车/下车具体时间和站点等相比于传统的交通出行数据,SCD获取成本较低、连续性好、覆盖面广、信息全面、易于动态更新,且具有地理标识和时间标签[1]国内外对SCD数据的挖掘分析工作主要集中在以下几个方面:(1)推算OD(Origin-Destination)矩阵这是由于大量城市公共交通采用一票制(flat fare),仅仅要求乘客上车刷卡或下车刷卡,因此造成了出行信息的不完整,需要对数据进行补充,推算乘客出行的OD矩阵,而对于要求乘客上车下车均要刷卡产生的SCD则并不需要过多的推算与补充2)公共交通系统的运行与管理SCD可以帮助决策者更好地理解公交系统的使用模式,从而对公交网络线路进行更加系统的规划如SUN等[2]利用OD矩阵对地铁时刻表进行了优化3)持卡人的出行行为与社会网络分析,这一领域的研究目前的趋势是从所有人群到特定人群,从所有行为到特定行为。

      4)城市空间结构分析,城市的居住、就业和职住平衡一直是城市研究的重要问题,OTHMAN等[3]利用地铁刷卡数据实现了轨道交通的智能体仿真系统,研究轨道交通系统中的动力学ZHOU等[4]基于识别通勤出行,分析了北京的过度通勤相关研究处于起步阶段,且多局限于可视化层次,少有形成机制分析本研究利用了SCD数据所包含的时空信息进行研究1 研究区域概况深圳市是中国的经济特区、全国性的经济中心城市以及国际化的大都市位于中国大陆南部,珠三角东部,毗邻香港深圳市水陆空铁口岸完备,是中国拥有口岸数量最多、出入境人员最多、车流量最大的口岸城市之一截至2015年末,常住人口1 137.89万,下辖龙岗区、盐田区、坪山区、大鹏新区、宝安区、光明区、南山区、前海新区、龙华区、福田区、罗湖区深圳市目前有罗宝线(1号线)、蛇口线(2号线)、龙岗线(3号线)、龙华线(4号线)、环中线(5号线)、西丽线(7号线)、梅林线(9号线)、机场线(11号线)共8条地铁线路,此外还有2条有轨电车线路,本次研究使用的SCD是来自于地铁线路的刷卡数据2 数据来源及处理2.1 数据来源原始数据包括了深圳市全市范围内2015年12月1日的所有IC卡交易记录表(包括公交、地铁刷卡记录,充值记录),共有14 876 859行。

      经过对刷卡数据的初步分析,发现原始数据中存在与本研究无关的数据以及无效数据,经数据清洗后,共提取出了3 987 836条地铁刷卡数据,截取部分片段展示,如表1所示其中,IDS代表每个刷卡者的唯一标识符,DTLXNCODE代表刷卡者行为,DTLDATE代表刷卡日期,DTLTIME代表刷卡时间,UNIT代表地铁线路标识符,LINES代表站点名称,PNUMS代表车辆标识符2.2 数据处理2.2.1 出入站刷卡行为计数地铁出入站刷卡行为是反映地铁客流量的重要指标,对于地铁通勤情况具有一定代表性使用Python中的数据分析拓展包Pandas对各站点的出入站记录进行计数,生成各站点的出入站行为计数表;同时结合深圳交通早晚高峰的时间,生成早、晚高峰出入站行为计数表,并对该计数表进行分区统计,生成各区的早晚高峰出入站行为统计表2.2.2 OD矩阵建立OD表通过特定的标识符,记录个体在空间中移动轨迹的起点与终点,可以反映个体的出行行为使用Python提取出入站记录,配合刷卡者的个人特定标识符,将刷卡者的出站和入站记录整合,形成OD表;在OD表的基础上,使用相互连通的站点数据构建网络数据集,以站点间出入站刷卡次数为权重,建立OD成本矩阵,用于后续的分析。

      3 研究方法3.1 深圳市地铁网络拓扑结构分析通过进行网络拓扑结构分析,可掌握深圳市地铁的网络拓扑特性,了解各站点在拓扑网络中的位置与分布情况配合后续分析,可以为深圳市地铁线路的规划提供一定的参考3.1.1 研究模型使用Space L方法对深圳市的地铁网络进行建模,在Space L模型下,网络中的各站点仅与相邻站点通过相邻的地铁线路连接[5]根据2015年深圳地铁路网,建立地铁站点的邻接矩阵(矩阵大小为117行*117列)将邻接矩阵导入Gephi,得到如图1所示的深圳市地铁网络拓扑结构图3.1.2 站点度分布在Space L模型下,站点的度值用于表示该站点相邻站点的数目假设某无向网络的节点个数为n,则其邻接矩阵A可以表示为:使用Excel统计邻接矩阵中的站点度值,通过对站点度值进行分析,可以得到各站点的度分布情况3.1.3 平均路径长度在Space L模型下,站点之间的最短距离指的是在地铁网络中连接这两点的最短路径所经过的边数使用Gephi,计算出深圳市地铁网络的平均路径长度,可以得出地铁路网的运输效率3.2 OD分析OD分析通过构建乘客的移动网络矩阵,描述持卡乘客的出行行为,可以用于城市交通、城市空间结构、职住平衡等问题的研究分析。

      使用OD成本矩阵,利用ArcMap在深圳地铁站点上进行配对连线,得到OD分析图,使用不同颜色及粗细的线段对刷卡次数进行分级通过OD分析图,可以较为直观地看出通勤的流量情况及其空间特征3.3 过度通勤理论与方法过度通勤定义为实际平均通勤成本与理论最小平均通勤成本的差值[6],过度通勤率(百分比)的表达式为:其中,E表示过度通勤率,Ta表示平均实际通勤时间,Tr表示平均理论最小通勤时间使用线性规划求最优解的方法[7],计算理论最小通勤時间将OD成本矩阵导入Lingo软件,使用Lingo的线性规划模型来计算理论最小通勤时间在OD表数据的基础上进行平均通勤时长的计算,利用Python计算乘客的出站时间与入站时间之差的平均值,即得平均实际通勤时间4 研究结果分析4.1 深圳市地铁网络拓扑结构特征图2展示了深圳市地铁站点的度分布情况深圳市地铁站点的平均度为2.203;其中77.12%的站点的度值为2,为非换乘的小型普通站点,如位于4号线北端的红山站;度值大于2的站点占比16.10%,这些站点往往位于地铁网络的线路交叉处,有换乘的功能,如深圳北站、宝安中心站等地铁站;其中福田站的度值最大,为5,该站位于1、2、3号线与11号线(在建)的交叉处,是一个大型的换乘站,为深圳市重要的交通枢纽。

      可以看出,深圳市地铁网络呈现出以普通站点为主,中小型换乘站为辅的站点分布格局经过计算得出,深圳市地铁网络的平均路径长度为13.805个站点总体而言,深圳市地铁从任意一个站点入站,到任意一个站点出站,平均需经过约14个站点,说明地铁站点离散分布程度较大;这与深圳市中心城区地铁线网较密集,边缘城区较稀疏的实际情况相符4.2 地铁通勤空间特征分析4.2.1 地铁高峰出入站刷卡次数分析通过对数据的分析,将7:00—9:00、17:30—19:30的两个通勤流量高峰时段作为早高峰、晚高峰对比图3(a)和图3(b),早、晚高峰刷卡频率较高的站点分布存在较大的差异,早高峰流量较大的站点主要分布在西方、东北方的地铁线路,晚高峰流量较大的站点集中在西南方、南方的地铁线路显然,地铁的入站和出站次数分别代表该站点入站、出站的人数,下面将对出、入站统计数据进行对比分析本研究所获取的数据日期为非特殊节日的普通工作日,对于工作日的地铁通勤情况具有一定代表性部分站点的早高峰入站数、晚高峰出站数都较大,并且存在相当数量的重合部分,可以认为这部分重合的站点附近一定范围是承担了居住功能的区域,如:坪洲、白石洲、民治、龙华、白石龙、民乐等站。

      对比站点的晚高峰入站数与早高峰出站数,可发现重合的高峰站点,由此归为承担了更多就业功能的区域,主要有:福田、岗厦北、岗厦、购物公园、高新园、深大、科苑、车公庙、大剧院等站综合对比,还存在着早晚高峰的出、入站人数相对持平的站点,这些站点附近一定距离的区域也可认为是兼备了就业和居住功能的区域,归为职住混合区,如:大新、桃园、石厦、福民、莲花北等站4.2.2 地铁高峰期客流流向分析为了进一步分析地铁通勤的空间分布规律,结合深圳市行政区划,我们得出了地铁人流净流入和净流出的区域如图4所示,深色区域为净流入区域,浅色区域为净流出区域,白色区域表示无地铁通行区域,颜色越深流量越大可以认为,早高峰期间的净流入区域为深圳市主要承担就业功能的区域,这三个区域相连集中在核心位置,临近关口,毗邻香港;而主要承担居住功能的三个净流出区域分布在外围,呈现向外延伸扩展的趋势,工作的区域呈现被居住区域半包围的空间关系4.2.3 地铁OD数据分析如图5所示,福田、岗厦等站点处于十字交叉中心,以此为中心,在其南北东西向分别延伸的地铁线路皆为较为密集的深色线条,通勤的流量相。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.