
基于多特征优选的平和县蜜柚园遥感提取与扩张分析.docx
27页基于多特征优选的平和县蜜柚园遥感提取与扩张分析 刘雪萍 周小成 崔雅君 肖祥希Summary:本文基于谷歌地球引擎(google earth engine,GEE)平台中2020年Sentinel-2数据和数字高程模型(digital elevation model,DEM)数据,在递归特征消除的随机森林(random forest-recursive feature elimination,RF-RFE)特征选择算法基础上结合随机森林(random forest,RF)分类算法,实现了平和县蜜柚园的空间分布制图根据蜜柚园扩张的先验知识,使用2020年蜜柚园的提取结果对历史Landsat数据进行掩膜,依次获得1990、2000、2010年平和县蜜柚园的空间分布,在此基础上对30年以来平和县蜜柚园的变化进行分析结果表明:基于GEE平台,使用RF-RFE特征选择后的多特征分类方法可以快速、准确地提取平和县蜜柚园的空间分布蜜柚园的生产精度和用户精度分别为89.83%和90.59%;平和县蜜柚园面积从1990年的10.5 km2增加到2020年632 km,增加的蜜柚园主要来源于有林地,其次为耕地和香蕉园。
本研究可为平和县蜜柚产业的健康发展提供决策支持,同时可为南方地区的果园提取提供技术参考Key:蜜柚园;Sentinel-2;随机森林算法;RF-RFE;平和县:S127;TP79 文献标志码:A琯溪蜜柚原产于福建省平和县,三十年来发展迅速,已成为平和县农业增效、农民增收的一个经济增长点[1]然而,粗犷的开发方式及不合理的管理手段,不仅导致蜜柚品质下降,还造成了严重的环境破坏[2]开展蜜柚园种植面积和分布的遥感监测,可对平和县蜜柚产业规划、生态环境评价以及制定退果还林的政策提供重要的决策支持遥感方法在数据收集和制图方面优于传统的实地调查法,被广泛应用于空间分布制图决策树模型具有清晰、直观、灵活、运算效率高等特点,在遥感分类方面具有很大的优势,被广泛应用于各种遥感影像信息提取[3-6]于新洋等[7]选用决策树分类方法,综合归一化差值植被指数(normalization difference vegetable index,NDVI)、地形地貌和缨帽变换等多种辅助信息进行果园信息提取然而,该方法在阈值选择方面往往更多的依赖专家经验,主观性强,具有一定的不确定性随后,机器学习方法越来越多的被应用到果园遥感识别中,例如最大似然分类(maximumlikelihood classification,MLC)[8]、支持向量机(support vector machine, SVM)[9-10]和随机森林(random forest,RF)[11]等。
与当前各类遥感影像分类算法相比,RF分类器具有显著的优势如候蒙京等[12]使用RF算法对高寒湿地地区的土地覆盖进行分类,宋荣杰等[13]利用RF算法有效地提取了猕猴桃园的种植面积随着更高分辨率遥感影像的出现,为了解决分类结果中存在的混合像元问题,衍生出了一种全新的面向对象分类方法任传帅等[14]基于SPOT-6数据,利用面向对象分类方法对芒果林地信息进行提取,提取精度达到了90%以上近年來,卷积神经网络(convolutional neural network,CNN)在图像分类处理领域取得了巨大的成功,比较成熟的CNN模型包括AlexNet、VGG、GoogleNet、ResNet等[15-16]例如CSILLIK等[17]使用简单的CNN算法从多光谱无人机图像中检测柑橘树,总体精度达到96.24%在特征提取方面,越来越多的特征被用到果园识别中,除光谱波段和植被指数外,还有纹理[9,18-19]、地形[20]、多时相[21]和其他的空间关系特征[22]然而,不同特征对果园提取的贡献度却很少有研究估计此外,在训练样本数量有限的情况下,特征冗余可能会对分类结果产生不利的影响因此,为了更好地理解不同特征对蜜柚园提取的贡献,制定更具有判别性的特征子集尤为关键。
递归特征消除的随机森林算法(random forest-recursive feature elimination,RF-RFE)是一种常见的特征选择算法,将递归消除的思想与随机森林分类器结合在一起,实现特征的优选例如CHENG等[23]使用 Sentinel-2 数据进行秦岭山脉主要林分类型分类识别时,利用RF-RFE算法筛选出了最有利于林分类型分类的特征,提高了分类精度和效率GEE可以支持并行云端计算[24],结合特征优选方法可以更加快速有效地提取较大范围内的类别信息由于本研究分类区域同时涉及蜜柚园、茶园和耕地几个易混淆类型,而目前已有文献的分类类型较为单一,Sentinel-2数据具有较高空间分辨率和丰富的光谱信息,可以帮助区分易混淆类型[25-26];此外,利用卫星遥感进行蜜柚园的时空分布监测研究还是空白,Landsat数据具有最长时间序列的遥感数据,为开展蜜柚园的动态监测提供数据支撑由于深度学习往往需要各地类足够多的样本,结合研究区影像特征发现茶园、耕地等样本不足,深度学习在评估蜜柚园和茶园、耕地的区分方面难以发挥优势本文设置4组不同的特征组合方案结合随机森林分类器进行对比试验,以更好的提取蜜柚园信息,并分析蜜柚园的时空演变规律,为平和县蜜柚产业的健康发展提供决策支持。
1 数据1.1 研究区概况平和县位于中国福建省漳州市的西南部(图1),介于北纬24°02′—24°35′,东经116°54′—117°31′之间,面积2 328 km该地区地形起伏,多为低山丘陵县域处于亚热带季风气候,气候湿润,光照充足,降水丰沛,春秋冬温差小,夏季较长,适宜蜜柚生长平和县2019年的抽样统计显示,平和蜜柚面积保守估计有460 km,出现了盲目扩张的态势1.2 数据收集及预处理本研究使用的数据包括1990、2000、2010年Landsat-TM数据、2020年Sentinel-2数据、航天飞机雷达地形测绘使命(shuttle radar topography mission,SRTM)30 m的DEM数据及实测数据等对于每一期数据,都选择两个时相影像用于更好的区分地物间的微小差异GEE是一个基于云平台的地球观测数据检索和处理平台,云端存储大量历史免费数据(如Landsat系列、Sentinel系列、MODIS系列等部分数据),并具有支持并行云端运算的特点[27]本文使用的数据均通过GEE平台获取,避免了大量的数据预处理工作其中,Sentinel-2数据为经过Sen2Cor(Sentinel-2 Level-2A atmospheric correction processor)工具进行过大气校正的S2A产品,Landsat-TM数据为经过辐射定标的LITP产品。
从GEE平台上获取SRTM 30 m的DEM数据,该产品由美国国家航空航天局(national aeronautics and space administration,NASA)实验室提供,分辨率为30 m由DEM数据获得的高程(Elevation)、坡度(Slope)、坡向(Aspect)和地形阴影(Hillshade)数据作为地形特征数据,辅助用于蜜柚园的分类制图本研究所用的数据源见表11.3 样本数据集根据蜜柚园在高分辨率卫星影像上呈现的特征,利用地面调查数据、谷歌影像作为参考数据建立样本库,2020年影像上可采集有林地、蜜柚园、人工地表、水体、茶园、耕地、香蕉园7类,1990、2000、2010年各期只能采集到有林地、蜜柚园、耕地和香蕉园样本选择有代表性且纯净的地类像元,并保证样本在空间上均匀分布其中70%用于训练,其余30%用于验证,样本点数量见表22 研究方法本文主要分为影像数据获取、特征选择与分类、平和县蜜柚园的变化分析三部分主要的步骤包括:(1)基于GEE平台,使用最小云量影像合成方法获得平和县1990、2000、2010年的Landsat-TM数据和2020年Sentinel-2A数据;(2)使用Sentinel-2数据和DEM数据,分别获取影像的光谱特征、纹理特征和地形特征,并作为特征变量,利用RF-RFE选择最优分类子集;(3)利用野外考察数据以及高分辨率的谷歌影像辅助分类样本选择,利用随机森林分类器进行分类并进行分类后处理,在最终分类结果基础上随机选择验证样本对分类结果进行精度评价;(4)在2020年蜜柚园的提取结果上掩膜1990—2010年早期影像,进一步采用相同的方法对早期Landsat-TM影像分类;(5)最后,对平和县蜜柚园的时空分布进行分析。
详细的技术流程见图22.1 特征提取2.1.1 光谱特征Landsat-TM数据和Sentinel-2数据都具有丰富的光谱信息,除此之外,Sentinel-2数据还有用于监测植被生长状态的红边波段由于季相特征可以在一定程度上影响蜜柚园的提取精度,因此,本文分别选择春夏季和秋冬季的两个时相的影像,进行蜜柚园信息提取植被指数广泛用于植被长势、植被覆盖变化监测,可以有效提取植被信息植被指数可以突出波段间的差异,有效区分不同地类本文选取归一化植被指数I、差异归一化植被指数I、绿色叶绿素指数I 、土壤调节植被指数I、红边拐点I、MERIS陆地叶绿素指数I、归一化差异湿度指数I以及归一化燃烧比2 I,共计8个指数(表3)2.1.2 纹理特征纹理可以反映物体空间结构特征,蜜柚园由于其特有的行列结构,与有林地、耕地的纹理特征存在明显的差异,因此,将这些特征加入到蜜柚园提取,可以弥补光谱特征空间信息的不足,提高分类精度灰度共生矩阵(gray level co-occurrence matrix,GLCM)是提取纹理特征的一种经典算法[36]原始波段之间存在一定的相关性,导致提取的纹理特征间存在冗余,不利于信息的提取,因此,使用主要成分分析(principal component analysis,PCA)变换后的第二主成分进行纹理特征提取。
同时利用植被指数的纹理特征,更好地突出蜜柚园的空间信息2.1.3 地形特征据实地考察发现,蜜柚园主要分布在海拔低于600 m,坡度小于25°的低山区和丘陵区,耕地主要分布在地势比较平坦地区,往往距离河流和居民区较近,因此,海拔、坡度等地形条件直接影响了蜜柚园的空间分布本文选择了高程(Elevation)、坡向(Aspect)、坡度(Slope)和阴影(Hillshade)4个地形特征参与蜜柚园分类特征选择2.2 特征选择提取的52个特征对蜜柚园的提取贡献大小不一,特征选择可以在很多特征中找到最有利于蜜柚园提取的特征子集,提升模型的效率和分類精度递归消除算法(recursive feature elimination,RFE)是种集成算法,与RF算法相结合在特征选择方面可以达到较好的性能把需要的特征子集初始化为整个特征子集,每次剔除一个排序准则分数最小的数据,直到获得最后的特征集,因此,RFE-RF是一个基于RF的最大间隔原理的序列后向选择算法[37]该过程将样本等分为10份,每个特征集依次使用其中的9份作为训练样本,其余1份作为验证样本,以此类推,使用10次分类精度的平均值作为该特征的分类精度,最终对比不同特征子集的分类精度确定最佳的分类子集。
2.3 分类试验方案本文设计了4组分类试验方案,如表4所示2.4 随机森林算法本文基于分类数据的多维性与研究区地形的复杂度,选择RF分类方法,该方法已被证明在处理高维遥感数据方面优于其他的监督分类方法RF分类器是Breiman提出的由多个决策树或分类树组成的集成学习算法每棵树都是通过一定数量的随机样本和随机特征训练构造的。












