一种基于随机森林的地质灾害多灾种综合风险评价方法-好方法网

技术摘要：
本发明提供一种基于随机森林的地质灾害多灾种综合风险评价方法，包括以下步骤：(1)地质灾害风险评价体系构建；(2)基于地质灾害详查点的样本选择与风险定级；(3)随机森林模型构建与样本训练；(4)模型精度评估与指标贡献度计算；(5)地质灾害风险评价结果。本发明从多灾种全部
背景技术：
地质灾害是自然灾害的重要种类之一,包括滑坡、泥石流、崩塌、地面塌陷、地面裂缝等。它们的发生直接导致基础设施的破坏、财产损失，甚至危及生命。近年来随着极端气候事件发生频率的提高、区域性强烈地震的影响、工程建设扰动强度的加剧，我国自然灾害，尤其是地质灾害的发生频率与危害明显增加。如2010年“8.17”甘肃舟曲特大泥石流灾害、2019年“8.20”四川汶川强降雨特大山洪泥石流等。未来一段时期，地质灾害将呈高发频发趋势，地质灾害防治工作面临的形式依然严峻。地质灾害风险评价是对风险区遭受不同强度地质灾害的可能性及其可能造成的灾害损失进行定量分析和评价，是一项有力的防灾减灾非工程性措施，有利于对现在或未来地质灾害防治与管理提供科学依据，对减少人民生命财产损失和促进社会和谐发展具有重要意义。地质灾害风险评价一直是国内外学者和政府机构的关注的重点。我国的地质灾害风险评价研究起步较晚，兴起于20世纪80年代，20世纪90年代以来，随着研究的不断深入以及各种新技术(3S和计算机)的不断应用，地质灾害风险评价在理论与实践方面均取得了丰硕的成果。层次分析法、因子分析法、模糊综合评价法等是地质灾害风险评价的常用方法，但上述方法多基于评价指标阈值划分与权重赋值思想开展风险评价，主观性较强，不同人可能得出不同的结论，尤其是对多灾种综合风险评价的适应性差，且没有结果准确性的有效验证。近年来，随着人工智能技术的飞速发展，众多机器学习的模型，决策树(DT)，支持向量机(SVM)，人工神经网络(ANN)等模型正被尝试应用于地质灾害风险评价，也取得了良好的评价效果。然而遗憾的是，上述方法忽视了灾害点调查数据在风险评价中的重要作用，也难以直接获取各项指标对于地质灾害风险的贡献度。本研究基于此，提出了一种结合地质灾害点详查数据和灾害危险性、易损性评价指标数据的地质灾害风险评估方法，能够实现区域地质灾害风险分区与验证，为由点到面的灾害风险映射提供了有利工具。如图2所示，借助3S技术从危险性和易损性的视角构建区域灾害风险评价指标体系，划定指标阈值范围，进而确定指标权重，实现区域地质灾害风险的监测和评价已成为目前应用最为广泛的评价模式。比如目前应用比较广泛的层次分析法、因子分析法、模糊评价法等。这类评价模式主要通过搜集地形起伏度、坡度、降水、植被、断层、河流距离、人口密度、GDP密度等自然要素和社会经济指标，随后对各项评价指标进行主观的阈值的划分。进而采取一定的权重赋值方法(如层次分析法、熵权法、专家打分法、主成分分析法等)，根据综合得分分值，采用一定的分级方法(如自然间断点分级法、标准差分级法)对研究区进行灾害风险分区。上述灾害风险评价方法主要采用阈值划分与权重赋值的思路，这对多灾种风险评价的适应性差。然而，每个灾种对应着不同的影响因子，每类影响因子对于地质灾害风险的 4 CN 111582386 A 说　明　书 2/8 页作用程度也存在较大差异。因此，不同灾种的同一影响因子的阈值范围存在着不一致性，人为划定统一的阈值范围对于多灾种而言是不科学的。比如，就坡度这一指标而言，因缺乏统一的阈值划分标准，不同学者确定的坡度的划分标准主观性较强，划分结果差异甚大，由此可能导致评价结果的不准确性。此外上述评价指标权重赋值的方法存在过于主观的问题，这对对最终的评价结果也具有重要影响。近年来，决策树、支持向量机、人工神经网络等机器学习算法是灾害风险评价中运用较多的方法，为地质灾害风险的评估提供了有利工具，也取得了良好的评价效果。这些评价方法较为类似，主要分为模型构建和模型预测两个部分。如图3所示，首先通过研究区的地质灾害危险性和易损性评价指标数据库，选取一定量具有代表性的样本作为模型的训练样本，按照各学习算法原理初步构建地质灾害风险评价模型。其次，开展模型训练学习，通过多次实验，寻求模型的各项最佳参数，构建最终的灾害风险评价模型，迭代逼近风险等级的分类目标，形成灾害风险的分类规则。最后，将研究区余下的所有数据(测试样本)输入学习完毕的地质灾害风险评价模型进行风险等级的预测分类，从而测定出测试样本的地质灾害风险等级。总体而言，决策树、支持向量机和人工神经网络等算法，忽视了地质灾害点详查数据在风险评价中的重要作用，缺乏基于点的微观尺度的灾害风险属性分解，难以实现基于地质灾害点的多属性的灾害风险评价与验证。而仅有的运用地质灾害点的研究多基于灾害是否发生的属性进行模型训练，忽略了地质灾害点详查数据多风险属性特征。此外，上述方法并不能直接获取各项评价指标对于研究区灾害风险的贡献度，科学确定研究区灾害风险的主控因子仍然是一项挑战。具体而言，上述方法自身也最在着一定不足。如，使用决策树前需要进行大量数据预处理工作，且容易陷入局部最优；支持向量机则因其复杂数学函数而不便应用，且对解决多分类问题存在不足；人工神经网络模型存在过学习、局部最小值和收敛速度慢等问题等。
技术实现要素：
本发明针对上述问题，提供了一种基于随机森林的地质灾害多灾种综合风险评价方法，依据灾害风险理论，充分利用地质灾害点详查数据及其风险属性，并针对不同的地质灾害亚类选取危险性、易损性共性指标构建评价指标体系，避免指标的阈值划分与权重赋值的主观性影响，运用随机森林评价模型，客观评价区域地质灾害风险，实现地质灾害以点至面的风险映射，同时直接获取各项指标对于综合灾害风险的贡献度。为达到上述目的，本发明采用以下技术方案：一种基于随机森林的地质灾害多灾种综合风险评价方法，包括以下步骤： (1)地质灾害风险评价体系构建从地质灾害主要种类的共性因子入手，针对危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均GDP、人口密度、路网密度等影响地质灾害风险的13项共性指标，运用ArcGIS软件创建格网，进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中，并进行可视化表达； (2)基于地质灾害点的样本选择与风险定级从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点 5 CN 111582386 A 说　明　书 3/8 页密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠属性，基于其属性值，运用投影寻踪聚类模型计算格网的地质灾害的影响系数，进一步运用风险映射机制实现了实现格网单元各项评价指标与对灾害风险的对接；有灾害点分布的格网的影响系数分为高、中、低三类；用ArcGIS的子集要素工具，随机选择风险样本，结合研究区的评价指标、地质灾害野外详查点属性对风险样本进行风险等级赋值。 (3)随机森林模型构建与样本训练随机森林分类是由多个决策树{h(X,Θk) ,k＝1,…}组成的组合分类模型，参数集 {Θk}是独立同分布的随机向量，在给定自变量X下，每个决策树分类模型都通过一票投票来选择最优的分类结果。首先，利用bootstrap抽样从原始训练集D中抽取k个样本，且每个样本中的特征数 (m)都与原始训练集相同；bootstrap抽样为有放回的抽样，提升了训练集的随机性。然后对k个样本分别建立k个决策树模型，得到k种分类结果{(h1X) ,h2X,…,hnX}；每个样本中随机选取n(n≤m)个特征作为分裂特征集，从中选择最优特征对节点进行生长，当n＜m时，每一棵决策树之间又存在差异性。选择最小的基尼值作为最优特征分割标准。式中，Gini(t)为t节点的最小基尼值，p(j|t)为风险j在t节点处的概率。最后，通过上述步骤形成的随机森林，根据k种分类结果对每个记录进行投票表决以决定其最终分类，公式如下: f(x1)＝m_vote{hi(x)(i＝1,2,…,k) 式中:m_vote为投票结果。将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中，对模型进行训练，即可形成地质灾害风险的分类规则。 (4)模型精度评估与指标贡献度计算模型的精度评估主要依据模型的OBB泛化误差，RF采用Bagging算法集成训练集，在风险分类树生成后，利用OOB数据得出该棵树的错误分类率，即OOB误差。对森林中所有树的OOB误差取平均作为模型的泛化误差。各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算。计算公式为：式中，m、n、t分别为总指标个数、分类树棵数和单棵数的节点数，DGKij为第i棵数第 j个节点的基尼系数减少值，Pk为第k个指标在所有指标中的重要程度。 (5)地质灾害风险评价结果将研究区所有的数据再次输入到随机森林模型中，利用训练样本在模型中训练形 6 CN 111582386 A 说　明　书 4/8 页成的灾害风险分类规则对所有格网的灾害风险进行预测，从而得到研究区地质灾害风险的区划结果。本发明依据区域灾害系统理论，综合考虑孕灾环境的复杂性、致灾因子的多元性和承灾体的脆弱性，从灾害危险性和易损性的维度构建评价指标体系，结合地质灾害点详查数据确定样本风险等级，将随机森林模型运用于地质灾害风险评价之中，实现了以点至面的灾害风险映射。本发明与现有发明相比，具有以下优点及突出性效果：首先，本发明从多灾种视角出发，选取地质灾害亚类的共同影响因素，从危险性和易损性维度构建评价指标体系，对多灾种的地质灾害风险评价具有良好的适应性。其次，充分运用了地质灾害点详查数据，依据灾害风险理论将地质灾害点详查数据风险属性分解，有利于灾害点多维属性的风险验证，同时能够实现格网单元的灾害风险等级与风险评价指标的巧妙对接。相比传统仅仅依靠灾害孕育条的灾害风险评价而言，本发明中的评价结果更为准确，更能反映区域实际的灾害风险水平。我国花费了大量的人力，物力和财力构建了地质灾害点详查数据库，然而目前的研究大都忽视了其在地质灾害风险评价中的重要作用。本发明中，充分运用了地质灾害点详查数据，在风险评价中发挥了其应有的价值。其再次，结合地质灾害点详查数据和多灾种的地质灾害风险评价指标体系，运用随机森林模型开展地质灾害风险评价，避免了评价指标的阈值划分与权重赋值，在一定程度上降低了评价结果的主观性，实现了地质灾害风险的良好验证和分区，直接获取了各项评价指标对于总风险的贡献度，弥补了以往研究方法的不足。此外，本技术方案还具有以下优点：在灾害点详查数据不完整的情况下也能完成整体区域上的地质灾害综合风险的评价；无需归一化等去量纲的处理，可处理多种形式数据，还能适应部分属性值缺失的情形；处理高维度和庞杂的数据能力强，可以克服数据多重共线性特征；它更能容忍异常值和噪声，而且不太可能出现过拟合问题。最后，本发明提出的以点至面的灾害风险评价方法，能够科学客观的实现研究区地质灾害风险分级与区划，有效识别地质灾害风险的主控因子，这对政府和相关部门开展地质灾害点的监测与管理，制定区域地质灾害风险的防治和管控措施具有重要作用。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：图1为本发明的技术流程示意图；图2为现有技术基于传统评价模式地质灾害风险评估流程示意图；图3为现有技术基于DT、SVM、ANN等模型的地质灾害风险评价流程示意图；图4a为本发明地质灾害风险评价指标地形起伏度示意图；图4b为本发明地质灾害风险评价指标地震烈度示意图； 7 CN 111582386 A 说　明　书 5/8 页图4c为本发明地质灾害风险评价指标距离断层距离示意图；图4d为本发明地质灾害风险评价指标植被覆盖度示意图；图4e为本发明地质灾害风险评价指标坡度示意图；图4f为本发明地质灾害风险评价指标岩性示意图；图4g为本发明地质灾害风险评价指标降水量示意图；图4h为本发明地质灾害风险评价指标距河流距离示意图；图4i为本发明地质灾害风险评价指标人均GDP示意图；图4j为本发明地质灾害风险评价指标人口密度示意图；图4k为本发明地质灾害风险评价指标建筑密度示意图；图4l为本发明地质灾害风险评价指标耕地密度示意图；图4m为本发明地质灾害风险评价指标道路密度示意图；图5为本发明地质灾害风险由点至面映射机制示意图；图6为本发明风险分级样本点空间分布示意图；图7为本发明随机森林模型原理示意图；图8为本发明评价指标贡献度示意图；图9为实施例什邡市地质灾害风险评价结果示意图。

相关推荐