briyant 发表于 2022-12-1 22:39:16

OpenStreetMap数据质量评估及适用性分析 ——以河南省铁路网为例

作 者 信 息

张一帆,景海涛

(河南理工大学 测绘与国土信息工程学院,河南 焦作 454000)

【摘要】自发地理信息概念的兴起使越来越多的人参与到地理信息数据生产中,目前相对成熟的平台为OpenStreetMap(OSM)。由于自发地理信息的数据贡献者来自各行各业,其数据质量的优劣成为研究者关注的问题。以河南省铁路网为研究对象,针对其数据的适用性,主要采用地理信息技术的相关手段,将国内应用范围较广的高德地图与OSM数据进行对比,使用Python语言与ArcPy站点包对数据进行批处理,结合总长度完整性、数据重叠度、空间分异率及相对位置精度等指标探究OSM数据的质量及适用性。实验结果表明,OSM在河南省内的铁路数据与高德地图具有较高的一致性,且存在更新速度快的优点,可以在日后的研究中广泛应用。

【关键词】数据质量;ArcPy;OpenStreetMap;自发地理信息

【中图分类号】TP3 【文献标识码】A 【文章编号】1672-1586(2019)04-0112-05

引文格式:张一帆,景海涛. OpenStreetMap数据质量评估及适用性分析——以河南省铁路网为例.地理信息世界,2019,26(4):112-116.

正文

0 引 言

自发地理信息( V o l u n t e e r e d G e o g r a p h i c Information,VGI)这一概念由Michael GoodChild提出,它不同于传统测绘手段获取数据的方式,转由公众自发提供地理数据。由于VGI具有现势性高、覆盖范围广、数据量大、免费共享与准实时等优点,已迅速成为专业地理信息的重要补充。目前较为成熟的平台包括Wikimapia、OpenStreetMap、谷歌地球等。在这些与VGI相关的项目中,影响较大的是2004年成立于英国的OpenStreetMap(OSM)平台。该网站中的数据均由全球注册的志愿者采集上传,并免费为用户下载使用。随着OSM的不断发展,其数据被应用于包括国民体质健康评估、顾及公众参与的环境监测、地表覆盖变化数据提取、城市自行车网路径规划与极地GIS研究在内的各个方面。

OSM作为由公众参与建设的地理信息平台,数据贡献者来自各行各业且更多为业余人士,其数据质量到底“有多好”一直以来是研究者所关心的问题。Ciepluch以Bing地图与Google地图为参考,通过完整性、准确性、时效性等指标比较爱尔兰的OSM地图的数据质量;Neis以Tele Atlas地图为参考,采用格网划分的方法计算总长度完整性评估德国OSM地图的数据质量;赵肄江以面目标为例,采用德国柏林的OSM数据进行试验,提出了一种基于版本相似度的VGI志愿者信誉度计算模型;周平建立了包括属性精度、线完整性、位置精度与逻辑一致性在内的评价模型,对3个地区的OSM数据进行了质量评估。

地理信息数据质量的好坏对研究结果的准确性有着直接的影响,不少研究已经表明OSM的数据质量较高,可以满足用户使用与科学研究的要求。本文以国内应用面较广的高德数据作为参考图层,以河南省为研究区域,结合Python语言与ArcGIS提供的ArcPy站点包进行数据批处理,分析研究OSM数据在中国铁路数据方面的质量与适用性。

1 研究方法

ISO 19113:2002提供了关于地理信息的质量原则,即通过包括数据完整性、逻辑一致性、位置精度、时间精度、专题精度与属性精度在内的6个数据质量维度来描述数据产品与规范要求的契合程度。在智能交通中,精准的道路数据是满足人们出行需要的基础,现有的出行规划软件所使用的底图多不能达到实时更新的要求,这就使得线路规划略有偏差。虽然自发地理信息的出现在更新速度上占优势,其数据质量也应受到重视。在对OSM数据质量进行分析的研究中,VGI数据本身具有更新速度快的特点,因此认为其时间精度较高;逻辑一致性与专题精度与道路数据质量的相关性较小,不作为研究内容。道路数据的属性信息为志愿者主动提供,暂不作为本次研究的重点。针对此次研究的空间对象,本文通过将OSM数据与高德地图进行对比,主要从数据完整性与位置精度两个方面评估其数据质量及适用性,评估指标包括长度完整性、数据重叠度、空间分异率、相对位置精度等。

1.1 长度完整性

地理信息数据的长度完整性多针对于线要素而言,指的是在同一区域内待研究对象的总长度与参考对象之间的比值。就本研究而言,长度完整性以OSM数据在同一网格内的总长度与对应高德地图总长度的比值,线要素的长度完整性反映的是几何质量以及矢量数据覆盖性指标。长度完整性计算公式为:

式中,OLength表示OSM数据在某一网格内铁路的总长度,GLength表示高德地图数据在对应网格内铁路的总长度。长度完整性数值的大小体现的则是研究数据与参考数据之间道路总长度的契合程度,若其值在1左右浮动,可以认为研究数据的长度完整性较好。

1.2 数据重叠度

数据重叠度的度量采用缓冲叠加分析的方式进行度量,它被用于检测两个线素之间的吻合程度。出于不同的应用方向,地理信息数据允许存在一定程度上的误差,可以使用缓冲区的方法设置允许的容差范围。在给定的容差范围基础之上,讨论待评估数据与参考数据的重叠度更为合理。在图1中,虽然高德数据与OSM数据并未做到完全重合,但通过以高德数据为基础建立缓冲区的方式,可以认为位于缓冲区范围内的OSM数据即使没能与高德数据完全吻合,仍然可以满足研究与应用的需要,因此也称作质量较好的区域。依据此方式得出的百分比可以为反映线要素准确性的度量方式之一。数据重叠度计算公式如公式(2)所示。



图1 数据重叠度

Fig.1 Data overlap



式中,LBuffer表示在某一网格内落入参考数据集指定半径缓冲区内OSM数据的总长度,LOrigin则表示对应网格内原始OSM数据的总长度。

1.3 空间分异率

空间分异率是以空间分布椭圆为基础,定量描述研究对象的空间分布整体特征。空间分布椭圆即标准差椭圆,其中心表示要素分布的相对位置,方位角反映分布趋势方向,长轴表示要素离散程度,短轴表示要素的聚集范围。空间分布椭圆多用于描述研究对象的整体分布规律,以此衍生出了空间分异率的概念。空间分异率可以定量刻画不同要素之间的空间分异程度,以此表达两个要素在方向分布上的差异性,空间分异率数值越小则表明两要素在方向分布上的差异越大越不明显。两个空间分布椭圆方位角的差值也被用于评判空间分异率的辅助条件,在计算方位角偏差时就考虑到因长轴主方向呈西北-东南向与东北-西南向差异而导致的方位角差值不准的情况,如图2所示。



图2 空间分异率

Fig.2 Spatial differentiation



式中,SDifference为差异部分面积,SOrigin为对应差异值的总面积。空间分异率是一个相对概念,如果要求空间分布A相对于B的空间分异率,SDifference则为差异部分B的面积,SOrigin则为空间分布B的总面积。

1.4 相对位置精度

相对位置精度通过不同网格道路数据分布的中心点的位置差值实现,网格的中心表示该单元格中所包含整体特征的最小化欧几里德距离位置。数据分布的中心位置为研究区域中所有要素的平均x和y坐标,如存在不同指标的影响在计算时为数据分别赋予不同的权值。中心位置计算公式为:



式中,

则为数据分布中心位置的X坐标,

为数据分布中心位置的Y坐标。式中的xi与yi为各分布点对应的坐标,若考虑不同指标对分布情况产生的影响,可通过权重值ωi来体现,本研究取相同的权重值1来进行中心位置的计算。

1.5 Arcpy批处理

ArcPy是ArcGIS原生的Python站点包,它涵盖并加强了ArcGIS中ArcGISScripting模块的功能,为用户提供了使用Python语言实现地理处理的入口。ArcPy中的函数和类可用来处理GIS数据,使用Python语言结合ArcPy可以开发出大量用于处理地理数据的程序,实现空间数据的批量自动化处理。本文将研究区域分为25个网格进行分析处理,若采用传统的方法会导致工作量的增加,使用ArcPy大大简化了操作流程,提高了工作效率。本研究中方向分布椭圆的建立、裁剪、中心位置的确定等过程均依靠此方法完成。中心位置确定的代码示例如下:



2 研究过程与结果

本文的数据源为时间精度相同的高德地图与OSM铁路数据,以高德地图数据为参考,研究OSM数据的质量与适用性。在研究前对数据进行检查发现OSM的铁路数据将地铁等城市轨道交通数据也包含在内,因此需要对数据进行初步处理后再投入使用。两份数据的范围均覆盖全国,但受计算机性能与数据分布密度的影响,本研究仅选取位于我国中原地区的河南省铁路数据为OSM数据质量的研究对象。其坐标为北纬31.06°~36.99°,东经109.91°~117.45°,采用WGS1984坐标系。在对数据质量的相关研究中,多采用格网划分的方式将研究区域划分为合适大小的网格后再做相关分析,但对于格网具体应如何划分则由研究内容决定。为方便对比分析进行,综合考虑计算机处理性能以及河南省铁路整体分布情况之后,将整个研究区域划分为5x5网格。

2.1 长度完整性

为分区统计25个网格中每个网格的铁路总长度,提高数据质量分析的精确性,借助ArcGIS工具,首先依据空间位置将各个网格依据空间位置分别与OSM数据与高德地图数据进行空间连接,并在连接的同时计算每个网格内的铁路长度总和,得到两组数据在对应网格内的长度。将含有长度信息的两个图层再次连接,两组铁路数据的长度信息即汇总在同一属性表内,这时利用公式(1)则可以计算OSM数据相对于高德地图的长度完整性。

由长度完整性计算公式可知,低于100%的部分表示OSM数据长度完整性低于高德地图,高于100%的部分表示OSM数据长度完整性高于高德地图。25个网格中长度完整性处于50%~160%之间,跨度区间虽较大但处于极值的网格较少,考虑到误差的存在,认为完整性处于90%~110%之间的均为契合度高的区域。将长度完整性以较差、中等、偏好、较好、很好5个不同层衡量,可视化效果如图3所示。由图3可以看出长度完整性分布整体偏好,但存在较差的区域,查阅其属性信息发现长度完整性拟合度较差区域的存在是受商合杭高速铁路、郑合高速铁路与太康铁路的影响,这些高铁目前仍处于建设阶段尚未通车,但OSM数据中已存在该铁路的信息,因此造成长度完整性误差较大。



图3 OSM铁路数据长度完整性

Fig.3 Length integrity of OSM railway data

2.2 数据重叠度

数据重叠度是在考虑一定范围内数据采集误差的前提下,对研究数据的准确性进行分析。本文以高德数据为参考图层借以探究OSM数据的质量,因此以高德地图作为基准,建立一定范围的缓冲区后研究OSM数据与缓冲区的重叠情况。首先建立以高德地图为基础,缓冲区半径为5 m的缓冲区为被允许的误差范围,再以此缓冲区作为裁剪边界,用OSM铁路数据进行裁剪,并将裁剪后落入缓冲区范围内的总长度与原长度利用公式(2)进行对比,即可得到其数据重叠度,同样将重叠度以5个层次进行衡量。结合数据重叠度属性表与可视化显示图层可以看出,大部分区域内的数据重叠度较好,有的甚至接近100%,而重叠度不好的区域同样受商合杭高速铁路、郑合高速铁路与太康铁路的影响,如图4所示。



图4 OSM铁路数据重叠度

Fig.4 Overlap of OSM railway data

2.3 空间分异率

与衡量数据完整性的长度完整性与数据重叠度不同,空间分异率用于表示数据整体分布之间的差异程度。长度完整性与数据重叠度的度量使用Python语言结合ArcPy站点包对两份数据的25个网格分别得出描述其方向分布的标准差椭圆,欲求OSM数据相对高德地图的空间分异率需先得到其相对差异部分,再结合公式(3)求出空间分异率数值。空间分异率以面积为基准对分异程度进行衡量,方位角差值则为单纯分布方向差异的表示,可以作为衡量空间分异率的参考。空间分异率与方位角差值均较小的区域,数据相似性较高、质量偏好。从如图5所示的空间分异率展示图可知,空间分异较小的区域占大多数,空间分异程度较差的网格个数为4个。



图5 OSM铁路数据空间分异率

Fig.5 Spatial differentiation of OSM railway

2.4 相对位置精度

相对位置精度是用于衡量数据之间位置精度的指标,假设每个网格内的要素权重相同,以所有要素的坐标为基础,使用Python语言结合ArcPy站点包对两份数据的25个网格进行处理,得出各网格的平均中心。将两份数据的平均中心进行空间连接,计算各个网格对应中心点的距离同样分为5个等级进行可视化显示。由如图6所示的中心距离分级图发现OSM数据与高德地图相比相对位置精度相似性较高,中心距离偏远的区域占比较小,且也受到商合杭高速铁路的一定影响。



图6 OSM铁路数据相对位置精度

Fig.6 Relative positional accuracy of OSM railway data

2.5 OSM数据质量总体分析

将以上得出的长度完整性、数据重叠度、空间分异率及相对位置精度等对OSM数据质量进行评估的指标按照相同的权重进行叠加可得出由上述研究指标共同影响下的OSM数据质量评估指标,如图7所示。总的来说OSM数据在河南省铁路上与高德地图的相似性较好,相似性较差区域的存在大多受尚未通车商合杭高速铁路、郑合高速铁路与太康铁路的影响,误差的存在与两个地图平台数据采集原则与方式存在一定关系。除去这几条铁路的影响,可以认为与在国内适用范围较高的高德地图相比,OSM数据质量与其相当,可以满足应用与科学研究需求。



图7 OSM铁路数据整体质量

Fig.7 The overall quality of OSM railway data

3 结束语

自发地理信息的出现改变了传统仅依靠测绘手段获取数据的方式,使每个公众都成为地理信息的创建者。这种模式也具有数据更新速度快、覆盖范围广、获取方便等优点。目前应用较广泛的OpenStreetMap平台就是一个很好的例子。在日常的应用与研究中,数据质量直接关系到应用与研究结果的准确性,是最不能忽视的问题。本文以河南省为研究区域,从长度完整性、数据重叠度、空间分异率及相对位置精度角度等评判指标出发,使用高德地图的铁路数据为参考,分析研究了OSM数据的质量与适用性。结果表明OSM数据与高德地图的相似程度较高、适用性较好,可以投入使用。

数据质量分析的过程中使用了ArcGIS原生的Python站点包Arcpy进行数据批处理,提高了研究效率。与此同时,长度完整性、数据重叠度、空间分异率及相对位置精度角度等评判指标的选择,并且通过与高德地图的类比,可以较为完整全面地对数据完整性与位置精度进行评估。文中涉及的数据质量评价指标与方法,可为日后数据质量相关研究提供一定的参考价值。但本文所作的研究范围较小,仅从铁路数据出发讨论未涵盖其他相关数据,且尚未从属性精度方面对OSM数据质量进行评价,在日后的研究中会继续深入对此进行研究探讨。



本期回顾



自然资源和国土空间规化

· 生命共同体监评理论框架研究

· 面向生命共同体健康的生态安全评价研究——以湖北省三峡库区为例

· 国土空间规划辅助决策平台关键技术研究

· 国土空间规划实施评估:概念框架与指标体系构建

· 面向自然资源统一监管的地图产品设计

理论研究

· 城市三元空间发展水平的特征及耦合关系研究——以广东省为例

· 基于Landsat影像的雄安新区2014~2018年土地利用变化检测

· 内陆水体叶绿素a浓度遥感监测方法研究进展

· 基于最小累积阻力模型的土地生态安全控制区划定 ——以深圳市为例

· 城市教育设施的可达性分析——以龙岗区小学为例

· 面向微博签到数据的城市社区结构挖掘

· 限制性因素约束下城市综合体空间配置潜力区挖掘

· 基于TRMM和CMORPH的降雨数据对比分析研究

· 海底水深变化分析方法研究

技术探讨

· 第三次土地利用调查数据建库模式与方法研究

· 基于基础地理信息数据的III级城市三维模型快速构建方法

· 多源政务空间信息支撑下的城市建设智能化监管关键技术

· 试析空间数据产品质量及其控制与评价

· “天地图•四川”数据协同采集更新系统设计与实现

邮箱变更声明

·《地理信息世界》邮箱变更声明

网站开通公告

·关于开通《地理信息世界》网站的公告

诚聘特约审稿专家

·诚聘|《地理信息世界》诚聘特约审稿专家

专题组稿

·约稿函|《地理信息世界》关于开辟“博士综述论坛”专栏的约稿函









页: [1]
查看完整版本: OpenStreetMap数据质量评估及适用性分析 ——以河南省铁路网为例