安图新型基础测绘采编软件实体语义化构建
日期: 2022-12-15 访问:1522次 作者:世纪安图
2022年2月,自然资源部下发《关于全面推进实景三维中国建设的通知》。通知中明确实景三维中国建设,是面向新时期测绘地理信息事业服务经济社会发展和生态文明建设新定位、新需求,对传统基础测绘业务的转型升级,是测绘地理信息服务的发展方向和基本模式。
实景三维中国作为新型基础测绘标准化产品,以项目的形式对前期新型基础测绘的技术能力建设提出了更高的实际需求。
基础地理实体数据是整个新型基础测绘产品体系中的核心成果,具有全新的概念解释、全球唯一的实体编码。并且承载二三维一体化管理、多尺度表达、语义化识别、按需组装的技术要求。目前,行业内对于地理实体的概念和语义化基本有统一的认识,从实现层面,也还没有形成主流的技术解决方案。
安图新型基础测绘采编软件在地理实体数据转换、整合、编辑、质检等功能基础上,采用成熟的大数据、分布式数据库等技术定义语义模型,开发语义化提取、地理实体语义入库等功能,完善基础地理实体采编业务整体解决方案。
针对实体数据二三维数据生产特点,我公司研发了新型基础测绘采编软件,提供数据预处理、二三维数据采集与编辑、实体数据生产与语义构建、数据质检、成果管理等全套数据处理工具。
图1 系统功能模块
软件平台提供基础数据的交互式编辑、GP批量数据处理、流程化的编辑模型。并且根据实体数据生产特点,提供居民地实体的房屋院落合并、房屋属性继承、小区结构简化。道路交叉口结构生成、提取中心线、实体连接。水系连接、专项调查属性挂接等等工具。
提供专门服务于地理实体数据的实体图元组合、实体编码、实体对象查看、实体对象编辑等功能,便于实体对象的组合管理。
系统提供可定制的数据质检能力,可根据质检规则定制质检项,定制检查参数。根据选择的质检项进行数据质检,结果采用JSON方式存储。
质检完成的结果以列表的方式进行展示,配合编辑窗口进行要素定位,交互修改。质检结果可另存输出为矢量和表格文件。
对于实体数据成果,提供成果数据浏览、输出、数据备份及恢复、报表汇总、报表输出、元数据管理、数据字典管理、系统管理等功能。
语义化是基础地理实体数据的重要特征之一,对于实现 “人机兼容理解”、推动数据服务向知识服务发展具有重要意义。
语义化内容包括实体属性及实体关系两部分,实体属性包括对实体类别、实体名称、空间身份编码以及实体扩展属性的提取、完善、表达。
实体关系包括空间关系、类属关系、时间关联关系以及几何构成关系等等,新型基础测绘采编软件语义化构建模块提供实体数据的语义模型定义、语义化提取以及地理实体语义入库等功能。
语义化后台存储采用分布式搜索和分析引擎 Elasticsearch,主要因为其支持Java 开发,和 Supermap IDesktopX 能够结合使用,支持大数据分布式存储。支持 Mapping 映射,支持 JSON 结构化查询,能够海量数据秒级检索。
属性语义化是根据选取的地理实体属性信息按照语义化方法进行提取、存储、应用的过程。地理实体数据的属性还是以传统二维表的方式存储为主,属性语义化支持用户为各类地理实体定制提取的属性字段,下图选取POI数据的名称信息和路口的连接信息作为语义化字段进行提取:
在《新型基础测绘与实景三维中国建设技术文件-7基础地理实体语义化基本规定》中已经对地理实体的关系语义化内容做了规定:
软件根据标准定义,关系语义化选取内容如下:
根据以上属性语义化和关系语义化的内容,结合 Elasticsearch的索引存储方式,设计地理实体对应的 Mapping,形成最终的索引定义如下:
依据配置的属性语义和关系语义提取规则,首先分析每一类实体的属性信息,进行属性内容处理,拼接成可进行全文或者关键字匹配的查询内容。 关系语义化采用传统的拓扑分析方法,对预处理好的,符合拓扑要求的基础数据进行包含/被包含/邻接/联通等各种关系分析,在分析基础上,提取各类地理实体的关系语义化内容。 最后将属性语义内容和关系语义内容共同组成一个完整的语义化实体,为了便于分析,先将实体语义化文本保存在指定的字段内容。 安图新型基础测绘采编软件语义化提取界面及关系语义内容如下:
在地理实体语义化提取完成后,已经能够形成完整的地理实体语义定义。地理实体语义入库将提取的内容更新到分布式搜索和分析引擎 Elasticsearch中。 功能采用Elasticsearch的底层操作类库REST Client 来直连操作,程序界面及搜索结果界面如下:
基础地理实体数据是整个新型基础测绘和实景三维中国的核心成果,承担了地理信息 “全空间”自然资源管理、“立体真实“实体表达、跨尺度实体组合、人机兼容理解、动态物联感知数据融合等应用场景的数据模型基础。
语义化后的地理实体能够应用更通用的大数据、分布式存储、AI识别等等技术。将传统GIS拓扑分析前移,在语义化检索基础上,无论是人机兼容理解还是真实自然资源表达上达到了更高的水准。
北京世纪安图结合实景三维中国技术大纲要求,采用成熟的大数据、分布式数据库等技术对地理实体分类编码、语义化表达以及应用场景开发了安图新型测绘采编软件,形成了可实现、可应用的地理实体数据提取、存储、表达、应用的解决方案。 供稿:研发中心 赵北战 编辑:谭琳 审核:陈东 审签:祝欣欣