【摘要】防汛预案是防汛工作的重要理论基础,是各级防汛指挥部门进行防汛准备、 实施指挥决策、 防汛抢险救灾的重要依据。针对防汛预案种类多、数量大、涉及内容范围广的特点,导致在学习、查阅与借鉴时需要耗费大量的人力物力的问题,结合目前水利行业数据资源现状,遵循智慧水利知识平台建设原则,以知识整合、共享、创新和促使知识价值最大化为出发点,采用OCR、NLP、机器学习等先进信息化技术,借鉴知识图谱构建与应用领先行业的先进经验,对防汛预案进行数据化、规范化、结构化、知识化处理,逐步构建防汛预案知识图谱,实现相关水利数据的共享和创新,为相关业务及智能化决策提供数据和知识的支撑。
【关键词】智慧水利;数字孪生;防汛预案;知识图谱
1. 引言
随着时代的发展和社会的进步,互联网技术、计算机技术、信息技术、数据分析处理技术等飞速发展,各类数据随之飞速增长。如何从海量的数据中快速、精准的获取业务应用需要的信息成为亟需解决的问题,各行各业对各类业务数据信息化、知识化、可视化、智能化的需求愈发强烈。知识图谱技术作为人工智能技术的一个重要组成部分,其建立的具有语义处理能力与开放互联网能力的知识库,可在智能搜索,智能问答,个体化推荐等职能信息服务中产生应用价值。
水利行业内的各类防汛预案,内容详实、具体,但大多保存形式还是以文件类型为主,常用的描述和表现形式有文字、数据和图表。这种防汛预案在使用中存在以下问题:
(1)难以形象、直观的表述和理解。防汛预案的使用者不仅仅是专业人员,非专业的人员使用预案的情况在业务流程与应用中也十分常见, 当使用人员对于防汛业务不够熟悉,且需要在短时间内了解并掌握防汛调度指挥的内容,单纯依靠篇幅较长、表述形式以文字和图表为主的防汛预案,履行防汛指挥工作是非常困难的。
(2)防汛预案更新迭代慢,智能化水平不高。目前,虽已有部分预案实现了计算机化存储与管理,但当防汛形势发生变化时,已有预案的更新迭代速度慢,预案管理的智能化水平较低。此外,部分防汛、防凌预案还没有完全实现无纸化的计算机存储与管理。
(3)已有的防汛预案不能满足防汛业务的快速会商与精准决策需要。纸质的文档类型防汛预案包含的信息量有限,在需要快速会商时查询与使用不够方便;在实际防汛过程中,若发生预案中未涉及到的场景,预案对防汛工作的借鉴和理论支撑作用大打折扣。同时,在需要对预案内容修改、变动时,纸质文件类型的预案将提升工作的复杂程度。除此之外,在需要多个方案进行分析比选时,基于纸质预案的分析与比选对人工依赖程度较高,且非常繁琐的。
针对以上问题,基于自然语言处理技术,结合现有的各类预案资料,构建具有语义处理能力的防洪应急预案知识图谱很有必要。通过建立防洪应急预案的知识图谱,为防洪应急知预案的数据化、知识化、可视化、智能化提供技术支撑,提升防洪业务应用的智能化水平,让行业相关人员能够更快捷、便利、高效地获取信息与知识。同时,基于知识图谱的知识智能检索,将作为防汛会商和精准决策的数据支撑,提升决策的智慧化程度。
2. 防汛预案知识图谱建设目标及原则
《“十四五”智慧水利建设规划》中指出“十四五”智慧水利建设总“十四五”智慧水利建设总体目标是:坚持“需求牵引、应用至上、数字赋能、提升能力”总要求,以数字化、网络化、智能化为主线,以数字化场景、智慧化模拟、精准化决策为路径,以网络安全为底线,通过建设数字孪生流域、“2+N”水利智能业务应用体系、水利网络安全体系、智慧水利保障体系,推进水利工程智能化改造,建成七大江河数字孪生流域,在重点防洪地区实现“四预”,在跨流域重大引调水工程、跨省重点河湖基本实现水资源管理与调配“四预”,提升N项业务应用水平,建成智慧水利体系1.0版,水利数字化、网络化和重点领域智能化水平明显提升,为新阶段水利高质量发展提供有力支撑和强力驱动[1]。
3. 防汛预案知识图谱建设路线及关键技术
防汛是指防控针对台风,风暴高潮(辽宁沿海一带),暴雨和洪水所引起的灾害。此类情况需先制定防洪抢险、减轻灾害的对策、措施和应急部署即防汛预案,预案主要内容包括防洪工程设施的基本情况,预案的指导思想,预案启用的条件,防洪抢险措施和组织指挥体系等内容[2]。
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系[3]。基于防汛预案的知识图谱建设路线有知识建模、知识存储、知识抽取、知识融合、知识计算、知识应用六个环节。
构建知识图谱的第一个环节是知识建模,主要基于水利行业的防汛业务应用属性、防汛预案知识特点、实际业务需求,依据知识图谱的模式进行业务抽象和业务建模,主要内容是实体定义、关系定义和属性定义。第二个环节是知识存储,知识图谱构建时的原始数据有结构化、半结构化和非结构化三种类型,在知识存储环节采用关系型数据库和图数据库互相补充的模式,存储在前期工作中构建的本体模型和知识图谱。第三个环节是信息抽取环节,该环节主要任务是自动化地从半结构和非结构数据中抽取出实体、属性和关系,关键技术包括实体、属性和关系的抽取。第四个环节是知识融合,该环节主要工作是对知识抽取得到的信息进行逻辑归属和错误过滤,关键技术有实体链接和知识合并。第五个环节是知识计算环节,在该环节中进行知识推理、质量评估和知识更新工作。至此知识图谱初始化以搭建成功。最后一个环节为知识图谱的应用,在该环节将提供基于图谱的知识检索、智能问答、知识推荐、知识溯源等应用服务,推进知识图谱和实际业务的深度融合。知识图谱构建的技术流图见图1。
图1 知识图谱构建的技术流图
4. 防汛预案知识图谱构建与应用
4.1. 防汛预案知识图谱构建
本研究以《黄河2021年调水调沙预案》为研究对象,按照预案篇章结构,选取第一章《2021年汛前黄河调水调沙预案》和第二章《2021年汛期黄河调水调沙预案》作为本次知识图谱构建的主题内容。
以行业通用标准及专家经验为依据,对《黄河2021年调水调沙预案》进行结构划分,按照时间区间划分为汛前和汛期两大类别,其中汛前包含边界条件、调水调沙和调度方案三个子类,汛期包括边界条件、调水调沙、典型洪水分析三个子类,并在基础上进一步展开细分。《黄河2021年调水调沙预案》类别划分框架图如图2所示。
图2 《黄河2021年调水调沙预案》类别划分框架图
在知识抽取阶段,按照《黄河2021年调水调沙预案》类别划分框架图中分类情况开展对预案中的实体、属性和关系标注工作,标准化实体表达方式,定义成(label,name)组成的二元组,将每个实体及其属性按照分类级别自上而下整合成实体集。累计标注实体和属性299个,实体间的关系289个。
知识融合环节中,自上而下按层级关系读取实体集,定义上下级关联关系,存储成(实体,关系,实体)的三元组,实体层级关系见图3。在图数据库neo4j中,从一级类别开始作为根节点,逐级构建实体节点和关系,完整知识图谱见图4。图谱构建完成后,开展实体消歧和实体链接工作,对照层级关系复核并处理可能存在的节点关联错误等问题,实现图谱优化。
行业常用的只是存储解决方案是依赖以点、边为基础存储单元,支持高效存储和查询的图数据库。不同于传统的关系型数据结构,图数据结构存储对象为节点之间的依赖关系,而图数据库把数据间的关联作为数据的一部分进行存储,关联上可添加标签、方向以及属性,而其他数据库针对关系的查询必须在运行时进行具体化操作,这也是图数据库在关系查询上相比其他类型数据库有巨大性能优势的原因[4]。本研究中防汛预案知识图谱的存储采用Neo4j图数据库实现。
图3 《黄河2021年调水调沙预案》实体层级图
图4 《黄河2021年调水调沙预案》知识图谱
4.2. 防汛预案知识图谱应用
知识图谱的主要应用场景有知识检索、知识推荐、知识问答、知识溯源、知识推理、决策支持等。
(1)知识检索
知识检索的研究和建设是为了实现“一切皆可搜索,搜索必答”。在防汛相关业务流程中,能否快速精准的检索到所需知识将极大程度的影响决策。本研究基于防汛预案知识图谱的知识检索工作主要从基于图谱的实体与关系查询方面展开。
实体与关系查询的技术基础是neo4j图数据库。通过cypher模糊匹配算法,检索所有名称中包含该检索词的节点与关联关系。在防汛业务应用场景中,可以实现基于某检索词的知识及关联关系的模糊查询,进而为智能决策提供可信任的数据支撑。基于防汛预案的图谱查询结果如图5所示。
图5 节点模糊查询“调水调沙“查询结果
(2)知识推荐
知识推荐的建设目标是“精准感知任务与场景,想用户之未想”。在实际应用场景中,基于图谱的知识查询不足以满足实际应用需求,精准输入库中已有数据并进行知识查询是很难实现的,因此,需要加入语义相似性分析来补充和完善平台的知识检索和推荐能力。基于语义相似性分析的知识检索算法流程如下:
Step1. 整理构建自定义词库。基于防汛预案抽取水利专业名词,构建自定义词库,在后续对检索语句做NLP分词处理时跳过水利专业名词。
Step2. 构建预案的知识检索库。获取图谱中所有实体,将三元组类型的实体转化成格式规范的文字描述,构建预案知识检索库,作为检索数据源。
Step3. 匹配与检索语句相关的所有描述。依据语义相似性分析算法,在检索库中匹配与检索语句相关的所有描述。
Step4. 相似程度最高的十条记录作为最终反馈结果。根据语义相似程度得分对检索结果排序,选取得分最高的十条记录,作为最终检索结果。
基于语义相似相分析的知识推荐结果见图6。
图6 检索“小浪底”时推荐并展示的相关知识
(3)知识溯源
知识溯源的建设宗旨是“来源可解释是结果被采信的前提”。知识溯源的本质是探索两个知识节点之间符合条件的全部路径或最短路径。在知识图谱的防汛预案研究中,通过探索节点到根节点间的最短路径,实现实体节点的溯源。基于防汛预案知识图谱的知识溯源结果见图7。
图7 基于防汛预案知识图谱的知识溯源
5. 结语
防汛预案知识图谱依托OCR、NLP和机器学习等技术挖掘、整理文图表类型的预案资料,将不具备实体化的防汛预案知识以可视化的形式直观的表达出来,在确保知识准确性的同时提升知识利用效率,有助于完善已有的知识管理体系。
本研究基于知识图谱关键技术,构建包含关联查询、智能推荐、知识溯源等功能的防汛预案知识图谱,实现了防汛预案编制流程梳理、防汛预案知识框架搭建、预案中各实体和关联关系挖掘与整合。结合行业已有经验,推动了知识的高效管理、资源的高效整合和知识的智能查询,提升了防汛工作的数字化程度,为防汛工作提供智能化、精准化的知识支撑,是数字孪生流域建设的重要部分,为智慧水利建设提供助力。
【参考文献】
[1] 水利部网络安全与信息化领导小组办公室.“十四五”智慧水利建设规划(水信息〔2021〕323 号)[A].北京: 中华人民共和国水利部,2021.
[2] 范思刚,郭婧媛.防汛预案在防汛中的作用[J].东北水利水电,2011,29(12):52+61.
[3] 白文倩. 基于引文分析方法的教育技术学科知识图谱构建[D].华中师范大学,2012.