【摘要】随着社会对智能化服务的需求提升,知识图谱技术已经在国内的各个行业、领域被广泛运用,但是知识图谱对于工程设计指标数据的管理方面仍缺少案例。本文提出一套以知识图谱技术管理水利水电工程设计指标的模式,将指标数据从表格、文本等多源异构数据转化为知识图谱的建设方案,并结合该研究创建的知识图谱为案例,分析知识图谱在指标数据管理方面的效果,从而为知识图谱对工程指标数据的管理提供模范作用。
【关键词】知识图谱;大数据;水利水电工程;设计指标
1 引言
水利水电行业数据量大、数据类型多样、涉及专业广,且相互作用复杂,需要结合系统化、规范化、精细化的管理模式、存储方式和智能应用手段,将海量多源的水利指标数据集成、融合、高效处理和智能分析,挖掘其潜在价值,并通过可视化和智能应用等手段辅助管理者决策。大数据技术应用作为辅助、优化工程设计的重要手段,集成多源异构数据,挖掘闲置数据,提高工作效率,是水利水电大数据的应用的重中之重。
水利水电工程设计指标数据来源于工程监测信息和以及专业计算,精确度高,专业化强,将多源异构的指标数据运用统一的数据结构进行管理,要求精确地把控知识图谱中的数据关系和数据类别等信息。传统的数据管理模式(excel表格或关系型数据库)所描述的水利水电数据来源于不同工程,相互孤立、缺乏关联度和群体性,且不同专业的数据相互分离,在没有形成统一规范化的多源异构集成模式的情况下,无法呈现完整的系统认识。而水利水电数据可以利用知识图谱的对实体的描述性、知识关联性、模式(schema)定义,以及规律分析、关联分析等应用功能,能够融合多来源、多格式、多专业的水利水电指标数据,加以科学的分类、优化管理、集成、高效利用,突破了传统模式下数据的管理瓶颈,为水利水电工程相关工作提供科学的计算优化和综合决策支撑。
本文将在回顾知识图谱的应用现状、模式的基础上,提出知识图谱对水利水电工程指标管理模式的构建技术,并结合实际应用实例,讨论该技术手段的效果和可推广程度。
2 知识图谱发展现状
2.1 知识图谱概述
移动互联网、物联网的迅速发展导致产生的数据整以爆发式的速度增长,为基于大数据的技术产品和应用提供了重要原料。从2012年谷歌通过知识图谱驱动的搜索引擎[1],到现在的聊天机器人、大数据风控、证券投资、推荐系统等大数据场景的的应用,与知识图谱息息相关,知识图谱在领域知识的挖掘和分析中扮演着重要的角色。通过图和网络的新型结构,知识图谱能反映出事物、事件以及虚幻概念之间错综复杂的关系。知识图谱结合了数学、图形学、信息可视化技术、信息科学等多专业理论方法,利用网络结构形象地展示专业、学科的数据和知识关系架构,将复杂的领域知识通过数据挖掘、数据处理、知识加工、图形融合,以网络的形式展现出来。
2.2 知识图谱的应用现状
目前,知识图谱应用到了电商、医疗、企业管理、银行等行业领域,来辅助复杂的决策和分析应用。电商亚马逊基于知识图谱的商品推荐模块通过计算分析商品之间的相关度,并对比顾客对商品的浏览、购买记录,形成商品-用户关联路径[2]。用户对商品的感兴趣度随着关联路径传播,算法将商品与商品、商品与用户的关系距离表示为用户的特征向量,计算出商品能对用户产生的吸引力,进而对给用户推荐可能感兴趣的商品[2]。医疗知识图谱主要用于科研、医学百科问答、疾病风险评估、和过程智能辅助等方面。IBM的Watson Health使用基于知识图谱的大型知识库和认知计算能力,为肿瘤癌症的临床治疗提供个性化、有效的决策支持[3]。在银行方面,工商银行自2018年运用企业级知识图谱以来,已将知识图谱技术运用到了客户服务、风险防控、产品创新等业务领域[4]。
2.3 知识图谱在水利行业的应用
水利行业结构动态且复杂,与人生活关系密切,其数据包含的对象多,如工程、河流、湖泊、水库等,涉及的专业广,如金属结构、造价、机电、厂房等,数据来源包括结构化数据、半结构化互联网数据以及非结构化文本数据。工程师需要根据不同项目类型、不同项目阶段和目标,将过程中重复的知识运用并形成知识体系,从而实现工程建设领域中知识组织的重复利用和组织化管理。知识图谱综合了多种学科的现代理论,结合了自然语言、机器学习、文本推荐等信息方法辅助工程师做决策,加速水利水电领域行业信息化工作,拓展信息应用的广度和深度。
水利行业学者对使用知识图谱整合多源异构大数据和实现智能化应用方面进行了探索。王新龙等[5]结合水污染扩散模型与知识图谱的关联分析,实现了对水污染溯源,确定偷排企业的水污染事件溯源方法。张子璇等[6]通过知识图谱技术及语义解析方法,设计并开发面向水利信息资源的智能问答系统。陈思源等[7]使用CiteSpace文本挖掘工具,获取水资源管理研究核心期刊的论文数据并制了知识图谱,对水资源专业研究的趋势进行了深度剖析,分析了水资源管理制度、流域综合管理和水生态文明建设等内容的未来研究方向。
2.4 文献述评
综上所述,知识图谱已经广发应用于电商、医疗、企业管理、银行等行业领域,并且在水利行业已经有相关的研究和应用。现有研究和应用缺乏对水利水电工程设计指标的讨论。设计指标数据是通过监测、计算、经验、推导出来的设计参数,如高度、库容,不可物化,与其它概念、实体的关系的结合需要通过专家经验进行分析/设计,不可使用常规数据实体的表示方式创建知识图谱。本文提出创建设计指标指标知识图谱的技术方案,首先打通了将结构型、非结构型数据转化为知识图谱的技术路线,并通过实际案例展现水利水电工程设计指标知识图谱的设计思路。该研究创新性地通过知识图谱的方法将工程的设计指标与其它非指标信息集成,为工程行业创建知识图谱提供模范,具有重要的研究意义。
3 设计指标知识图谱的构建方法
本文研究了知识图谱对水利水电工程数据管理的现状,利用水利水电工程设计指标构建知识图谱,总结了关键技术。知识图谱的基础数据单元是知识三元组,本研究的构建过程将通过不同知识抽取路线,实现了结构型、非结构型数据源到知识三元组的映射,并进一步讨论不同存储结构的差异。最终研究案例使用结构型指标数据以及相应的知识抽取路线,并基于属性图的知识图谱存储模式的构建方法。

图1:水利水电工程设计指标知识图的技术路线
3.1 结构型抽取
结构型抽取的过程主要包括定义图谱模式(schema)、数据抽取、知识映射。研究案例中构建以属性图为表现形式的领域知识图谱,将原始数据库的实例数据经过抽取、转换后加载到属性图数据库,最终完成领域知识图谱的构建。
(1)首先创建知识图谱的模式(schema),对数据分析,从概念层掌握实体的数量、数据类型、名称、单位和存储大小,并创建实体(entity)类和实体属性值等。
例如,“设计单位”的schema和“黄河勘测规划设计研究院有限公司”实体分别为:
{Tag: “设计单位”;Name:String(128);}
和
{VID:“黄河勘测规划设计研究院有限公司”;
Label:“设计单位”;
Name:“黄河勘测规划设计研究院有限公司”}
其中,创建设计单位的schema需定义该实体的名称类型(String)和存储空间(128字节);VID(vertex id即点id)为实体的独特标识,Label表示的是实体类型,Name为实体名称。
(2)结合常识、数据统计和专业分析,从数据中标记表示关系的指向信息、头尾结点信息,并根据该数据字段名称构建关系(边)的名称和关系类别。
例如,“所处流域”字段表示了工程所处流域的关系,该关系的schema为:
{Edge:“所处流域”;}
以下关系表示了小浪底和黄河有流域相关性:
{Starting_Node:“小浪底”;Ending_Node:“黄河”;Name:“所处流域”}
其中“小浪底”和“黄河”分别是“所处流域”关系的起始点和终止点。
(3)利用代码,进行数据抽取、映射,生成符合图模式(schema)的节点和边,即完成了将结构型数据到知识三元组的映射。
3.2 非结构型抽取
非结构型数据的抽取过程主要分为命名实体识别、关系抽取和构建知识三元组。该路线首先通郭命名实体识别模型从文本中识别出实体和实体的标签,作为关系抽取算法的输入条件;训练好的关系抽取模型将实体、标签和实体在文本环境的位置等信息作为输入参数,将实体之间的关系进行归纳;最终,相关联的实体与提取出的关系整合,形成知识图谱的三元组。
(1)命名实体识别
实体是文本中独立存在的事物,也是作为语义关系中的主语或宾语,关系的发出者以及承受者。长短记忆神经网络(BiLSTM)与条件随机场(CRF)模型相结合的命名实体识别方法由Lample等人[8]提出,并证明在多种测试数据上有优秀的表现。BiLSTM通过非线性你和及序列建模能力,捕捉前后文章的语境,挖掘文本中的特征信息。CRF是统计学习模型,常用于实体标注任务,在BiLSTM的下游进行序列标注。水利水电工程指标的语料主要存在与非结构化的文本数据中,首先基于样本制定标注数据集(即训练集),通过BiLSTM模型训练,并利用词向量的表示方法保留句子的前后文特征。在下游,CRF模型将BiLSTM模型的输出进行序列标注。
(2)关系抽取
工程设计指标数据的指标类型多,使用特征向量的数据表示方法会导致特征稀疏、关系抽取性能低下等问题。本研究使用一套基于特征向量的关系抽取方法,将文本关系特征抽取并表示为特征向量,利用实体与其上下文距离等特征的基础上,结合特征降维,在一定程度上解决工程指标数据特征量过大带来的关系分类性能低下的问题[9]。
3.3 知识存储
常见的知识图谱存储方法主要有关系型数据库、基于RDF三元组的数据库和属性图数据库等。
(1)关系型数据库
Oracle、MySQL等关系型数据库的储存模式,每一行数据代表一个实体的实例,每一个字段被视为实体的一个属性。对于属性数目小的数据,关系型数据库的存储方法设计简单,概念直观,容易理解,但在实体的属性数目庞大的情况下,此存储方式需要大量地人工通过键标记实体和属性的关系,难以维护扩展。
(2)基于RDF三元组的知识图谱存储模式
RDF是居于HTML或者XML的语义标记语言,是当今应用最广泛地知识图谱表示方式。随着数据量增长,RDF需要占用大量的存储空间,知识图谱的三元组通常在分布式系统的硬盘上以RDF文档的形式表存储,并通过编程语言进行读取。
(3)基于属性图的知识图谱存储模式
属性图数据库将数据存储为点和边,在概念上对应了指数图谱中的实体和关系。属性图数据库提供了高级、完善的查询语句,符合对真实业务场景的表达。通过关系和关系的标签可以快速获取相关联的实体,避免了传统关系型数据库的Union、join等表关联操作,提高了关系查询效率,具有代表性的属性图数据库有Neo4J、Nebula Graph、FlockDB、HugeGraph等。本研究的案例采用了Nebula Graph作为知识图谱的存储框架。
4 案例分析
4.1 水利水电工程设计指标知识图谱
本研究中对excel结构化数据建立schema,并映射、转换加载到属性图数据库中,最终构建水利水电工程设计指标知识图谱。
本研究使用了Nebula Graph知识图谱架构。Nebula Graph是一款开源、分布式的原生图(属性图)数据库,可以承载包含数千亿个点和数万亿条边的大知识图谱数据集。Nebula Graph 将数据存储为点和边,并允许赋予属性。
本研究的数据中,原excel格式下的指标数据涉及金属结构、电气、水工、厂房、施工等五个专业,应用于钢闸门、造价、溢洪道设计、消能防冲等计算场景,包含了256个字段(指标类别)以及3792个实例。表1展示的是水利水电工程金属结构专业的部分工程设计指标数据。
表1:部分工程设计指标数据

通过对excel原数据的分析,根据专家知识从列名中区分出主要的实体类别和设计指标参数。源数据中的信息分为两类:常规实体和指标实体。常规实体表示的是现实中实际存在的事物和概念,其实体类别包括:工程、工程类型、厂家、流域、城市、设计单位、省份和指标类别等。设计指标是工程的设计参数,是计算、查勘等方式推算、观察得到的数据结果,被归类为指标实体。通过代码和人工标记,创建了知识图谱的schema,如图2所示。常规实体之间的关系由专家通过人工识别并被赋予Tag类型,作为Node(点)的概念层表示。此研究为了区分指标实体所属的专业,使指标实体隶属于“指标类别”实体类型;“指标类别”实体类型代表了当前工程所属的专业,如金属结构、厂房、造价等,与工程相关的设计指标由指标类别展开,此设计指标表示方法有以下优势:
(1)设计指标与工程通过指标类别间接关联,将工程与设计指标分离,降低了工程的直接关系/边的数量,减少了视觉复杂度,保障了工程节点的其他关联实体/关系的可视化效果;
(2)水利水电工程可涉及多个专业领域,“指标类别”实体通过单独的点表示了工程的专业,而不作为工程内嵌的属性,更直观的表达了工程的专业以及相关设计指标所属的专业领域;
(3)设计指标实体与常规实体相分离,对指标的查询语句可以避免复杂的过滤条件。


图2:水利水电工程设计指标知识图的schema
通过分析结构化指标数据,创建schema,将数据提取并映射为图结构的点和边,形成了水利水电工程设计指标知识图谱网络,如图3和4。在概念(schema)层,知识图谱包含了14种实体类型、289类关系,在实例层,知识图谱涵盖了77234个点和159863条边。
如图3,为了实现检索,每个实体被赋予了独特的VID;指标节点使用“专业”字段表示了钢闸门和消能防冲分别属于金属结构和水工专业。通过“中国”节点展开了9项工程,工程进而关联了其所在的省份、所在的流域、供货厂家和所涉及的指标类型(专业)。该局部知识图谱将设计指标与工程间接关联,将常规实体和设计指标分离。基于此知识图谱调取指标的过程,只需通过工程名和指标类别就可以检索到工程相关指标,无需对其它相关联的常规实体进行过滤。

图3:水利水电工程设计指标知识图谱的局部关系图
4.2 未来的研究方向
该知识图谱案例创新性地将设计指标与其它实体类型独立,使常规实体和指标实体融合于知识图谱,并将不同类型、处于不同地域的工程汇集,直观有效地构建了指标知识图谱。目前,该研究开发了基于该知识图谱的工程指标信息检索引擎,运用Nebula Graph的nGQL图查询语言,实现了正向、反向、关联等查询方式。实现了由国家到省份、省份到工程、工程到专业、专业到工程设计指标等方正向查询方式。也能通过将工程指标所归属的专业相关联,反向查询拥有相似指标、相同专业的工程。
下一步研究重点是开发基于水利水电工程设计指标知识图谱的智能应用,辅助管理者决策。基于工程设计指标知识图谱的指标优化功能,结合机器学习以及该知识图谱高效的指标查询手段,将历史工程指标数据用来训练模型,分析新的工程的已知条件、参数,对其工程指标做预判,从而为新的工程的指标计算提供参考和比对依据,是辅助工程设计的有效手段。利用自然语言学习技术,将知识图谱中的工程设计指标、专业、工程名称等字段自动整合成符合人类表达语句,并遵循专业化表达方式,在报告编写的过程中自动对内容进行填充,辅助工程报告的智能写作。
4 结论
知识图谱技术已经在各行各业广泛应用,但是在水利水电工程设计指标的管理方面缺少案例。本文提出一套以知识图谱技术管理工程设计指标的模式,从结构性、非结构型数据出发,分别总结了数据抽取、知识映射和构件图谱的技术路线。本文结合水利水电工程设计指标知识图谱的案例,阐述了将结构化数组通过定义模式(schema)、数据映射、知识图谱存储等步骤构建水利水电工程设计指表知识图谱的过程,并分析了知识图谱在指标数据管理方面的效果。水利水电工程设计指标知识图谱使指标参数独立于国家、专业、工程等实体,优化了设计指标的查询机制,并有利于对设计指标数据的图谱可视化表达,并将指标优化和工程报告的智能写作等智能应用作为水利水电工程设计指标知识图谱未来的研究方向,为工程领域在工程设计指标数据的管理和应用方面提供模范作用,有很大的推广价值。
【参考文献】
[1] Claburn, Thomas. Google Knowledge Graph: How It Changes Search[J]. Informationweek - Online,2012.
[2] 钱越翡. 基于关联路径推理的知识图谱推荐算法研究[D].华北电力大学,2021.DOI:10.27139/d.cnki.ghbdu.2021.000881.
[3] 尤晋泽,林岩.大数据时代认知医疗的数据安全伦理透视——以IBM Watson Health为例[J].医学与哲学(A),2018,39(03):28-31.
[4] 贾玉红.工商银行企业级金融知识图谱建设与实践[J].中国金融电脑,2022(02):66-69.
[5] 王新龙,薛晓鹏,孙如飞.基于粒子群与知识图谱的突发水污染事件溯源方法[J].水力发电,2020,46(02):17-21+131.
[6] 张紫璇,陆佳民,姜笑,冯钧.面向水利信息资源的智能问答系统构建与应用[J].计算机与现代化,2020(03):65-71.
[7] 陈思源,陆丹丹,程海梅.基于科技文本挖掘的我国水资源研究知识图谱分析[J].水文,2019,39(02):61-66.
[8] Guillaume Lample,Miguel Ballesteros,Sandeep Subramanian,Kazuya Kawakami,Chris Dyer. Neural Architectures for Named Entity Recognition.[J]. CoRR,2016,abs/1603.01360.
[9] 毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究,2012,29(02):530-532.
【作者简介】
王小平(1981—),男,高工.从事水利水电工程设计及信息化研究,wang_xp@yrec.cn
基金项目:河北省水利科研与推广计划项目(2022-51)