【摘要】水利行业存在信息化基础薄弱、数据量大、存储分散、一数多源、数据标准不一等问题,如何建设完整准确、及时互通、多源数据富集在线的数据底板,为顶层业务应用提供可靠的数据保障,已成为智慧水利建设中的研究热点及难点。通过建设智慧水利数据治理体系,形成数据统一归集、存储、管理、应用的一体化管理链条,打破信息交换壁垒,消除数据烟囱,为实现水利行业“一图通览”、“一网通办”、“一网统管”的智能化应用场景奠定数据基础,为智慧水利建设赋能。
【关键词】智慧水利;数据治理;数据质量提升;数据服务
1 智慧水利发展现状
智慧水利是在构建监测感知体系、信息安全网络、云平台等信息化基础设施的基础上,通过建设统一的数字底板,利用大数据、人工智能、物联网、云计算等新一代网络信息通信技术,结合水利模型、专业知识库等,支撑服务于全水利领域的业务应用系统建设[1]。当前,传统水利已难以满足新时代经济社会发展所需的专业化、精细化、科学化管理需求,智慧水利建设虽以有所突破,但较之其他行业仍处于下游水平[2]。智能感知方面,传感设备落后,监测感知体系监测不健全,无法全面掌握实时数据;数据平台建设方面,已有系统数据架构、管理模式不尽相同,数据共享交换困难,一数多源现象严重;顶层系统方面,模型预报预测精度不高,功能设计与业务需求更新频率不匹配,业务应用覆盖率低,仍有部分业务需通过线下方式办理[3]。综上,智慧水利目前仍存在投入低、成效差、更新慢等问题,尚无法为水利行业的智能化决策及精细化管理提供支撑保障,对智慧水利的建设和研究任重而道远。
2 智慧水利对数据治理的需求分析
智慧水利建设中,数据是基础,是支撑顶层业务应用的核心,没有了数据的驱动,智慧水利建设将成为空中楼阁,所有业务场景的实现都将成为空谈[4]。根据诺兰模型,目前水利行业的信息化发展阶段已从“单系统建设、单系统存储”的初步阶段过渡到了集成式建设的中期阶段[5-6]。但由于初步建设阶段各业务应用系统架构体系不同,数据存储模型不同,网络环境不同,导致数据孤岛、一数多源现象严重,各业务系统之间无法形成快速稳定的信息共享交换通道,极大地影响了集成式智慧水利建设进程,数据资源整合共享面临严峻挑战[7-9]。
(1)数据在线率低,尚未实现多源数据富集在线的管理模式。智慧水利建设以往更加偏重业务应用,对数据重视程度不够,导致大量数据缺失,基础数据老旧,未及时更新录入;监测数据覆盖率低、传输不及时;业务流程化程度不够,尚未实现对所有数据的线上归集及统一管理。
(2)数据质量较差,无法提供准确可靠的数据保障。智慧水利建设在数据统一管理及质量管控方面仍处于较低水平,数据完整性、准确性、关联性、时效性等质量问题突出,一数多源、数据异构现象严重,无法为顶层业务应用提供可靠的数据保障。
(3)“数据孤岛”现象严重,共建共享数据平台建设困难重重。已建业务系统建设年份、技术架构、数据库选型等不尽相同,导致各系统数据分布散乱,数据孤岛现象严重,缺乏长期有效的数据管理机制,数据并未实现有效的整合限制、阻碍了更高层次的智慧应用。
3 数据治理研究综述
数据治理是组织中涉及数据使用的一整套管理行为,由企业或单位数据治理部门发起并推行,关于如何制定和实施针对整个内部数据的商业应用和技术管理的一系列政策和流程[10]。国内对于数据管理的有关研究活动始于2010年左右,类似的名词出现有数据监护、数据管理、数据管护等[11]。数据治理不仅是通过数据的管理提升数据质量,更强调流程设定和权责划分,是围绕数据资产展开的系列工作,以服务组织各层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合。
近年来,数据治理体系已在国内外多个行业得到了广泛应用。包冬梅等在数字图书馆这一数据业务的典型行业,通过数据区分不同的图书及资料,并赋予其唯一编码,可以有效的促进图书馆在服务方面的创新和价值方面的创造[12]。范灵俊等通过数据治理,结合大数据资源,对多源数据进行融合清洗,有效解决了智慧城市管理的诸多问题[13]。巨克真等以电力企业为例,通过建立统一的数据存储标准,明确数据源与数据分布,形成集约化、精细化、标准化的数据服务,为顶层集中建设、大数据应用、智能决策分析的应用体系提供了可靠的数据支撑保障[14]。
通过对数据治理在各行业的应用研究,结合当前智慧水利建设对数据治理的需求,本文提出智慧水利数据治理体系,以打破水利行业数据壁垒,解决一数多源、数据缺失、数据错误等质量问题,形成多源在线、准确可靠的数据服务底板,为水利行业的精细化管理、精准化决策提供支撑保障,为智慧水利建设赋能。
4 数据治理标准体系建设
4.1 数据治理标准体系建设
数据治理标准体系包括数据归集、数据存储、数据质量管控、数据服务应用等,在汇集多源数据的基础上建立统一数据仓库,通过元数据管理、数据资源目录设计、数据标准建设、数据校核规则制定等方式提升数据质量,为顶层业务应用高质量数据服务统一发布及流程监控,完成数据“采、存、管、用”的一体化治理链条建设。
图1 智慧水利数据治理体系
4.2 数据归集
现阶段智慧水利建设多为已建信息化系统的升级、改造及整合,除根据业务需求对功能设计的升级改造外,还需完成对数据的归集整理工作,主要包括数据资源调研、数据架构治理、数据接入、数据问题分析四项工作内容。
4.2.1 数据资源调研
通过问卷调查、资料汇总分析内部走访调研和外部调研等多种方式,对已建信息化系统、使用情况、数据存储情况等进行调研梳理,明确现行系统部署现状、数据存储架构、信息安全、系统集成情况、现行数据标准规范等。
4.2.2 数据架构治理
数据架构治理包括数据存储和数据传输两方面内容。数据存储是在合理利用存储空间及,保障数据安全可靠的基础上,对多源汇集数据进行统一存储管理,明确数据存储方式及存储路径。数据传输为规划高效、安全的数据传输管道,对不符合架构要求的数据传输通道提出整改要求和建议,审核并监控整改结构。
4.2.3 数据采集
按照数据架构对收集整理的数据进行统一存储管理,形成贴源数据层,固化并管理从源系统到贴源库的映射关系,并保留接入数据源的所有信息,建立数据源登记制度、基于数据开发及管理平台进行数据源验证。
4.2.4 数据问题分析
基于行业的数据治理经验以及数据调研的结果,对数据治理的问题进行梳理和明确。梳理数据问题一般包括数据的一致性、完整性、唯一性、及时性、合规性及基于业务逻辑下的合理性问题。
4.3 数据仓库建设
4.3.1 贴源数据库建设
贴源数据存储源头数据,通常数据存储时间较短,目的是将多源数据归集,是之后数据清洗、加工、融合的基础,并将确保数据源头数据可以追溯、可审计。贴源数据层是数据采集工作的核心成果,搭建工作在数据采集阶段完成。
4.3.2 标准数据库建设
数据治理过程中提出了对数据质量方面的要求,这些要求包括技术要求和业务要求,标准数据层将有效的阻挡脏数据进入数据开发及管理平台,合理转化有瑕疵的数据,确保数据开发及管理平台数据有较高的质量保证。标准层的重点是对数据进行清洗和治理,清洗治理工作包括空值处理、无效值处理、数据标准化处理、业务键值处理、错误值的检测及修正、重复记录的检测及消除、不一致性的检测及处理等。
4.3.3 主题数据库建设
根据数据模型标准,按照基础数据、监测数据及业务数据搭建主题数据库表,满足共享数据需求,对共享数据进行处理,加工,提升数据复用率,保障数据获取效率。
4.4 数据质量管控
4.4.1 元数据管理
元数据是关于数据的数据,描述了数据定义和属性,主要包括业务元数据、技术元数据和管理元数据。元数据管理的目的是理清元数据之间的关系与脉络,规范元数据设计、实现和运维的全生命周期过程。有效的元数据管理为技术与业务之间搭建了桥梁,为系统建设、运维、业务操作、管理分析和数据管控等工作的开展提供重要指导。
元数据管理的内容主要包括元数据获取、元数据存储、元数据维护(变更维护、版本维护)、元数据分析(血缘分析、影响分析、实体差异分析、实体关联分析、指标一致性分析、数据地图展示)、元数据质量管理与考核等内容。重点明确业务元数据实施目标、梳理内容,依据元数据分布情况、元数据管理需求等。
4.4.2 数据资产目录设计
数据资产目录是数据盘查成果可视化体现和数据统筹管理的主要载体,可使数据资产易于查找、便于理解、值得信任,让数据资产更好地满足数据应用需求。采用“业务驱动自顶向下”和“盘点驱动自底向上”相结合的工作方法,形成符合业务特征的目录结构。其中“业务驱动自顶向下”按照业务视角梳理业务价值链、主要业务场景、典型业务流程,包括业务流程中涉及的表单、术语、业务数据项等。“盘点驱动自底向上”主要基于数据资产盘查提取源业务系统中的数据项,最终将元数据固化到“业务域-业务活动-业务过程”目录结构中,形成若干数据资产卡片用以记载数据资产项名称及编码、资产项格式、表字段列表等明细信息。
4.4.3 水利行业数据分类
水利行业数据分为基础数据、监测数据及业务数据。其中基础数据是指长期稳定不变、且在多个业务场景或系统内均有使用的数据,如各类水利工程的名称、编码、主要功能参数、空间坐标等;监测数据为通过监测站点生成的各类实时数据,如降雨量、河道水位、水库水位、河道流量等;业务数据为业务活动或流程中产生的数据,如水库巡检记录、线上发文等。
4.4.4 数据标准制定
(1)水利对象编码标准:参考水利部现行技术标准,结合实际建设范围,为各类江河湖泊、水利工程、监测站点及水利管理对象赋予一定规律、易于计算机和人识别的符号,作为各水利对象的唯一标识,达到“一物一码”管理水平。
(2)数据模型标准:基于数据属性的逻辑模型和物理模型,即数据库表结构设计标准,包括基础数据库、监测数据库及业务数据库。
(3)数据全生命周期管理标准及策略:包括数据生成及传输管理、数据存储管理、数据处理及应用管理、数据销毁管理、数据生命周期监控等。
(4)数据质量技术标准:涵盖数据校验规则管理、质量校验、日常检查、质量整治等。
(5)业务指标:数据对象在系统界面中的唯一标识。
4.4.5 数据质量提升
4.4.5.1 权责划分
数据权责划分旨在解决一数多源问题,明确数据唯一来源及责任管理主体,提升数据质量。权责体系一般通过行政部门管理职责确定,如水库一般由水资源行政部门管理,河流一般由河湖行政部门管理。
4.4.5.2 数据流转
数据从产生到应用需经过源端采集、数据汇集、标准化处理、专题库录入、统一服务发布等多个流程,需从数据采集工具、数据管理平台选型及网络传输速率等多方面分析,对源端采集频率、数据归集方式及服务接口发布等进行综合优化,以保障数据的时效性满足业务应用需要。
4.4.5.3 业务贯通
基于水安全、水资源、水环境、水生态等业务领域,分析各业务间存在内在关联,对各业务系统所涉及的业务场景、功能模块、业务指标等进行贯通检查,重点分析各系统之间存在交叉重复的业务流程,保障各务数据模型设计的统一性、一致性、规范性和完整性,在各业务系统内形成唯一的业务数据流,实现业务数据的统一服务及共享发布。
4.4.5.4 数据质量检查规则制定
遵照数据真实性、 准确性、唯一性、完整性、及时性等数据质量管理原则,编制数据质量检查规则。通用数据质量检查规则包括单表检查及多表联合检查,其中单表检查不考虑表之间的关系,如空值检查、值域检查、数据格式检查等,也可根据业务逻辑,对同一张表中的不同属性指标进行表内检查,如水库的死水位不高于其设计洪水位等;多表联合检查是通过验证表与表之间的关系,主要校验数据一致性、编码一致性等。此外,还需针对监测数据的传输时间、数据缺失、监测阈值等进行规则制定。
4.4.6 数据安全保障
数据安全包括制度安全、技术安全、运算安全、存储安全、传输安全、产品和服务安全等。制度安全方面,需建立安全的管理制度,保障数据安全防护有据可依;网络安全方面,需从身份鉴别、访问控制、数据备份等角度保障网络安全;物理安全方面,保护信息系统的软硬件设备、设施以及其他媒体免遭自然灾害、人为破坏或操作失误,以及各种计算机犯罪行为导致破坏;服务器安全方面,要对机房环境、计算机的安全防护措施可靠。
4.5 数据应用
数据应用包括结合已有数据和业务需求开发用于支撑决策的指标,基于指标设计、开发报表,对数据进行统计分析,以及基于数据共享服务向各业务应用系统提供符合需求的数据。
同时通过对现有数据的统计管理,从数据角度出发对数据的流转、加工等进行实时跟踪,对之前较为繁琐的业务流程提出合理的优化或简化建议,也可通过数据反推算法模型的优化,提升效率的同时,也可模型应用不断提供高质量数据,减少原模型中数据预处理流程和相关工作。
5 结语
当前智慧水利建设已进入集成化建设阶段,亟需通过数据治理手段,打破原有烟囱式建设而导致的数据传输壁垒,实现数据的共享共用,保障数据的一数一源,提升数据的准确性、完整性、及时性等,为顶层业务系统的建设及使用提供可靠的数据保障。与此同时,数据治理仍属新兴研究和应用领域,其在智慧水利建设中的研究和应用任重而道远,需更多专家学者不断地深入和探索。
【参考文献】
[1] 郑灿堂, 王庆华, 张洪芳. 浅谈"智慧水利"[J]. 山东水利, 2012(7):3.
[2] 张建云, 刘九夫, 金君良. 关于智慧水利的认识与思考[J]. 水利水运工程学报, 2019.
[3] 曾焱, 程益联, 江志琴,等. "十四五"智慧水利建设规划关键问题思考[J]. 水利信息化, 2022(1):5.
[4] 蒋云钟, 冶运涛, 赵红莉,等. 智慧水利解析[J]. 水利学报, 2021, 52(11):14.
[5] John, Leslie, King, et al. Evolution and organizational information systems: an assessment of Nolan's stage model[J]. Communications of the Acm, 1984.
[6] 李雪锋, 楚磊, 顾笑鹏. 基于诺兰模型规划企业信息化发展路径[J]. 企业管理, 2015, 000(007):107-110.
[7] 芮晓玲, 吴一凡. 基于物联网技术的智慧水利系统[J]. 计算机系统应用, 2012(6):4.
[8] 王超锋, 安根凤, 袁春丽. 智慧水利的发展和关键技术研究[J]. 河南水利与南水北调, 2015(14):3.
[9] 杜红艳, 薛惠锋, 侯俊杰,等. 面向智慧水利的水资源数据融合探析[J]. 中国水利, 2018, 000(023):61-64.
[10] 刘桂锋, 钱锦琳, 卢章平. 国内外数据治理研究进展:内涵,要素,模型与框架[J]. 图书情报工作, 2017, 61(21):8.
[11] 张宁, 袁勤俭. 数据治理研究述评[J]. 情报杂志, 2017, 36(5):7.
[12] 包冬梅, 范颖捷, 李鸣. 高校图书馆数据治理及其框架[J]. 图书情报工作, 2015(18):8.
[13] 范灵俊, 洪学海, 黄晁,等. 政府大数据治理的挑战及对策[J]. 大数据, 2016(3):12.
[14] 巨克真, 魏珍珍. 电力企业级数据治理体系的研究[J]. 电力信息与通信技术, 2014, 12(1):7-11.