2024年2月26日,工业和信息化部印发《工业领域数据安全能力提升实施方案(2024-2026年)》(以下简称《实施方案》),提出到2026年底基本建立工业领域数据安全保障体系的总体目标, 数据安全技术、产品、服务和人才的支撑能力稳步提升。本文首先对《实施方案》的重点内容进行解读,分析了工业数据的特点和工业数据的分类分级方法,并对工业领域数据安全治理提出了一些建议。
《实施方案》明确了工业和信息化部重点指标要求,要狠抓重点企业和定级以上企业,实现数据分类、分级保护超过4家的企业数量50,000,至少覆盖各省(区、直辖市)年收入在指定规模以上的工业企业前10%。 同时,建立和制定了不少于100项国家、行业、团体标准规范,为企业履行数据安全保护责任和义务强化了详细的标准和指导。 此外,将针对不少于10个重点行业选择不少于200个典型案例,强化优秀应用实践的引领作用。 数据安全培训覆盖3万人次,培训行业数据安全人才5000余人次。
基于上述总体目标和关键指标,《实施方案》提出了三项重点任务,一是通过增强数据安全保护意识,开展重要数据安全保护,加强重点企业数据安全管理,深化重点场景数据安全保护,提升工业企业数据保护能力。 二是提升数据安全监管能力,完善数据安全政策和标准,加强数据安全风险防控,推进数据安全技术和手段建设,锻造数据安全监管执法能力。 三是通过增加技术产品和服务供给,促进应用推广和供需对接,建立健全人才培养体系,提升数据安全产业支撑能力。
在保障措施方面,一是充分发挥高校、科研院所、第三方机构在实施方案的宣传实施、手段建设指导、技术交流合作、成果应用推广等方面的专业作用,通过加强组织协调,引导企业加强数据安全能力建设。 二是加大资源保障力度,鼓励各地将数据安全纳入地方产业领域数字化转型发展相关规划,在支持数字化、网络化、智能化等项目时,同时明确数据安全要求,引导企业在信息化建设中安排一定比例的数据安全保护资金。 三是加强成效评价,工信部大力推进工作,对取得显著成效的地区、企业和单位进行表彰,加强对优秀经验和做法的提炼、总结和推广应用。 四是做好宣传引导,充分调动行业协会、学会、行业联盟等力量,引导企业加强自律,凝聚共识,营造行业数据安全保护良好氛围。
近年来,围绕“加快数字化发展,建设数字中国”的战略目标,推动千行百业数字化赋能,尤其是产业领域的数字化转型,是中国的必然选择。 工业企业依托智能感知、信息挖掘、网络协同、认知决策、优化调度等智能系统,解决规模化生产定制、效率提升、成本控制等问题,在生产、安全、经济、消费等方面积累了重要数据。
企业信息化和工业物联网中机器产生的海量时间序列数据,以及与企业运营相关的外部数据,是工业数据的主要数据,规模巨大。 这些海量工业数据具有体积大、种类多、灵敏度高的重要特点。 “海量数据”体现在工业企业收集的海量数据上,需要利用大数据技术对数据进行处理和分析。 “多类型数据”体现在工业企业收集的海量数据中,包括业务管理数据、客户行为画像数据,以及各种设备状态、控制数据,以及丰富的类型,包括文本、图像、音频等数据类型。 “高敏感度”体现在工业企业采集的数据敏感度高,可能涉及企业的商业秘密、客户隐私等,科技发展的大趋势使得在工业领域治理数据安全势在必行。
工业领域数据的分类分级、敏感个人信息的识别,是数据安全治理差异化、动态化的前提。在行业层面,工业和信息化部颁布了《工业数据分类分级指南(试行)》和《工业和信息化领域数据安全管理办法(试行)(征求意见稿)》,为工业领域数据分类分级保护的实施提供了要求和指引。
针对数据安全合规要求,首要任务是通过数据资产的发现、梳理、归档,明确数据保护对象,行业数据处理者应根据数据的保密性和敏感性,对数据进行分类分级,制定不同的管理和使用策略。
分类是根据资料的**、内容和目的对资料进行分类; 分级是根据数据的价值、内容的敏感度、影响和分布范围对数据进行分类。 数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。 国家对个人信息和重要数据实施重点保护,对核心数据实施严格保护。
分类分级更像是一个基于标准定义业务数据的过程,是一个研究和审批的过程。 鉴于行业数据分类与业务相关性较强,需要依靠大量的人工分类分级处理和评估,需要有自动分类分级工具,充分利用自然语言识别、知识图谱、机器学习等技术,对行业数据进行智能分类分级。 数据处理者不应该只是形成一个数据资产清单就结束了,因为数据是动态的、流动的,业务在不断增加和变化,分类分级清单也会不断变化,应该建立符合分类分级和审查报告目录的闭环流程。
工业领域数据的分类分级有四个难点:
1、规模大,人工处理困难:工业互联网系统复杂,表外数据量大(一般在10万多份以上),人工处理工作量大,人工投入成本高。
2、效率低、准确率低:传统基于数据类型和特征识别的工具可用性差,分类和分级精度低。
3、数据载体适应性低:承载工业互联网的数据载体多种多样,可以以各种结构化、非结构化、半结构化的形式存储在各类数据库(包括国内各类数据库)和终端载体中,对各种数据载体的适应性低,不能完全覆盖工业互联网的数据范围。
4、不可持续:数据不断产生、加工、转化、流通,数据分类分级评价不是“一次性”的工作,需要建立战略性、自动化、流程化的分类分级体系,实现“连续”的数据分类分级评价。
经过一年左右的研发,这些难题逐渐被攻克,根据行业数据分类分级指南的要求,工业数据分类分级工具可以实现数据资产的自动化识别、智能分类、分级映射和标记能力、资源管理和漏洞管理能力,为数据资产所在的数据载体提供, 并将数据的分类分级结果与对比分析相结合,输出整体评价报告。在项目开发过程中,技术团队攻克主动网络嗅探和动态流量快速分析技术,全面发现工业互联网数据领域的数据资产,识别敏感数据。 采用word2vec等自然语言理解技术,对工业互联网数据资产的语义进行自动分割和理解,并对表单进行分类和分级特征提取。 利用长短期记忆网络(LSTM)深度学习技术对工业互联网数据进行分类分级建模,可基于少量分类分级结果进行分析建模,形成海量数据资产分类分级的自动标记。
数字化转型是工业企业抓住数字时代机遇,实现快速增长的必要手段。 目前,中国拥有41个工业类别、207个工业中型类别、666个工业子类别,是世界上唯一一个拥有联合国工业分类全部工业类别的国家,规模以上工业企业超过40万家。 数据是数字经济时代关键的新生产要素,与国民经济运行、社会治理、公共服务等息息相关,保障数据安全已成为关系经济社会发展的重大课题,《实施方案》为我们做好产业领域数据安全工作提出了总体目标和具体路径。 工业企业的核心工作要立足于敏感个人信息的数据分类和分级识别,突出“全员协同治理”,落实数据安全人员组织、数据安全使用、数据安全技术支撑的策略和流程,结合自身行业特点进行风险评估和场景化安全实践, 完善从考核、建设、运行到监督评价的闭环体系。持续推进数据开发利用与安全防护平衡发展。是时候在工业领域进行数据安全治理了