在今年的两会上,全国政协委员张勤带来了《关于促进人工智能赋能中华优秀传统文化传播的提案》。
目前,全球人工智能新技术和新产品的涌现正在加速。 一方面,文盛图、文盛**等一系列新技术,给各行各业带来了发展的想象; 另一方面,瞬息万变的形势也给中国大模型的发展带来了挑战,使其面临“什么是中国自己的大模型”、“如何在模型语料库训练层面体现中国特色”等一系列问题。
张勤说文生**,关键在文字中,对于人工智能来说,输出的关键在于输入。 然而,目前国内外大典范对中国优秀传统文化的学习还严重不足。 目前,在世界通用(国内也使用)的大模型数据训练集中,中文语料库仅占13%,中国公司使用的大部分语料库由美国和西方主导。 如果我们继续用西方价值观数据和西方应用场景来训练中国模型,中国的认知就会被湮灭。
以 OpenAI 的 ChatGPT 为例,它对中国文化的了解非常有限。 比如,让它列举著名的七首绝句,但它给出的答案包括杜甫的《春的希望》、王志炼的《爬鹳塔》等五字绝句。 张勤表示,如果不加以引导,中国优秀的传统文化有可能在新的全球技术变革中被人工智能抛在后面,甚至被抹去。
张勤表示,优秀的中国传统文化具有领域广、数据量大、理解难度高的特点,与人工智能的结合既是优势也是挑战。 优点是优秀的中国传统文化有很深的积淀,是人工智能学习的庞大语料库。 以古籍为例,中国是世界上古籍数量最多的国家,中国古籍300万册,散落在海外的古籍40多万册,740,000台。 但是,中国古籍的数据结构不严,极难理解。 这就需要大量的团队持续投入精力进行语料库建设,甚至需要为中国古典、古代等优秀传统文化构建机器算法和编码系统,从而根据语境组织和明确“道”、“德”、“善”等核心价值观,让人工智能准确理解优秀中国传统文化的丰富内涵。
张勤表示,广电作为音频语料库最丰富的机构,与高校、科研机构、国内企业在人工智能领域开展了卓有成效的探索,与多家机构共同发起成立“中国大模型语料库联盟”,联合发布“央视收听模型大模型”, 并率先建立大型样板研发社区,在科研、需求应用、安全开发、产业生态等方面开展合作,联动产业链上下游,提供主站和中国。高质量发展行业,创造新的优质生产力。她提出,为加快新技术发展,更好地赋能文化传播,应集聚资源,打造以第一广播电视台为主导的重大原创平台,具体内容如下:
一是国家发改委、财政部支持首家广播电视台率先推动人工智能等现代技术与重点项目和专项资金相结合。 建议将相关工作纳入国家人工智能总体规划,加快构建中国优秀传统文化与主流价值观相关的语料库,开展面向主流价值观的数据分类、聚合和运营,将中国优秀传统文化语料库建设与人工智能大模型训练有机结合; 从而为中国人工智能的发展提供真正的中国智慧。
二是国家数据局牵头制定相关政策,鼓励主流文化机构有序有效开放文化数据资源。 在认知安全的前提下,推动中华优秀传统文化相关数据要素向生产要素转化,进一步支持数据主体采取市场化操作,鼓励通过招标、联合规划、联合申请、联合验收、合资等多种方式与相关主体建立数据共享使用机制; 从协调数据归集、同意形成数据产权和收益分配机制等层面提供指导和帮助。
三是加快培养与中国传统文化、人工智能相关的交叉学科人才。 增加相关专业和课程,构建高校与建设单位联合人才培养选拔通道。 结合计算机、人工智能和人文社会科学等专业方向,在多所试点高校增设相关专业或课程,推进一级学科建设,以第一台广电台开展中国优秀传统文化人工智能工程为试点,构建高校与建设单位之间的人才联盟, 联合培养选拔,促进人才培养与国家战略需求有效融合。