2024年科技领域年度热词,“大模特”榜上有名。 随着OpenAI的出现,一个大模型生态应运而生。 当基础大模型成熟后,针对一些特定行业和应用场景的垂直大模型的训练将变得越来越普遍,届时,这些行业中拥有大量垂直语料库的机构必然会有更多的优势。
作为知识生产者,出版行业拥有庞大的语料库,能够为大模型提供源源不断的养分,这也是为什么出版商觉得可以在大模型中尝试的原因。 在最初的观望和“试探”之后,对生成式AI新技术“又爱又怕”的发行商也走上了这条赛道,逐步将自己的想法付诸行动,希望能带来新的应用场景,提高存量效率,增加增量。
日前,德国**巨头阿克塞尔·斯普林格(Axel Springer)与美国人工智能研究公司OpenAI建立了战略合作伙伴关系,该公司将付费使用施普林格出版物的内容。 因此,施普林格成为世界上第一家与OpenAI合作的出版商。
在中国,中原出版传媒集团旗下的大象出版社,由于今年6月与施普林格·自然集团签订了中英文同步出版协议,被誉为“中国第一家与OpenAI达成间接合作的出版社”。
事实上,国内出版商对大模型的关注,最早就是在相关图书内容上落实的。 从2024年初开始,各种关于类ChatGPT大语言模型的书籍将上架,如中国翻译出版社的《大模型时代:ChatGPT开启通用人工智能的浪潮》、华凌出版社的《ChatGPT:AI革命》、中信出版社的《生成式人工智能:一本书带你阅读AIGC》、 等。 在国外也是如此。 据了解,亚马逊专门为类ChatGPT大型语言模型开设了图书专栏。 截至2024年10月13日,在亚马逊官网以“高级搜索”方式搜索到以“ChatGPT”为作者的图书已有1024种,以“AI”为作者的图书更是多。
为了加快与新技术融合的步伐,许多出版文化机构选择“跳出页面”,进入大模式。 文心易言是一款基于文心大模型技术的生成式对话产品。 今年以来,人民交通出版社、上海辞书出版社、四川人民出版社、重庆出版集团天下图书、国家图书馆、中文**等出版文化机构纷纷宣布接入文心一言。 对话语言模型技术在国内出版市场的初步落地,让出版商倍感兴奋,也开始尝试在产品研发、标准制定等领域深化合作,试图利用这一技术打造“全系列出版+人工智能产品与服务”,在数字经济时代形成出版机构独有的“新品质生产力”。 一时间,大模特带来的发布概念股股价,让人们对这一领域有了更多的期待。
随着大模型越来越“智能”,国内外出版公司和相关科技公司纷纷开始投入更多力量,以期率先享受到大模型应用带来的市场红利。 北京师范大学新闻与传播学院媒体融合与数字出版中心主任、国家新闻出版署出版业用户行为大数据分析与应用重点实验室主任秦艳华及其团队发现,根据不完全统计, 截至2024年11月6日,全国共有188家单位开发了201个大型语言模型。
值得注意的是,在混沌期开始后,大模型竞技场目前呈现出两条清晰的路线:一条是以云服务商为代表的基本通用大模型赛道二是由多年深耕千行业的“资深专家”在基础通用模型基础上构建的垂直行业模型。
基于对人工智能和大模型应用领域的深入研究和观察,秦艳华发现,大语言模型产业生态在文本、音频、**等多模态交互功能上不断演进升级,为多场景商业化奠定了基础。 许多大型语言模型具有跨模态和语言的理解和生成深度语义的能力,为出版业的发展和应用提供了更多的可能性。 目前,国内出版业对人工智能大语言模型的应用持谨慎乐观态度。
虽然大型语言模型尚未完全应用于图书出版的整个过程,但在图书出版的某些方面已经有了探索和实践,如编辑校对、翻译、音频制作、图书推荐等。
日前,中华书局古莲公司与南京农业大学信息管理学院共同推出“荀子”古书大语文模型。 中国图书进出口(集团)**的中国图书进出口(集团)**为农业、水利、医药、出版知识服务四大领域开发了中国地图集信息垂直的大型模型。 目前,城传媒已初步完成服务出版业专业大模型“万象”测试版的开发,并与科大讯飞达成协议,共建“AI出版传播创新研究院”。 今年5月,中信出版集团成立平行出版实验室,整合技术与编辑人员,从人工智能介入方面进行研发,包括校对、编辑审核、生成例如,公司知识服务平台联合发布“中信学院AI阅读助手”插件。 国脉文化传媒有限公司携手爱芒格(上海)智能科技有限公司,发布国内首款专业动画模型及AI工具版本0,基于算法的优化和创新,解决了随机生成和位置不固定的问题。
《中华医学会杂志》与科大讯飞在基于星火认知模型的辅助写作和智能问答方面开展了合作,未来将携手开展更广泛的个性化医学知识服务。 此外,《中华医学会杂志》在稿件的收录、编辑、审稿等环节中引入了AI写作检测工具,做好AI**预警工作,防止新的学术不端行为的发生。
美度发布了中国智能校对领域首款大模型“美度文秀”,大大提升了中文校对打磨能力的智能化水平。 中国**“中国逍遥”模式已应用于短剧剧本创作,未来将延伸制作高质量的对白和剧本,为影视创作者提供创作灵感和创作辅助。 由浙江大学、高等教育出版社、阿里云、华源计算等单位联合开发的“智海-三乐”教育模式,集搜索引擎、计算引擎、本地知识库等功能于一体,可提供智能答疑、试题生成、学习导航、教学评价等能力。 同时,CNKI发布AIGC检测服务系统,为出版传媒行业提供AI选题规划、AI增强检索等多种AI工具,并融入出版业务流程,赋能出版传媒行业全流程数智化转型。
在大模型的内容制作中,如何保证内容的版权得到妥善保护?这是AI大模型内容生成中不可忽视的问题,也是亟待解决的问题。 为了更好地记录AI生成内容的创作过程和版权信息,保证内容的真实性和版权归属的清晰性,龙源数字传媒集团近期基于大规模AI和版权文章数据库,开发了知识发现与创作平台“文科知识库”,为AI生成内容提供版权确认服务。 12月20日,中国音像与数字出版协会发布团体标准《生成式人工智能技术在出版业应用指南》,规定了生成式人工智能技术在出版业应用的基本原则、主要应用场景和相应的保障措施,将于1月20日起实施。 2024年。 新标准的出台,为出版商应用生成式AI技术提供了重要指导,这也意味着,在下一步的新技术探索中,出版商将在组织管理上不断迎来更深入的变革和思考,从政策变革、深化监管,到产业转型、动能转型。
各种垂直模式层出不穷,但一系列核心难点的存在,会在一定程度上影响这一探索的速度。 秦燕华坦言:“出版业具有代表性的大语言模式,大多是分散的,还处于起步阶段。 出版行业对大模型的研发,大多是基于自己的私域数据,希望能为出版的某一部分开发一些大的语言模型。 然而,这些出版公司的私有语料库和数据在训练大型模型方面是远远不够的。 除了人工智能领域的高科技人才、高资本投入、高算力外,行业模型的建立也需要有价值的语料库培训。 高质量的语料库问题是解决出版业大模型的关键。 ”
针对这些问题,秦燕华建议,出版企业要转变思维模式,要有互联网精神,开放、平等、协作、快速、共享,与高校科研机构、高科技公司开展深度合作,共享语料库资源、数据资源、科技资源等,同时找到合适的利益分配模式,实现双赢。 在大语言模型生成文本的基础上,跨模态生成技术有望进一步帮助出版者在纸质图书的基础上,融合一种或多种先进的形式和技术,快速创作融合媒体图书,增强图书趣味性和读者沉浸感,真正实现出版业的深度数字化转型。
面对这一巨变,发行商只有积极转变思路,勇于改变轨道,在品牌资源建设的全过程中努力下功夫,着力规避潜在风险,巩固选题策划、内容创作等技能,才能被时代淘汰。 和知识服务。
校对:马 Kui。
编辑:牟多娇(实习生)。
复审:张伟特。
结审:宋强。