陆晓华,多模态通信与多维竞争,智能通信新阶段

小夏 科技 更新 2024-02-03

作者: 卢晓华(天津大学新传播学院院长,讲席教授; 天津大学网络空间国际治理研究基地负责人; 本刊学术顾问)。

*:《青年记者》,2024年第17期。

导语:人工智能根据人类提示直接生成的内容进入通信,将智能通信推向一个新阶段,多模态通信成为一种重要的通信方式。

传播方式正在以复杂多样的方式发生变化。

通信相关基础技术的不断发展,促进了新旧交替,同时也出现了不同的通信方式,如报刊杂志与印刷通信、广播电视与无线电波通信、互联网与网络通信、移动平台与移动通信、推荐算法与智能通信等。 等等。

从另一个维度剖析数字化转型中通信方式的变化,我们会发现,在真实的通信世界中还有其他通信模式,比如多模态通信,它体现了新通信的特殊规律和底层逻辑,对现实通信活动有着巨大的影响,成为通信的重要制约因素和驱动力, 智能通信新阶段的影响与引导。

智能内容生成技术的发展及其根据人类提示直接生成内容并进入传播的特点,将智能通信带到了一个新的阶段,由人类辅助的人工智能生产和分发的内容与人工智能直接产生的内容已经开始共同影响人们。 过去,很难用多内容的形式来概括今天和未来的现实,也很难用综合文字、图像等内容形式来概括新闻传播的相应传播规律。 因此,应借用人工智能中使用的“多模态”概念,一方面应利用多模态通信来理解体现智能化转型中颠覆性创新的通信模式,加深对多模态通信规律的理解; 另一方面,在加深对监管规则和协同治理模式的理解的基础上,提高有效利用多模态通信的能力。

多模态通信是一种适应智能化转型的颠覆性、创新性的通信方式。 在智能通信阶段,人工智能直接生成的内容已经进入传播阶段,不仅可以根据人类提示生成报告、计划、诗歌、评论等文本内容,生成**、网页、数据分析等数字内容,还可以生成**等。 随着生成式AI技术的发展,AI未来还可能以其他方式直接生成基于人类提示或指令的其他形式的内容,甚至会出现一些我们今天不认为是内容的“内容”。 更重要的是,这些“内容”也可能进入传播,成为影响人类信息获取、知识提取、意见表达和意识形成的重要力量。 因此,从技术与内容相结合的角度来看,从传播模式的演进趋势和规律的角度来看,多模态传播已经到来,并正在成为决定传播功率和影响力的重要因素。

为了掌握传播规律,实现更有效的传播,我们不仅要从技术维度上理解传播方式的变化,不仅要从印刷传播、无线电波传输、网络传播等的渐进进步中把握传播规律,而且要认识和把握由于数字传播底层逻辑的变化而实际存在的传播方式的变化转型和智能化转型。要用新的眼光和思维,重新认识和认识这个时代的沟通规律和竞争格局,并相应地调整自己的思维方式和行为。

多模态内容和多模态传播。

在人工智能领域,多模态是指对文本、图像、语音等异构模态数据进行感知、识别、处理、理解和协同推理,从而更准确地理解外部世界。

多模态传播中的多模态内容至少包括九大类:一是融合传播概念中将文本、图形、语音、表情符号融为一体的综合内容; 二是为广播电视机构提供信息流、仪式感和互动性的专业直播,充分融合各种新表现方式的新直播和个性鲜明的手机直播; 三是具有听觉、视觉、互动、有感、体验、可分享等特点的新型内容形式; 四是基于数据挖掘的数据可视化内容; 五是数据集和数据流内容基于一流的数据库平台,如路透社、彭博社的金融信息服务系统; 六是体现新概念、新处理方法、新表达逻辑的数据产品,如约翰·霍普金斯大学的“全球疫情地图”,将疫情数据与位置关联起来,自动抓取更新,发布后进行复查和纠正; 七是各种能带来沉浸式体验的技术手段,如VR等互动内容的使用和传播; 八、基于深度学习、虚拟现实等生成合成算法制作的文本、图像、音频、虚拟场景等内容; 九是基于多模态大模型的智能内容生成工具和应用直接生成的内容。

多模态通信,即借助推荐算法传播人工智能和应用辅助数字内容生产等数字技术产生的内容和生成式人工智能产生的内容。 与智能通信相比,多模态通信不仅关注基于数据分析和算法推荐的智能通信的特点、规则和方法,更关注深度合成技术和智能内容生成技术生成的多模态内容的通信特性、通信规则、通信方式和通信模式。

从融合移动传播到多模态传播。

探索人工智能在新闻传播各个环节的应用,是人工智能新技术和应用快速发展带来的变革。

从借助短信发送新闻到让短信演变为第五**,移动需求成为第一需求,移动通信成为通信的主要特征。 随着数字技术在内容采集、制作、制作、分发中的应用,传播已经从基于文本表达的抽象传播转向借助**和图表的更具体的传播。 数字技术带来的“图与实”等变化,加速了文字、图像等各种内容形式和表现形式的结合甚至融合,并在移动通信中充分体现,从而形成了融合多种一流内容、体现移动通信要求的融合移动通信形态。

在数字技术的驱动下,通信形式已经演变为一体化移动通信,即既是移动的,又是一体化的,两者在一个新的层次上以新的逻辑结合在一起。 因此,任何传播者的传播活动都面临着新的竞争环境,具有新的内涵和新的竞争逻辑。 它表现在以下四个方面。

首先,技术条件和社会发展改变了职业传播者的生存环境和竞争逻辑。

目前,一些**还停留在传统的运作形式上,因为他们没有看到竞争逻辑的变化。 科技改变生活是我们面临的基本社会现实,如今每个人都在通过手机获取信息,他们的心理结构和信息判断方法都发生了根本性的变化。 移动互联网高度渗透到社会的各个层面,如果我们忽视这一点,我们就会忽视我们所面临的基本外部环境。

其次,群体行为和受众需求改变了传播路径和影响逻辑。

内容产品的质量与受众动机之间的关系非常值得研究。 如果我们以新的眼光看待电影和电视剧的传播,就会发现,虽然电影和电视剧本身是内容的入口,但决定人们是否看电影和电视剧的信息传递方式和传播路径已经发生了根本性的变化。 当年,《流浪地球》从原来的电影档期出发,一反常态,靠手机学习。 移动知识、大屏**、社会认同、共情驱动,这四点决定了当今影视剧的基本传播路径。 同理心驱动带来了新的受众。 而一些影视剧的传播,一般还是停留在通过制造话题、做点剧透来引起人们的兴趣。 如果影视剧的基本传播框架和传播逻辑不改变,就很难赢得大批观众。 很多质量不错的电视剧和电影的收视率和票房都不如预期,这与此有关。

第三,图像通信正在向多信息维度的图像通信转变。

当我们讨论**时,通常习惯将其分为长****、中****和短**。 在融合移动通信的条件下,如果第一人称的视觉和思维方式只是图像的长度,而不考虑叙事逻辑和多信息维度,就无法适应数字化转型中的技术条件和受众需求。 如今,电视机构和制作机构制作的内容构成正在发生变化,不仅更加注重传播的价值,而且更加注重提供知识渊博、方法论丰富的内容,这是传播主体在激烈的竞争中寻求新的竞争优势的选择。 目前,内容产品的制作更要注重寻找价值点和切入点,挖掘受众需求之间的共鸣点,最终找到与受众价值观的共鸣点。 只有把握好这四点,处理好图像本身的叙事逻辑,才能受到观众的欢迎。

第四,内容想象和多重互动拓展了专业传播的内涵和创作逻辑。

如果把影视剧的传播看作是一种职业传播,那么它的内涵和创作逻辑都发生了重要变化。 以科学传播为例,今天的观众希望看到的不仅是既有科学知识的可视化和普及,更是能看到能够激发想象力和好奇心的内容,满足人们探索未知、探索未来的需求。 今天,科学传播必须以人文价值观为支撑,既要有温度,又要有硬度。 因此,科技、科技、科幻等方面的作品和节目越来越受欢迎。 该分析框架也可以应用于其他领域。

五是推动发展、造福人类的追求,拓展了内容产品的表演空间和叙事逻辑。

中国日益成为世界舞台的中心舞台,中国观众拥有比以往任何时候都更广阔的视野。 因此,内容制作应更多地考虑国际国内传播需求的开放和应用,不仅要表达自己,还要体现相互交流学习、分享知识、增进理解、加深理解的意愿。 《哪吒》的成功,是以全球视野重新发现中华民族的文化符号,而北京冬奥会吉祥物“冰墩”也是一只熊猫,以全新的视野再现了中国经典元素之一。 这些成功案例提醒我们,在今天如何处理全球化与民族特征的关系,也提醒我们如何把握本土内容与国家、广域和全球传播的关系。 它不仅善于讲中国故事,也善于讲文明互鉴的故事,是向世界讲好中国故事的重要切入点之一。

更重要的是,要从综合移动通信转向多模态通信,向内容新形式与数字技术相结合迈进,才能更好地适应新通信底层逻辑的变化规律。 因此,要准确把握数字技术发展的新趋势,以更强的科技思维和对数字技术路线的把握,特别是对现有技术及其影响的清晰认识,实现多模态通信从多模态内容生产到智能通信新阶段的需求。

多重约束:智能内容生成的开发与应用。

随着生成式人工智能的巨大影响,越来越多的实体投入资源加入竞争,同时,相关规则制定和协同监管的强度明显大于过去一些新技术出现时。 此外,还有一些案例值得深思。

最新的案例之一是专利开放。 2024年8月11日,阿里达摩学院宣布将免费向公众开放100个AI专利授权,涵盖图像技术、**技术、3D视觉等多个AI技术领域,包括“红绿灯感知”、“疑似侵权**检测”、“时序数据**”、“点云数据处理”、“智能字幕生成”、 等。 这是中国最大的人工智能专利开放行动。

从历史上看,互联网历史上有很多先例,以自由开放的策略构建生态系统,以增强竞争力。 在移动操作系统的竞争中,Android系统以早期免费授权的形式进入了与苹果iOS系统的竞争。 Android 操作系统最初由 Andy Rubin 开发,用于支持手机,于 2005 年 8 月被 Google 收购。 2007 年 11 月,Google 和 84 家硬件制造商、软件开发商和电信运营商组成了开放手机联盟,共同开发和改进 Android 系统。 随后,Google 在 Apache 开源许可证的授权下发布了 Android 的源代码**。 2008 年 10 月,第一款 Android 智能手机发布,此后 Android 逐渐扩展到平板电脑、电视、数码相机、游戏机、智能手表等。 2024年第一季度,Android的全球市场份额首次超过诺基亚手机,超越诺基亚手机使用的Symbian系统,跃居全球第一。 2024年第四季度,安卓手机全球市场份额达到781%。2018 年 10 月 29 日,Android 正式向欧盟地区收取许可费。

客观地说,Android系统凭借其开放性吸引了大量的开发者,促进了其生态系统的完善。 自 2023 年以来,许多大型模型开发者开放了自己的 API 接口,以吸引其他开发者围绕大型模型开发各种应用。 阿里达摩院免费开放100项AI专利授权,不仅将为大模型的开发和竞争引入新因素、新条件,也为智能内容生成技术在新闻、传播和出版领域的应用提供了新的机遇。

另一个案例是,2024年6月28日,两名作家在美国加州北区地方法院对Open AI提起版权集体诉讼,指控Open AI利用原告的著作权书籍训练ChatGPT以获取商业利益。 这被称为“首例具有代表性的ChatGPT著作权侵权诉讼”。 根据起诉书,原告没有授权 Open AI 使用其受版权保护的书籍进行模型训练,但 ChatGPT 能够根据提示生成更准确的摘要(尽管存在一些错误)。 原告从现有事实和资料中推断,ChatGPT之所以能够准确生成某一特定图书的摘要,唯一可解释的原因是Open AI获取并复制了该图书,并将其用于其大型语言模型(GPT3)中。5 或 GPT4)。[1]

在这种情况下,有四点值得大型模型研究人员、行业用户和监管机构特别关注。

首先,本案原告发现了大模型的侵权方法,可以作为我国后人参考。

在本案中,原告通过要求ChatGPT输出ChatGPT拥有的受版权保护书籍的摘要,将原告的著作权书籍用于ChatGPT背后的大模型的训练。 “虽然大部分内容都用于训练大型语言模型,但书籍一直是训练数据集的核心语料库,因为它们提供了高质量长篇写作的最佳示例。 [2] 在 2018 年 6 月发表的“通过生成式预训练提高语言理解力”中,Open AI 披露了 GPT-1 的训练依赖于“Bookcorpus”数据集。 “书语库”包含7000本书,涵盖冒险、奇幻、浪漫等不同领域。 客观地说,书籍是用于大型模型训练的数据集的重要组成部分。 据统计,截至2024年6月底,国内已发布超90款大型车型。 用于这些大型模型训练的数据集是否包含未经授权的书籍? 是否存在潜在的法律风险? 如何看待和应对这些对大模型开发的制约因素?

其次,本案原告援引企业**证明其侵权行为,这将抑制对大型模型技术细节的披露。

从本案的相关报道来看,原告的诉状引用了相关企业**来证明其侵权行为,如上述“通过生成式预训练提高语言理解力”。 原告希望通过公开搜索Open AI自愿披露信息(企业**),证明GPT系列模型的训练是基于未经授权侵害海量图书内容。 例如,在 2020 年 7 月发布的《语言模型是小样本学习者》中,Open AI 披露,GPT-3 训练数据集中 15% 的内容存储在两个名为“Books1”和“Books2”的电子书语料库中。 “根据 Open AI 的披露,Books1 的规模是 BookCorpus 的 9 倍(约 6 倍)。30,000 本书),books2 是 42 倍(约 29 倍)。40,000本书)。由此,原告推断“'books1'最有可能是'古腾堡计划'或'古腾堡语料库标准化项目'”,而“books2很可能是互联网上的'影子图书馆'”。 3] 事实上,在 2023 年 3 月,Open AI 发布了 GPT-4 Enterprise**,但表示出于行业竞争形势和产品应用安全考虑,训练数据集的结构和内容将不再公开。

第三,本案原告对大模型的“自证原理”方法提供了启示和借鉴。

当本案原告证明Open AI侵权时,他与ChatGPT进行了交谈,并要求其“自我介绍”作为证据。 内容包括提供服务的方式和**,如网页模式为每月20美元,应用开发者通过API接口与ChatGPT交换数据,按量付费。 这不仅让人们看到了如何使用大模型,也促使大模型开发者、行业应用开发者和服务提供商更加关注大模型生成的“自我介绍”内容,促使其在训练过程中从多个维度生成自我介绍内容,并评估其准确性和衍生风险。

第四,大模型通过互联网提供服务需要研究国际人工智能监管规则。

2023 年 6 月 14 日,欧洲议会以 499 票赞成、28 票反对和 93 票弃权的压倒性优势通过了《人工智能法案》草案。 这意味着欧洲议会、欧盟成员国和欧盟委员会即将进入“三方谈判”阶段,以确定该法案的最终条款。 2024年,欧盟委员会提出了监管人工智能的第一部法律草案,该草案已由欧洲议会和欧盟理事会多次修订和讨论。 在基于大模型的生成式人工智能上线后,该法草案增加了相应的规定。

值得注意的是,首先,草案第2条明确规定了法律的适用范围,即适用于在欧盟投放人工智能系统或投入使用的实体(无论该实体是在欧盟还是第三国),在欧盟使用人工智能系统的实体, 以及在第三国使用人工智能系统,但该系统的输出在欧盟使用或对欧盟人员产生影响的实体。这有效地明确了法律的域外管辖权原则。

二是将AI风险分为四个等级:不可接受风险、高风险、有限风险和最小风险,对应不同的监管要求。 它建议严格禁止对人类安全构成不可接受的风险的人工智能系统,包括部署潜意识或有目的的操纵技术、利用人们的弱点或用于社会评分的系统。

第三,该法案要求每个欧盟成员国建立一个监管机构。 [4]

第四,由于ChatGPT的推出,该法案增加了新的规定,提高了大模型的透明度和风险评估要求,并要求披露是否使用受版权保护的材料来训练大模型。 [5] 这部法律值得包括中国在内的大型模型及其行业应用研究人员和服务商的关注和研究。 毕竟,域外用户也可能使用国产多模态大模型。

这两个案例反映出生成式人工智能已经进入多约束发展环境,即将进入或已经进入多维度竞争阶段。 如何适应人工智能领域的敏捷监管和协同监管,如何敏锐地发现和防范可能的版权和侵权风险,是智能内容生成技术服务商和用户必须面对的重大问题。

多维度竞争:智能通信新阶段的基本特征。

冷静观察、多维度竞争是智能通信新阶段的基本特征。

首先,从内容影响形成的角度来看,多模态传播中存在多模态内容之间的竞争。 文字、图表、语音、表情等多模态内容九类内容是深度融合转化的重点,数量、质量、品种不断提升; 但与此同时,数据可视化内容、数据产品、新形式内容、互动内容的影响力也越来越大。

其次,人工智能直接生成的内容和人类生成的内容正在争夺影响力。 这体现在ChatGPT上线后,AIGC直接产生的内容的针对性、知识、经验的种种影响。

三是AI生成的多模态内容之间的竞争。 早期,人们关注的是自己能不能作诗、写计划、改变**等; 之后,能否根据提示生成多种样式**,就成为人们关注的焦点。 这些不仅可用,有可能直接替代人类工作,而且还具有奇怪的特性,会产生意想不到的结果。

四是智能内容生成竞争正在形成,不仅包括以各行业目标开发吸引用户,还包括构建开放API接口的生态圈。

五是多样化运用智能内容生成形成的竞争。 在ChatGPT和文心一言上线初期,人们关注的是他们根据用户提示生成的内容是否准确、专业、有针对性。 在这个阶段,更有想象力的用户看重大模型生成的内容的不确定性,努力利用各种提示词组合来探索和放大智能内容生成的不确定性,从而利用它来激发创造力,扩大应用价值。

因此,在智能传播的新阶段,多模态内容的认知水平、对智能内容生成和利用的想象力、不拘一格的方法运用能力,在某种意义上决定了其智能竞争力。

本文是国家社会科学**重大专项“数字新闻理论、方法与实践研究”(批准号:20 ZD317)的阶段性成果。

参考文献: 1][2]kaysenChatGPT 版权案例 1:OpenAI 因输出书籍摘要面临六项“抓获”指控 [EB ol].(2023-08-06).

3]kaysen.ChatGPT 版权案例 1:OpenAI 因输出书籍摘要面临六项“抓获”指控 [EB ol].Project Gutenberg 是一组具有“版权保护过期”的电子书,通常用于 AI 模型训练。 2020 年 9 月,古腾堡项目宣布已收录了 60,000 多本书。 2018 年,一个 AI 研究团队在此基础上创建了标准化项目古腾堡语料库。 2024年,美国社会科学研究委员会(Social Science Research Council of the United States)在一篇题为“新兴经济体的盗版”(Piracy in Emerging Economies)的文章中创造了“影子图书馆”一词,指的是大量被侵权收藏并免费向公众提供的书籍。

4]王伟.把握监管机遇 欧盟《人工智能法案》进入最后谈判阶段法治**, 2023-07-03(6).

[5] 欧洲议会批准了《人工智能法案》,要求披露生成式人工智能训练数据的版权 [EB OL]。澎湃新闻。 (2023-06-15).

本文引用引文格式:

陆晓华. 多模态通信与多维竞争:智能通信的新阶段[J].青年记者, 2023(17): 60-63

相似文章

    双子座引爆多模态AI概念,数据元素繁荣度提升

    报道制作人 华西 双子座引爆多模态AI概念,多模态加速发展 当地时间月日,谷歌宣布发布其最强大的人工智能模型gemini。Gemini 是一款基于 Transformer Decoder 构建的原生多模态大模型,目前有三个版本 最强大的 Gemini Ultra 最适合多任务处理的型号和用于设备的 ...

    深化AIGC大模型多模态应用,AI Agent加速应用普及

    报告制作人 招商局 跟踪当前AIGC行业的发展,大模型的多模态发展进一步深化,尤其是文盛 能力的快速提升,将大大降低创作门槛,开拓C端创作的商业空间,以及游戏 影视制作等B端应用空间。在应用端,随着大模型能力的提升和大模型开发工具门槛的降低,AI智能体的构建能力有望快速下沉,这将推动AI应用的进一步...

    谷歌双子座是神话般的多模态和被低估的宽容

    图片来自 视觉中国。谷歌最强大的大模型Gemini已经发布,我陆续阅读了技术报告和一些评测分析,周末也记录并分享了 首先,有几点值得标记。Gemini Ultra 的得分为 是第一个在MMLU 大规模多任务语言理解 上超越人类专家的模型,类似于高考。国内外也有类似的基准。例如,C eval CMML...

    谷歌发布了 Gemini,一款性能优于 GPT 4 的多模态大模型!

    近日,谷歌CEO桑达尔?Pichai 和 DeepMind 首席执行官 Damith Hassabis 在谷歌官网上的一篇文章中宣布,谷歌最新的多模态大型模型 gemini版本 正式上线。该模型被称为 Gemini,不仅优于 OpenAIGPT 模型,而且还是最强大 用途最广泛的模型之一。Gemin...

    谷歌发布了 Gemini,一个性能比 GPT 4 更好的多模态大模型?

    Gemini 是 AI 领域的革命性突破,Google 发布了 Gemini 版本 有望在性能上超越 OpenAI 的 GPT 模型,成为目前功能最强大 用途最广泛的模型。Gemini 的独特之处在于它是一个多模态模型,能够同时理解和操作不同类型的信息,例如文本 图像 音频和 Gemini 使用原生...