多模态 AI 全面爆发！人工智能新一轮竞争，核心环节梳理

目前，AI模型从单模态向多模态演进，有望实现认知智能，这是AI未来发展的明显趋势。

最近，AI多模态模型不断取得突破。

OpenAI 发布 GPT-4 Turbo，并于 11 月开放 GPTS，短期内 GPTS 上线数量已突破 30,000 台，揭开了 AIGC 应用生态的序幕。

海外创业公司 Pika Labs 正式推出 AI 生成工具 Pika10 风靡全球，鼠兔10 包括一个新的 AI 模型，可以生成和编辑 3D 动画、动漫、卡通、电影等。

去年 12 月，谷歌紧随其后发布了它认为是其最大、最强大的 AI 模型 Gemini，声称其性能优于 GPT-4 和人类专家。

作为多模态大模型，Gemini 可以同时识别和理解五类信息：文本、图像、音频和**，对信息的理解非常准确。与传统大模型对英伟达硬件和生态系统的依赖不同，Gemini 的训练来源于 Google 对 TPU V4 和 V5E 的硬件支持。人工智能

目前使用鼠兔 1以0、Gemini为代表的AI多模态模型不断取得突破，或推动大模型应用加速，开辟商业化空间。以上两款也代表着挑战者对OpenAI和英伟达的强势反击，AI领域的高水平竞争正式进入新阶段。

目前，海外科技巨头在多模态大模型上的竞争日趋激烈，同时底层多模态大模型的能力也在不断被突破。

根据市场分析机构IDC的最新报告，2024年全球AI应用软件市场规模为640亿美元，预计到2024年将增至2790亿美元，复合年增长率（CAGR）为314%。

人工智能领域的研究一直致力于利用技术实现对计算机感知世界方式的高度模仿。

单模态相互作用是一个有限且不完整的模型，因此“多模态”研究的大趋势非常明显。

多模态习（对应单模态）基于多模态大规模数据，利用多种感官同时学习和习，提供更丰富的信息。

除了传统的语言与图像的交互外，结合声音、触觉、动作等多维信息进行深度学习习，从而形成更准确、更具表现力的多模态表示。

与单模态相比，多模态模型在处理多个数据输入时在结构上更为复杂，并且可能涉及使用多个子网，然后合并其输出。

多模态模型的核心是处理和集成这些不同类型的数据源。该模型捕获了跨模态的复杂关系，使机器能够更全面地理解和分析信息，使它们能够在各种任务中更好地执行。

AI模型走向多模态必然性主要有三大因素：跨模态任务需求+跨模态数据融合+人类认知能力模拟。

*：AWS、IBM研究院、浙商**、星星茶多模态AI以模态融合为核心技术环节，聚焦“表征-翻译-对齐-融合-联合学习习”五大技术环节，解决实际场景中复杂问题的多模态解。

多模态应用场景可分为分类、事件检测、情感分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、迁移习、解码、图像合成等。

多模态AI支持跨模态任务，应用场景广泛。可实现基于文本、语音等多模态数据的综合处理和应用，完成跨模态的现场任务，并应用于各种场景。

据杜鹃实验室统计，目前多模态内容主要应用于商业定制、游戏、影视、教育、医疗五大行业。

多模态 AI 图：

根据技术迭代，多模态模型可分为三个主要发展阶段。

自2024年以来，深度习为多模态研究带来了巨大的推动力，多模态模型达到了前所未有的准确性和复杂性。

这一阶段由四个关键因素驱动：1）大规模多模态数据集;2）更强的计算能力;3）研究人员也开始掌握更先进的视觉特征提取技术4）强大的语言特征提取模型已经出现，包括transformer架构。

多模式模型经历了三个主要时代：

数据**：在卡内基梅隆大学在OpenAI上宣布ChatGPT实现组网与支持**、语音通信、文本转换等多模态更新后，1国内外各大厂商持续跨文本、图像、音频等模态部署AI模型，行业应用也在不断升级。

Openai 多式联运应用：

来源**：OpenAI目前，国内外厂商仍专注于多模态大模型和对标GPT-4开发竞品。

人工智能初创公司 Anthropic 开发了一款基准 AI 聊天机器人 Claude。谷歌正在投资Anthropic，并且还在开发自己的语言模型Palm2和聊天机器人Bard。谷歌拥有多个跨模态AI模型，提供了多个功能服务模块。

Meta 另辟蹊径，开源了自己的大模型 Llama，后来越来越多的公司开源了自己的大模型，包括 Vicuna、Wizardlm、Guanaco 等模型Microsoft 的 KOSMOS-1 模型拥有 16 亿个参数，解锁了多模态功能。

海外大模型加速迭代，多模态为主攻方向

材质**：IT之家、OSChChina、Zacker、开源**国产大模型百花齐放，版本和性能不断迭代。

随着国外AI大模型的激烈竞争，国内许多互联网公司和科技公司也开始开发自己的大模型，如阿里巴巴、科大讯飞、百川等。

与国外相比，国产大模型的版本和性能更新迭代速度更快。

发布文心一言，持续迭代;腾讯混合模式迎来全新升级，正式开通“文盛地图”功能;盘古为客户提供100亿、380亿、710亿、1000亿参数的一系列基础模型，可以匹配客户在不同场景、不同时延、不同响应速度下的多样化需求。

盘古车型30 架构图：

数据**：华为云官网的国内多家厂商也在多模态产业链上下游进行了布局，包括苏州科达、Netda Software、当红科技、精益达、盛讯、维易嘉禾、英赛集团、博汇科技、数字政务通信、大华股份、云控科技、中科创达、Tors、新世界、恒生电子、易clickWorld、360、嘉都科技、捷成股份有限公司、昆仑万维、科大讯飞、万兴科技、汤姆猫、中文**、数字政通等

360集团旗下智能硬件与物联网事业群360智慧生活发布360智能脑视觉模型，以及4款AI硬件设备，并宣布360智慧生活将进军SMB（中小企业）市场。

科大讯飞星火认知模型v30 实现文本生成、语言理解、知识问答、逻辑推理、数学、多模态七大能力的提升。

苏州科达推出了KD-GPT大模型，包括多模态大模型、AIGC图像大模型和行业大模型，已初具规模，并开始在实际项目中应用。

亿嘉禾发布的基于多模态超融合技术的大模型YJH-LM已完成对该公司商用清洁机器人的功能测试。

当虹科技的视觉多模态分析技术基于自主研发的可视化多模态分析技术，对语音、文本、图像等多模态内容进行多维度分析，对最高级的内容和结构标签提取进行多模态融合的智能理解和分析，包括对人、车、物、地标建筑、文本等内容的识别。

AI应用的主要方向包括已上线并商业化的AI应用：工具、教育、校对、营销等;此外，还有游戏、影视等IP开发领域受益于AI**生成等AI多模态模式。

随后，随着AI模型进一步向多模态升级，广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大可能性。

从应用趋势来看，随着多模态大模型在语音、图像、**等多种输入输出方式中的应用，内容创作领域可能会经历前所未有的变化。

多模态模型有望显著打通下游应用场景，打破简单文本交互的局限性。下游应用场景在工业、医疗、汽车、机器人等领域的应用带来的商业化增量空间有望持续打开。

2024年8月31日，国内8家厂商的首批AI大模型通过《生成式AI服务管理暂行办法》备案，11月3日，又有11个AI大模型备案。

多模态融合的大趋势，AI生成技术的迭代，应用落地和商业模式创新的加速。

文盛是一个年轻的方向，该领域面临诸多挑战，包括算力成本高、缺乏高质量的数据集等，但随着扩散模型技术的突破，新的算法模型不断涌现。

以国外跑道为代表的企业在过去半年中取得了长足的进步，生成的一致性和保真度也得到了很大的提高，未来将应用于多模态领域。

在AI**生成领域，主要布局厂商包括万兴科技、新国度、虹软科技、广云科技等。

万兴喵影13是万轩科技的AI创作软件，内置创作助手Copilot，并推出了AI文本碎片化、AI**生成器等AI生成功能万兴“天目”是国内首款以创意应用为核心，聚焦百亿级参数的大模型。

游戏作为文字、图像、声音、**等内容形式的商业应用，有望在研发端更好地利用多模态大模型的能力，提高内容生产效率，提高内容丰富度。

版本号发放的常态化带来了供给侧的改善，新游戏陆续上线。多模态大模型有望提高游戏研发效率、内容和玩法的丰富性，增强游戏的社交属性，吸引增量用户，进一步开拓游戏商业化空间。

AI+游戏“相关布局厂商包括盛天网络、神州泰悦、网易、腾讯控股、千兆、西电公司、创梦天地、耀记科技、完美世界，包括星辉娱乐、凯盈网络、掌风科技、汤姆猫、宝通科技、巨人网络、三七互娱、千兆、巨人网络、电魂网络等。

AI多模态技术有望加速动漫、影视、互动影视游戏等内容的发展，并**丰富内容供给，带来增量商业化。

参与该环节的厂商众多，包括芒果超媒、阿尔法娱乐、雷丁集团、猫眼娱乐、广光传媒、华书**、上海影视、掌读科技、华策影视、捷成股份、万兴科技、易点击世界、盛天网络等。

AIGC在教育产品上实现了功能创新，在海外课程研发方面降本增收。语言学习应用程序 Duolingo 推出了基于 GPT-4 模型的 Duolingomax 订阅服务。国内AI教育产品不断更新迭代，有望逐步带来增量。

AI赋能电商“人”、“货”、“场”全面铺地，AI导购在国内外加速落地，实现产品推荐、服装试穿等功能创新，有望帮助电商平台和服务商提升产品销售效率，降本增效。

在AI+医疗方面，在医保成本控制、分级诊疗的背景下，AI可以通过提升人效、精细化运营、专业赋能等方式，帮助医院降本增效，同时帮助基层医院提升医疗能力。因此，嵌入AI大模型的产品有望实现更好的落地。

未来，多模型AI有望在影像技术、疾病筛查、手术等场景中持续发展。

本环节相关版图厂商包括世纪天虹、南方传媒、万信传媒、盛通股份、嘉发教育、欧玛软件、广云科技、值得购买、壹网一创、东方精选、焦点科技、润达医疗、嘉禾美康、卫宁健康、创业汇康、点诊断等。

医疗领域大模型支持的场景：

来源**：在AI领域，语音输入和图像输入技术已经达到了可以普及的水平。语音输入和图像输入意味着更自然便捷的人机交互和更广泛的应用场景，或将进一步革新办公产品。

Microsoft已经全面面向企业客户推出了Microsoft 365 Copilot，产品商业化的步伐又向前迈进了一步。对国内办公软件厂商具有积极意义。

目前，国内“AI+办公”厂商的多款产品已进入测试阶段，监管实施后，相关产品的商业化有望加速。

金山办公正式发布了一款具备大语言模型能力的生成式人工智能应用，命名为“WPS AI”，这也是国内协同办公赛道首款类ChatGPT的应用。 AI+办公环节主要布局厂商还包括彩讯网、致远互联、科大讯飞等。

苹果的MR头显体验处于领先地位，这可能会导致整体MR设备出货量的增加和对AR VR内容的需求增加。

多模态大模型有望降低成本，提高内容开发效率，从而提高VR AR在各种应用场景的渗透率。

主要布局厂商包括风雨珠、丰尚文化、恒信东方、蓝色光标、仁赛集团、元龙亚图、重力传媒等。

AI和大模型深度赋能机器人的感知层和规划层，帮助机器人更接近具身智能。

以Microsoft的ChatGPT预训练语言模型、谷歌的PALM-E模型、英伟达的多模态具身智能系统NVIDI**IMA为代表的AI技术突破，进一步助力机器人突破产品功率上限。

2023 年 3 月，谷歌推出 PALM-E 模型，集成了 VitvisionTransformer 的 220 亿个参数和 PALM 的 5400 亿个参数，集成了控制机器人视觉和语言的能力。

2023 年 5 月，英伟达发布了多模态具身智能系统 NVIDI**IMA，标志着 AI 能力的又一重大进展，有望显著提升机器人的智能化水平、人机交互能力和自编译能力。

随着多模态时代的正式开启，在训练和推理阶段，对算力的需求都比单模态模型有了很大的提升。

应用场景量大或请求量大，对计算资源的需求增加，导致计算集群规模扩大。

OpenAI 认为，自 2012 年以来，大规模 AI 训练所需的算力呈指数级增长，每 3在4个月内翻了一番。从2024年到2024年，它增长了30多万倍。目前，多模态大模型仍在迭代中，训练阶段的算力将持续增长。

算力产业链的核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。人工智能使服务器、计算能力和芯片能够以多种方式访问 AI

服务器及算力租赁主要代表厂商有浪潮信息、中科曙光、兴运联、寒武纪、神州数码、拓伟信息、恒润股份、紫光股份、四川长虹、振视通、中国长城、莲花健康、鸿博股份、润健股份、中北通信、烽火通信、恒威科技等光通信头部布局厂商包括中际旭创、信亿晟、华工科技、剑桥科技、光迅科技、光库科技、烽火通信、长飞光纤、亨通光电等。

计算基础设施产业链图：

数据**：目前，多家公司官网、华泰研究、星星茶正在全球开启新一轮AI技术大赛。大型科技公司改变了传统AI解决方案的商业模式，专注于AI大语言模型的研发，并深耕更前沿的多模态大模型。在AI浪潮持续爆发的背景下，多模态有望迎来全面爆发的机遇，带动产业链各环节快速发展。

关注乐清智库，洞察行业机遇！

多模态 AI 全面爆发！人工智能新一轮竞争，核心环节梳理

相似文章

双子座引爆多模态AI概念，数据元素繁荣度提升

复制长白线的底部！多模态 AI 对极限非常着迷！

风口研究报告 AI进入多模态时代中国人工智能市场潜力巨大

国产AI大模型多模态能力横向对比

谷歌发布多模态AI大模型，可布局文化媒体三大细分领域

多模态 AI 全面爆发！人工智能新一轮竞争，核心环节梳理

相似文章

双子座引爆多模态AI概念，数据元素繁荣度提升

复制长白线的底部！ 多模态 AI 对极限非常着迷！

风口研究报告 AI进入多模态时代 中国人工智能市场潜力巨大

国产AI大模型多模态能力横向对比

谷歌发布多模态AI大模型，可布局文化媒体三大细分领域

复制长白线的底部！多模态 AI 对极限非常着迷！

风口研究报告 AI进入多模态时代中国人工智能市场潜力巨大