多模态应用分拣 Sora划时代，算力应用加速

（精选报告**：幻影影视行业）。

sora：划时代的文盛**大模型

文本生成**：Sora 能够根据用户提供的文本描述生成长达 60 秒的 **。

加深语言理解：GPT 技术用于将简短的用户提示转换为较长的详细翻译并将它们发送到模型。

**生成能力：Sora 可以根据用户的需求生成分辨率高达 2048 2048 的可变大小图像。

新增功能仿真能力：SORA具有3D一致性、长期相干性和对象连续性，可以与世界交互，模拟数字世界。

多式联运下游应用如火如荼

模态+**创作：提升创作者效率

Lumière：Lumière 的核心功能之一是它能够支持文本到文本和图像到转换功能。这是通过时空 U-Net （Stunet）架构实现的，该架构的设计重点是提高 AI 生成的运动的真实感**。 Lumière 能够在单次通过中生成完整的序列，而不是简单地组合静态帧。该技术可以同时处理用户的空间（即物体中的物体）和时间（即物体中的运动）方面，为用户带来更加自然流畅的运动感知体验。

哔哩哔哩：在生成式人工智能领域，无论是写文章、写作**，还是开放式问答，大型语言模型都展现出了巨大的潜力。基于大语言模型较强的理解能力，通过将**字幕加工成格式化文本，输入到模型中，使其能够结合上下文，选择最精彩的部分。通过提示工程，大型语言模型在选择高能量点方面也具有很高的准确性。哔哩哔哩也在积极探索相关技术在其他业务形态上的应用场景，如：章节拆分、直播大纲，提升创作者效率。

模态+ 自动驾驶：彻底改变人车交互

LIMSIM++：用于在自动驾驶中部署多模态LLMS的闭环平台。 LIMSIM++ 提供了一个闭环系统，包括道路拓扑、动态交通流、导航、交通控制和其他基本信息。提示是（M）LLM 支持的相术系统的基础，该系统包含通过图像或文本描述呈现的实时场景信息。 LLM智能系统具有信息处理、工具使用、政策制定和自我评估等功能。

V2VFormer++：第一个多模态 V2V 框架。对于每辆车，采用具有模态特定骨干的双流网络在BEV平面上进行摄像头-激光雷达特征提取（使用稀疏交叉注意力SCA模块进行摄像头-视图变换），并设计动态通道融合（DCF）以实现细粒度像素聚合。给定一个多模态BEV地图，执行数据压缩和共享，以在自车辆坐标处生成一组特征图FC**。随后，提出了一种全局-局部 Transformer 协同策略，用于相邻 C**s 之间的信道语义探索和空间关联建模。最后，将多车融合图fjoint输入到**标题中，用于目标分类和定位回归。

模态+ 自动驾驶：彻底改变人车交互

商汤科技提出了DriveMLM模型，该模型与现有自动驾驶系统行为规划模块中的决策状态保持一致，使车辆能够在闭环测试中运行，超越了之前的端到端和基于规则的自动驾驶系统方法。

首先，在成熟的模块化方案中，将LLM的语言决策输出与监管部分的决策状态对齐，使LLM的语言信号输出转换为车辆控制信号;

其次，DriveMLM的MLLM Planner模块由两部分组成：多模态分词器和MLLM解码器。

前者负责将摄像头、激光雷达、用户语言需求、流量规则等各种输入转换为统一的令牌嵌入; 后者，即MLLM解码器，是基于这里生成的令牌，然后生成**描述、驱动决策和决策解释等。

在CARLA中广泛使用的TOWN05Long基准测试中，其驾驶分数和路线完成度明显高于Apollo等非大型模型方法。

模态+广告（电商）：打造多种营销卖点

利用AI技术进一步增强数字人类的多样性，比如换脸、背景换人、重音换声来适应我们的提示，最后是剧本、数字人唇替换、背景换人、换脸、**压制后，就可以得到口播**。 客户可以利用数字人来介绍一些与产品相对应的营销卖点。这样一来，就可以在3分钟内做好一个数字人的工作，大大提高了广告主做数字人的能力。

大型模型还可以帮助企业生成营销海报并替换产品背景。 在接受大数据培训后，客户还想要一些特别个性化的东西，未来需要添加一些微调方法。

模态+ 教育：提高教学效率，加强人机交互

教学资源是自动生成的：在教学资源的自动生成方面，目前通用领域的多模态大模型已经展现出一定的能力。稳定扩散等图像生成模型可以根据教学需求输入学科的文本描述及其细节，快速自动生成多种风格、高清写实、唯美的美学教学资源，生成的教学资源不仅具有显著的跨模态性，而且具有新颖性和独特性。

人机协作流程支持：目前，多模态大模型在一般领域也显示出良好的潜力。在知识问答方面，所提出的ERNIE大模型可以增强对领域实体和专业术语的认知，并利用问答匹配任务进行模型训练，从而深入了解领域知识及其内部联系。

教师教学智能辅助：在利用大模型对教师进行智能助教方面，目前业界和学术界也开始积极探索。基于教师在线教学语音转录产生的约2000万条教育文本数据，美好未来构建了一流教学模式。

模态+ 医疗：为临床医疗任务提供更智能、更高效的解决方案

RADFM 具有巨大的临床意义：

支持 3D 数据：CT 和 MRI 广泛用于现实世界的临床环境，大多数疾病的诊断在很大程度上依赖于它们。 RADFM 的模型旨在处理真实世界的临床成像数据。

多图像输入：诊断往往需要输入各种模态的多张图像，有时甚至需要历史放射图像的输入，因此支持多图像输入RADFM可以很好地满足此类临床需求。

交错数据格式：在临床实践中，图像分析通常需要了解患者的病史或背景。交错式数据格式允许用户自由输入额外的图像背景信息，确保模型可以与多源信息相结合，完成复杂的临床决策任务。

模态+ 安全：AI + 安全加速演进

算法精度和效果提升：例如，在**监控场景中，这些技术可以通过对图像和声音的分析，实现目标行为识别和异常检测等功能。

多模态算法融合应用：在安防领域，多模态技术可以融合图像、语音、文本等数据，从而实现更全面、更准确的情报分析和预警。

AI算法从边缘智能向中央智能的倾向：安防AI算法一开始主要由中央智能算法处理，后来开始兴起边缘智能设备，将算法集成到终端中; 随着大模型的推广，中央智能的必要性将增加，AI的智能算法中心将发挥新的核心作用。

算法自适应学习：在安全领域，该技术可以通过对历史数据的分析和学习，实现对未知事件的快速响应和处理。

智能决策支持：在安全领域，该技术可以通过事件的分类和改进，实现智能决策支持和应急响应。

个性化服务：在安全领域，该技术可以为不同的客户提供具体的安全理念和风险评估。

总结：

多模态+**创作：提高创作者效率。 除了 Sora 和 Runway 之外，Lumière 能够在单个过程中生成完整的序列，而不是简单地组合静态帧。该技术可以同时处理用户的空间（即物体中的物体）和时间（即物体中的运动）方面，为用户带来更加自然流畅的运动感知体验。

多模式+自动驾驶：彻底改变人车交互。 商汤科技提出了DriveMLM模型，该模型使车辆在闭环测试中运行，超越了之前基于规则的端到端和基于规则的自动驾驶系统方法。

多式联运+广告（电商）：打造多元化营销卖点。 利用AI技术进一步增强数字人类的多样性，比如换脸、背景替换、口音语音替换来适应我们的提示，最后是剧本、数字换脸、背景替换等，**压制后即可获得口播**; 它还可以帮助企业实现营销海报的生成。

多模态+教育：提高教学效率，加强人机交互。 稳定扩散等图像生成模型可以根据教学需求输入学科的文本描述及其细节，快速自动生成多种风格、高清写实、唯美的美学教学资源，生成的教学资源不仅具有显著的跨模态性，而且具有新颖性和独特性。

多式联运+医疗：为临床医疗任务提供更智能、更高效的解决方案。 临床医疗服务产生的大量数据以不同模态存储在数据库中，经过分类和清洗，然后进行预处理，实现多模态融合。多模态融合可以将不同的信息有机地整合在一起，比单一模态信息更全面。

多模式+安全：AI+安全加速演进。 据全球政府和企业解决方案显示，目前我国人工智能技术在“AI+安全”领域的三个应用方向分别是生物识别技术、一流的结构化和物体识别系统。其中，生物特征识别技术应用最早，涉及应用范围广泛，是人像识别中最先进的技术。

本文仅供参考，不代表我们的任何投资建议。【幻影影视世界]。整理和共享信息仅供用户阅读获得的信息仅供个人学习，请参阅报告原件使用。

多模态应用分拣 Sora划时代，算力应用加速

相似文章

深化AIGC大模型多模态应用，AI Agent加速应用普及

应用端加速AI落地，掀起“多模态”热潮

多模态大模型陆续发布，AI应用落地迎来加速增长期

多模态在市场上被热议！AI应用呈爆炸式增长

双子座引爆多模态AI概念，数据元素繁荣度提升