1. 专家解读SORA的技术细节和行业影响
1、OpenAI发布的SORA是科技的巅峰之作,大力产生奇迹成果,在**领域出现了“涌现”;
2、SORA已达到可以投入商业或工业生产的水平,是创作领域的里程碑式产品;
3、SORA成果带来的对Infra和AI芯片的更大需求将快速增加,高端算力消耗需求将快速增长;
4.SORA受计算资源短缺的限制,不能使用过多的大量模型参数,但还是很好的工作,未来参数数量增加的瓶颈在计算资源上。 要实现AGI,需要有更强的AI芯片和更强的算力。
2、2023年10月至今国内外AI领域回顾:多模态推动AI大模型领域进入第二阶段。
1、国内AI模式与国外AI模式存在代际差异的共识,但AI模式是下一代科技创新的核心,国产模式必须拥有自主知识产权的共识仍是主流。 自10月底以来,该行业一直受到国内外行业进展和A**市场波动的影响。
1)10月底,经过一轮深度**,加上三季报落地,板块接近触底,昆仑万维、中际旭创等具有技术和性能能力的企业率先登台。此时,国内AI产业伴随着大模型备案的完成,尤其是11月3日,经过近半年的等待,第二批大模型备案通过,市场格局逐渐明朗。
11月到12月,海外大模型领域同时迎来了一系列更新,这也支撑了这一阶段。
2)12月底,第一个领域开始,包括剧集行业政策的影响,加速了媒体板块的恐慌性调整,包括AI大模型和应用公司,一直持续到1月。
此时,国产AI大模型开始探索从GPT3到GPT4的飞跃,市场普遍认为国产大语言模型处于GPT3和GPT4之间的水平。
会议纪要**:温八沽研究]小程序
3)1月26日,据路透社报道,美国商务部长吉娜·雷蒙多(Gina Raimondo)表示,拜登将提议要求美国云计算公司确定外国实体是否正在访问美国数据中心以训练AI模型。基于此,美国商务部发布了关于“采取额外措施应对严重恶意网络活动的国家紧急状态”的意见稿(系统显示发布事件为2024年1月29日),征求意见截止日期为2024年4月29日。 这一消息进一步打击了国内人工智能行业的情绪,随着市场调整,该行业继续下滑。
2、从海外来看,AI依然引领着整个科技的发展方向,多模态成为主要发展方向,从大型语言模型到多模态,再到通用人工智能,路径逐渐变得清晰,分歧点主要在节奏的判断上。 如果说2023年初ChatGPT的退出是AI领域突破的主要催化剂,那么新一轮的突破则是从大型语言模型到多模态的进一步突破,带动AI领域进入第二阶段。
1)在大型模型领域,OpenAI虽然经历了短暂的内部管理失控,但很快就走上了正轨,GPT应用和多模态加速发展。
11 月 6 日,OpenAI 举行了首次开发周日,会上进行了多项重大更新,包括 OpenAI 官方宣布推出自己的 GPT,即将推出“GPT 商店”,与创作者分享收入。 OpenAI 内部管理层内部出现了分歧,但很快就得到了解决。 OpenAI 的 ChatGPT 仍然是 AI 终端应用中排名最高的独立应用。
12月初,多式联运技术开始迎来多重突破,pika10 测试结果令人惊叹; 12月6日晚,谷歌发布了最新的双子座大模型。 Gemini 从一开始就是一个多模态模型,可以概括和流畅地理解、操作和组合不同类型的信息,包括文本、音频、图像等。 谷歌发布 Gemini,谷歌的 Gemini 大模型首次在 MMLU(大规模多任务语言理解)评测中超越人类专家,在 32 个多模态基准测试中取得了 30 个 SOTA(当前最优结果),几乎在所有方面都超越了 GPT-4,1 月 12 日,Open AI 正式向 ChatGPT Plus、团队和企业用户推出 GPT 商店,合作伙伴和社区开发的多种 GPTS 可用。 第一季度将推出GPTS Builder收入计划,作为第一步,美国开发者将根据用户与GPT的互动获得报酬。
那么本周,OpenAI发布了第一代模型SORA,可以生成长达一分钟的高清**,可以生成多个角色和特定动作的复杂场景,展现出突破性的语义理解能力、复杂场景理解能力和一致性等,性能效果远优于之前发布的**模型,真正开启了**大模型的时代。
2)在计算芯片领域,对AI芯片的强劲需求引发了持续的人工智能投资狂潮,12月,AMD正式推出AI GPU加速器Instinct MI300X和全球首款数据中心加速处理器APU Instinct MI300A,此后,从1月到2月,海外科技巨头陆续披露财报和新品, 英伟达对AI大模型算力需求旺盛,在去年下半年在多模态进展和预期上升的情况下,股价突破平台。
3)在市场层面,美国经济仍在蓬勃发展和软着陆的预期正在增强,而英国、欧洲部分地区和日本正处于衰退之中,这使得美国股市继续表现强劲。
3、通过以上综述,我们可以总结出:1)正如我们在年度战略中强调的那样,多模态是2024年AI大模型领域最重要的边际变化,但并不是AI发展的终点。我们仍然不确定AGI何时到来,但从近期多式联运超出预期的进展来看,AGI的时机可能比市场预期的要早。 多模态的意义就像 2022 年底 ChatGPT 的发布一样,引领 AI 大模型板块进入第二阶段。
2)对于中国来说,大模型和应用的格局比半年前已经清晰了不少,但现在还远未到来,因此,在投资方面,还是要看产业趋势,买比较优势。我们仍然认为,2024年,中国有望迎来大语言模型领域的突破,从SORA的角度来看,算力还是前提,拥有更多的算力是大型模型公司跑出来的硬门槛。
3. 您如何看待Openal Sora的出现?
2 月 14 日,OpenAI 宣布将为 ChatGPT 增加内存能力,16 日,谷歌推出了 Gemini 15系列,专业版支持100万个代币的上下文窗口,比之前业内大模型高出一个数量级,100万个代币相当于70万字或1小时**,大模型的应用场景将大大拓展。 Gemini 的多模态能力也得到了显着升级,从第一代能够读取图像的能力提升到 15.可以看**,比如双子座可以在某部电影中找到某个时刻,并描述相关细节,但现在距离第一代发布还不到3个月,大模型的多模态能力的发展可能比我们想象的要快。
而在谷歌发布 Gemini 的第二天,OpenAI 的首款 ** 模型 Sora 惊艳亮相。 在我们之前的多模态深度报告中,我们明确指出,2023年的**一代可以与2021年的2D图像生成相提并论,考虑到大型语言模型对AI各个领域的加速效应,今年的**一代可能会有更大的发展,而SORA的出现也验证了我们之前的观点, 随着行业整体技术水平的提升,可能会像文盛图领域一样,一些流行的**代应用会用完,行业会加速发展。我们专注于梳理SORA在实现技术突破后给产业链不同环节带来的变化和机遇
我们认为的第一个层次是新技术解决方案得到验证的机会:
1)对算力的需求增加。SORA采用扩散模型+Transformer架构,扩散模型在生成多样性和质量方面表现不错,但很难实现更好的语义控制和一致性,而这正是Transformer擅长的,扩散和Transformer集成的技术路径是去年才提出的,然后在12月,李飞飞和谷歌团队推出了**生成模型Wa.l.T也使用了类似的技术方案,但仍然停留在学术研究的层面,这次SORA进一步验证了两种模型组合的潜力,未来其他玩家也会在这个方向上加大尝试力度,一些开源模型也可能会出现,有望推动行业整体技术水平上去。 过去,Transformer 模型对算力的要求大于扩散模型,这里对算力提供者来说会有更多的机会。
2)对数据的需求增加。SORA统一了图像和**的数据表示,通过大量的数据集扩大了模型大小,提升了模型的性能,拥有大量高质量图像或**资源的玩家有望受益。
3)3D等多模态领域也可能加速。与之前的**生成模型相比,SORA开始展现出对物理世界的理解和交互能力,角色或物体在**中不会轻易变形,但可以保持良好的一致性,OpenAI还表示,SORA不是简单地被视为一个**模型,而是作为一个“世界模拟器”,而**生成模型的扩展可能是构建物理世界通用模拟器的一种很有前途的方式。 事实证明,AI 3D模型在生成效率和精度方面并没有找到很好的平衡点,而这一波领域的技术突破可能会给3D领域带来一些灵感,AI 3D引擎的技术拐点可能比市场最初预期的要快。
我们认为的第二个层次来自发电技术突破后落地应用的机会:
1)发电技术在广告、电商等垂直领域的商业可行性大幅提升。与之前的模型相比,SORA的语义理解能力、一致性和灵活性都得到了显著增强,这意味着生成技术的商业可行性得到了极大的提升,例如营销领域可以为中小型B提供更多的营销工具,电子商务领域可以为卖家提供相关服务,对应企业的客户支付率和ARPU值有更大的空间起色。
2)构思实施成本大大降低。SORA可以生成长达一分钟的高清**,已经基本满足了目前主流短**创作时间的要求,再加上之前文字创作、文盛图片等技术的成熟,制作不同形式内容的门槛和成本都大大降低,一方面,手头有丰富IP资源的玩家有望降低试错成本, 拓展IP变现的方式,另一方面,可能会有更大的商业化空间的新UGC平台,每个人都可以创造IP。过去,对于小红书、知乎、抖音、快手等UGC平台来说,用户创建内容的门槛每提高一倍,用户创建的内容数量就会增加十倍,相应平台上的用户规模也会大幅增加。 **一代技术成熟后,抖音或将诞生一个新的AI时代,更有趣的是,抖音集团前CEO在2月初宣布辞职,后期的精力将集中在编辑工具剪裁上,可见大厂商其实看到了机会,当然, 这个过程也会有原有玩家被颠覆的风险,比如Adobe的股价最近也出现了波动,我们认为国内市场聚焦于AI模式的企业,持续投资的企业可以有更大的拓展空间,拥有海外应用接入模型能力并充分发挥工具价值的企业,可以实现垂直场景的深度培育。
深度耕耘垂直场景:**需要结合剧本构建、画面、风格、粒子、特效等多种元素,但要实现完整商业内容的制作仍然需要人员和工具,**创作者的数量会随着创作门槛的下降而大幅扩大,工具产品提供更方便快捷的工具配合场景, 以及了解和服务垂直用户的体验,在技术之上更加关注用户的需求和体验,这也将受益。
3)影视、游戏、MR领域的专业创作者可以利用先进的AI技术降本增效,比如动画电影的产能可能进一步扩大,顶尖玩家有望受益。
4)随着内容的增加,对数据传输、编解码、内容审核等环节的需求也会增加,相关玩家相信有望受益。
最后,我们认为多模态一定是AGI,即实现通用人工智能的必由之路,也是AI商业变现的真正起点,无论是谷歌的Gemini升级还是OpenAI的SORA,都有望推动AI多模态应用的进一步加速,24年后行业层面的变化可能比23年更大, 我们也看好TMT全年的投资机会。
算力:基于春节以来AI产业链的传闻,我们认为算力板块仍有上调空间。
1)首先,Open AI这边不断有新消息和新动作,据介绍,公司计划募集5万亿至7万亿美元打通算力芯片第一链,投资金额远超全球半导体市场约5000亿美元的市场规模;
2)英伟达宣布有意开发定制计算芯片(如ASIC),还正式发布了1月份CES上展出的Chat with RTX,用户可以在使用NVIDIA RTX显卡的电脑上本地使用LLAMA和MISTRAL模型,其推理框架比常见的PyTorch和LLAMA-CPP更强。
3)最后,从春节前到现在,海外AI产业链上的众多龙头厂商纷纷发布了最新的财报,并给出了相应的指导,从中可以看出,算力建设仍是未来产业发展的重中之重。一方面,无论领先云厂商传统业务表现如何,其AI计算设施的建设是未来资本支出增长的主要驱动力,另一方面,AMD、Coherent(Finisar母公司)、 Lumentum(Cloud Light 的母公司)、Arista 和 Fabrinet 取得了良好的增长。同时,AMD持续强调27年算力芯片市场规模为4000亿元的预期(类似于我们根据台积电计算的3600亿美元),相干公司也将800G及以上光模块市场规模的CAGR上调至28年65%。
基于以上信息,我们认为:
首先,我们来看Open AI,它不仅是AI的破圈者,也是行业的推动者,是一条“鲶鱼”(可能与CEO的对外宣传风格有关)。 因此,这些新模型对行业的影响并不局限于模型本身,一方面,SORA自身对训练和推理算力的需求非常明显,当读取时间相同时,token数量比文本高出几个数量级,所需的算力也是一样的; 另一方面,公司带来的鲶鱼效应值得关注,无论是Open AI在计算芯片上给出的投入金额,还是与谷歌同时发布新品抢风头,都表明了公司的目标是成为AI时代的新巨头, 并且不排除Open AI也保留了一些未公开的产品。
其次,纵观产业链厂商给出的中长期指引,虽然大家都是瞎子,甚至算力需求一个数量级都是瞎子,没有确切的认识,但从质上看,产业链的指引,隐含着算力空间会继续上升甚至倍增的逻辑。
最后再看看英伟达的新动作,无论是做定制芯片还是推出PC软件产品,都是贯彻全员参与AI的理念,进一步提升行业内的卓越程度,尤其是在PC的边缘,格局与云相比还不明朗,在英特尔的情况下, AMD和高通都已入局,英伟达肯定会从GPU给AI终端市场带来大的边际变化,不仅在产品成熟度方面,而且在供应保障和采购方面**上游对下游PC工厂有利。
基于以上分析判断,光模组仍是可见光范围内AI产业链最强、最确定的共振属性,我们推荐该领域的龙头企业中际旭创和天府通信,同时推荐信益盛和元杰科技,它们有潜在的边际变化。 同时,模型和边缘架构的开发也加速了PC主机厂的销量和利润,全球领先的PC主机厂商联想集团值得推荐。
会议纪要**:温八沽研究]小程序