温昊欣
“AGI是一场马拉松”。,Face Wall Intelligence联合创始人兼CEO,知乎首席技术官李大海道。
作为一名马拉松爱好者,李大海深知,在大型车型的竞争中,暂时的“快”只是暂时的,更重要的是把赛程中的每一步都跑下来,稳扎稳打。
2018年,它诞生于清华NLP实验室,并发布了世界上第一个知识引导的预训练模型ERNIE; 2020年,它将成为五道车型的首发主力阵容; 2022年,将建立OpenBMB开源社区; 2022年,Facewall Intelligence将开始公司化运营; 2023年,我们将以Agent为主要工作方向,陆续发布Agentverse、ChatDev、Xagent等智能企业框架。
从大型模型基础设施层到代理应用层,从科学实验室到工艺商业化,在2023年逐步演变为冲刺能力。 去年,在国内外还在研究智能体定义的时候,面墙智能率先提出了群体智能的框架和智能体在行业内的商业化。
2024年,当大模型应用的新篇章即将开启时,Facewall Intelligence出人意料地发布了端侧大模型和面墙minicpm。
对标国外MISTRAL-7B,核心是以最小的模型规模实现最强的模型效果,李大海总结为“以小打大”、“聚大”,这也是面墙智能的核心能力之一。
从结果来看,小钢炮miniCPM利用2B的规模和1T的选定数据,在性能指标上击败了MISTRAL-7B、Microsoft星型PHI-2、蒸馏GPTBLLAMA等众多主流机型。 而且模型部署成本已经完全降低,在侧边,1元=170万个代币,也就是云端minicpm的1%。
从大模型到智能体,再到侧端模型,纵观墙面智能的整体布局,可以发现它已经在为大模型应用的落地和爆发做准备了。 大模型提供基础容量的支撑,以Agent为脚手架,打通应用的“最后一公里”,最终在端端部署运行。
正如李大海所说,“端端模型可以服务于大模型和代理,因为设备和云端的协同可以更好地让应用落地。 端端模型是大模型技术的积累,在如何将模型小型化,让云上的模型以更小的规模取得更好的效果上,也是一脉相承的。 ”
2024年已经缓缓拉开帷幕,大规模的模型大战正在迅速变化。 光锥智能专访脸墙智能联合创始人兼CEO、知乎CTO李大海一行,深入探究脸墙智能核心竞争力的培育秘诀,同时展望2024年大模型产业格局。
核心要点如下:
1、“以小打大”“以大以大打大”,用2B模式做出比2B模式更大的模式效果。
2.“沙盒实验”是在模拟环境中以较小的成本和成本找出规则。
3、设备端大模型不能只看设备端,未来一定是云协同。
4、代理私有化部署成本有两部分,一部分是模型厂商对模型的使用费用,另一部分是客户部署后的推理成本。
5、面墙智能的差异化竞争策略可以概括为高效和集成,即高效推理和模型+智能体整合。
6、CV是单点技术的突破,而大模型则在各个技术点上进行探索和升级,还远未达到技术成熟阶段。
问:为什么选择在2024年初发布minicpm侧端机型? 为什么?
a:minicpm的背后是一个已经做过数千次的沙盒实验,在这个过程中我们已经掌握了它“以小打大”,“以大聚集”。能力。 正如你所看到的,我们使用 2b 模型来制作比 2b 模型更大的模型效果。 这一核心能力最初打算应用于未来新车型的开发。 然而,我们发现,在这个阶段,“以小打大”和“以大聚集”的能力在应用于端方时可以产生突破性的进展,因此这促使我们快速制作模型。 实际制作minicPM只用了不到一周的时间,这从根本上说是由于过去上千次实验的积累,而这些工作面墙智能将在2023年完成,所以minicpm也算是积累的结果。
问:您刚才提到“沙盒实验”在面墙智能模型的训练中发挥了重要作用,您能详细说说吗?
a:用一个比喻来说,沙盒实验就像航空中的“风洞实验”。
“沙盒实验”就是在模拟环境中,以更小的成本和成本找出规则。 这样,我们希望弄清楚通过什么训练方法可以得到什么样的性能规模模型,这就是“沙盒实验”的总体目的和方法。
在发布 miniCPM 之前,我们做了数千次模型沙箱实验,探索了最优配置,所有尺寸的模型都可以配置最优超参数,确保通过训练任何规模的模型都能获得最佳结果。
通过上千次的实验,我们终于可以从一个特别小的模型,一个比minicpm小得多的模型到一个1000亿甚至大于1000亿的模型的训练控制方法,最终得到更好的模型训练效果。
Q:minicpm只用了1T的数据就完成了模型训练效果,这与你作为知乎CTO的身份挂钩,数据和知乎有多大关系?
a:我们选择了1 t的数据,筛选的一个重要标准是显示数据的多样性。 知乎的高质量数据在模型训练过程中起着非常重要的作用,具体方法是将数据进行非常细粒度的分解,并进行算法的自动选择。
问:作为一家初创公司,Facewall如何看待开源? 这次为什么选择开源的侧端模型?
a:Facewall Intelligence 于 2022 年建立了一个开源社区。 Facewall Intelligence一直是开源的受益者,这也是为什么团队在AI领域可以走得比较快的原因。 因此,从我们团队成立之初,我们就坚持开源、开放的特点,每个人都是为了我,我是为了每个人,我认为能够为整个行业做出贡献非常重要。
另一方面,开源对于建立影响力非常重要有了影响力,就能带来资本的关注,人才的关注,2B客户的关注,其实是构建商业逻辑的基础。
说到侧端大模型的开发,虽然与云端的大模型相比,它是一个很小的模型,但实际上,开发仍然是一个特别复杂和庞大的任务。 涉及两个技术难点,一是除了能够做出更小的模型外,还必须能够释放出更大的性能; 此外,在模型推理、硬件推理性能、各级适配等方面也存在诸多技术难点。 选择开源也希望与手机厂商、APP开发者和领域专家合作,推动技术创新,实现更高效的解决方案,促进整个生态的繁荣。
Q:市面上很多手机厂商都推出了自己的大机型,那么未来Facewall Intelligence和这些手机厂商是什么关系呢? 大型模特公司如何切入手机市场?
答:设备端模型不能只看设备端,未来一定是云协同。 云端的模型需要与设备端的模型进行联动,这意味着由同一厂商进行联动效率更高。 基于这个逻辑,最终,云端和设备端模型最好由专业的模型开发人员来完成。 整体来看,这方面持续投入的门槛其实是挺高的,所以我们并不特别推荐手机厂商继续这样做,我觉得每个企业都有自己的商业考量。
Q:在落地代理的过程中,会遇到很多敏感的隐私数据,Facewall Intelligence如何解决与企业合作的数据痛点? 大概是多少成本规模?
a:在代理实现方面,我们其实也在考虑这个问题,对于数据敏感的客户,我们会做一个私有化部署方案来解决他们的需求。
私有化部署的成本主要分为两个方面。 一种是模型供应商对模型的使用收费,另一种是客户实际部署模型后的推理成本。 基于此,当一个特别大的模型私有部署时,推理成本就成了客户比较大的成本障碍。 在我们看来,不同的模型大小各有各的能力和合适的场景,比如7B的模型大小,可以与GPT-4的效果相媲美。
Q:在整个大型模型市场,与领先的大型模型公司相比,Face Wall Intelligence的差异化竞争策略是什么?
a:因为我们在产学研结合方面有非常深厚的优势,所以我们在模型基建和代理层面有相应的积累,未来还会继续扩大我们在技术上的优势。 同时,一言以蔽之,也通过开源将更多的合作伙伴联合起来面墙智能的差异化竞争策略可以概括为高效和集成,即高效推理和模型+智能体集成。
Q:目前,Facewall Intelligence的主要目标客户有哪些? 主要收入是什么**? 您如何看待商业化?
a:因为我们的C端产品刚刚推出,所以目前的商业收入**主要来自B端客户。 目前,标杆客户包括招商银行、西门子、中国汽车等一些知名客户,集中在金融和营销领域。 我们刚刚与义车达成了深度战略合作,也与义乌小商品市场集团达成了非常重要的战略合作,这些都是营销领域的一些重要成果。 目前,端侧大模型的商业化模式仍在探索中。
Q:Facewall Intelligence在新的一年里有什么战略计划? 如何选择 2b 和 2c 方向? 作为一家公司的首席执行官,您有什么顾虑?
a:在整个2024年,Face Wall Intelligence仍将坚持大模型+代理双引擎策略
一方面,我们需要继续推动模型能力的提升设备侧模型已经在设备侧发布,今年将继续提升基础模型的能力,挑战GPT-4的能力。 另一方面有必要使用智能体来解决大模型着陆的最后一英里问题在这个方向上,我们甚至设定了更积极的收入目标。 因为我们相信大模型真的能给客户带来效率和效益,我们更看好整个大模型市场。
在2B和2C方向的选择上,其实并没有明确的划分,因为在我们看来,它们都是大模型+智能体的上层应用,所以我们不关注具体的应用方向。 现阶段,前端应用落地更加集中,在C端方向,我们会特别关注情感陪伴的方向,即为用户提供情感价值。
比如我们开发的“Heart”应用推出了一个测试版,它有一个特殊的功能叫做敲cp,内置了来自李百度甫和清华大学、北大的cp,用户也可以自己制作cp,背后是大模型做出的推理。
从我自己的担忧来看,因为面墙智能在模型训练中的积累非常深,所以我对我们的模型能力的提升是相当有信心的。 对我们来说,这个方向的确定性相对较高。 未来,就我个人而言,我其实更关心的是模型的实现,也就是应用。
问:业界认为2024年是模型到应用的一年,您如何看待这一趋势? 在您看来,未来的市场竞争会不需要这么多大型模型厂商吗? 到底能跑出什么样的模型厂家呢?
a:纵观这24年,行业将更加注重应用的落地,这是一个大趋势。 目前,该模型已经达到了基本可用的状态,我认为在此基础上开发应用程序是顺理成章的趋势。 我们发布的“心”,就是Facewall Intelligence在应用层主动布局的体现。
但是,我们认为AGI就像一场马拉松,一个需要长期努力和各公司不断积累技术的目标。
从厂商分布来看,从2024年开始,大型模型厂商将开始出现分层。 在我自己的判断中,出现分层的原因不是市场造成的,更多的是因为技术,随着大模型的发展,技术的门槛会越来越高。
在市场层面,我认为大型模型是行业层面的机会。 我们看到模型的基础和应用程序都有非常大的空间。 因为市场足够大,很多企业可能都有生存的机会,而最终能生存下来的企业,一定是技术、产品和市场能力强的玩家。
问:正如您所说,“AGI是一场马拉松”,这样的发展特征将对未来行业格局的变化产生什么影响?
a:这一次给行业格局的洗牌带来了很多不确定性,在我的观察中,我认为这不是2024年、2025年甚至2026年就能决定的事情。
回顾过去CV的发展,我们会发现AI 10的竞争格局在前两年还没有确定,甚至在第三年,它仍然在发生非常大的变化,所以这启发了我们以长远的眼光看待行业的变化。 当然,有了 AI 10 倍与 2 倍0智能时代最大的不同是,CV是单点技术的突破,而大模型则在各个技术点上进行探索和升级,还远远没有达到技术成熟的阶段。 优质作者名单