这是王小川创业大模的第8个月。
王小川认为,过去很多行业常识和惯性做法,已经不适用于当下大模型时代目前,很多大机型的应用并不能真正满足用户的需求,如果再做下去,就会卷入大厂的竞争赛道。
曾经被红杉和A16Z高度重视PMF(产品市场契合度)。创业标准,因为技术范式的迭代和现状,已经不再适用于大模型应用的创业。 王小川认为,目前更需要寻找的是TPF(技术产品契合度)。与其一群产品经理先去调研市场,不如先思考什么产品适合当下不完善(大模型)的技术。 」
过去,人们习开发工具,但我们用AI构建的不是工具,而是一个新物种。
在2024极客园创新大会上,王小川分享了自己经过八个月的实践,对大模型落地的新认识,以及自己在科技新浪潮下创业的思考和沉淀。
以下是百川智能创始人兼CEO王小川与极客园创始人兼总裁张鹏的对话,经过编辑整理。
国王与画家
寻找 AI Native 的寓言
张鹏:Robin 还表示,我仍然不确定 AI 时代的超级应用是什么,那么我们应该从哪里开始呢?
过去,当我们制造产品时,我们会首先制定PMF(产品与市场的契合度),但现在呢?
王小川:有两个层次,一个是拉开,另一个是拉近。
拉离就是重构,对原有的应用进行改动,比如微信再重构,但这种视角会限制我们的思维。
所以,我想继续拉开,如果不是市场是这个超级应用的长期目标,而是满足人们的根本需求?
人们需要这三样东西:健康、快乐、创意。前两个无需多说。 说到创造力,人们希望他们的存在能够改变世界。 那么,人工智能应用如何帮助人们改变世界呢? 就像DIKW模型(数据到信息到知识到智慧模型)的概念一样,它为人们提供信息、知识,甚至智慧。 这是一个宏大的愿景。
目前,许多AI应用,如营销文案、客服对话......在我看来,这些并没有回到人类的基本需求; 而且,如果大家还这样做,他们也将卷入与大厂商的竞争赛道。
回到 Closer,您刚才提到了 PMF——产品与市场的契合度,现在我想提出一个新词TPF(技术-产品契合度)。过去,人们只关注产品与市场的匹配,而失去了技术。 以前做**和微信的时候,虽然技术是瓶颈,但只要工程师的水平上去,成本上去,基本上就能突破这个瓶颈。 而现在的人工智能技术,它本身就有一些不完善和不确定性。 例如,幻觉和及时性等问题只能用自然语言,技术本身就有局限性和不完善性。
既然AI技术有那么多的不完善,就没有必要派一堆产品经理去思考市场,洞察完成后再开始着手,而是去思考这样一个目前不完善的技术适合什么产品。
在这里我想谈谈性格AI,他们公司的创始人(Noam Shazeer),变形金刚**的作者之一,并非来自产品背景。 他非常清楚大模特的底层技术,知道肯定会出错,所以他先用大模特做娱乐产品,然后,他认为这个技术可以先承载自然对话的形式,所以他把产品做成人物和个人设计。
张鹏:在娱乐场景中,缺点变成了特征。
王小川:以前,我们是在构建工具,而工具具有很大的确定性; 现在,我们用人工智能构建的不是一个工具,而是一个合作伙伴——一个新物种,一个更像人类的应用程序。 它有优点也有缺点,就像人一样。 如果人们有幻觉,我们可以使用它们,那么如果他们有幻觉,我们为什么不使用机器呢? 最后,它又回到了特定技术应该满足的需求。
这是对产品经理的要求,公司与产品经理的第一位应该与这项技术产生共鸣,它擅长什么,不擅长什么。
再讲一个故事,有个国王一只眼睛瞎了,一条腿瘸了,但是他很自恋,于是他从全国各地请来了画家给他画自画像,结果就是画一个,杀了另一个。 因为有些人画得太像了,他们因为诽谤形象而被杀害; 有人故意美化,因欺骗国王而被杀害......直到有画家画了一幅国王打猎的肖像,因为国王站在一块大石头上,他瘸腿的缺陷就会被遮住,国王拉弓的那一刻眼睛就闭上了,这样他既不能诽谤,也不能美化,他会立刻照顾它。
所以,我认为今天的产品经理应该清楚AI技术的优势和AI技术的不足,做TPF这样的匹配和考虑。
PMF 评估用户数TPF 取决于测试集
张鹏:PMF我们会设定一定的目标,我可以看到我已经在一些指标上完成了PMF,而TPF是今天的起点,如果我们以后想做超级APP,在什么情况下可以算是TPF做得好了?
王小川:过去,产品经理写一份文件,描述功能、定义和要求,并绘制结构设计图,向老板展示:产品这样可以满足什么样的需求,以及每一步的功能是如何准确实现的。
但是,此方法不适用于大型模型场景。 因为每次给一个大模型输入的时候,它的输出都是不确定的,面对这种非唯一对应关系,你很难用一套演绎规则做好。
那现在怎么办? 你必须把它分解成一组评估,这是一组关于模型可以提供哪些输入和什么输出的测试。 产品经理不仅定义产品,还将定义的产品转换为评论集。
此时,产品经理将评估集交给相应的算法人员,由算法人员通过提示、监督微调(SFT)、后训练等不同方法对算法进行优化。 也就是说,产品经理定义评估集,(技术)算法找到数据集(或训练集)来训练系统满足评估集。
张鹏:这就像为大型模型设置 OKR 一样?
王小川:从事算法研究的工程师已经适应了这种工作方式,并为他们提供了一种既评估集合又留下空白的方法,这已成为我们内部的标准工作方法。 算法驱动的产品使用审查集驱动的方法。
在互联网快速发展的前一阶段,技术不再是障碍因素,甚至产品开发也不再是算法驱动,而是工程驱动,只是执行速度的差异。
在大模型时代),PMF没有错,但是我们缺少了一层TPF,这会让我们最终发现,不是产品出来后市场不满意,而是我们一直在迭代,无法做出阶段性的产品出来。
张鹏:你刚才提到的,设定目标——改造评估集——让数据集能够得到有效的训练,满足评估集的要求,这是你开发的引擎吗?
王小川:没错,这就是所谓的 AI Native。 如果是 agi 原生的,则需要更深入地集成 agi 的模型能力。
张鹏:再次,判断TPF做得好,是不是意味着产品的用户数量增加了? 还是用户认为您的产品体验不错? 如何判断?
王小川:TPF在产品发布之前对产品经理有两个要求。
首先,能够将需求转换为测试集该测试集使技术工程师能够看到结果在满足过程(目标)的同时得到改善。
其次,演示完成后,还可以找到用户提出的需求,可能是简单一句话中提到的需求,而这个需求的分布与产品经理评价集的分布是一致的。
这里用到一个统计概率的概念,其中用户需求的分布与产品经理测试集的分布一致,评估集的结果满足用户的需求。 所以TPF以测试集的形式得到满足,一方面满足内部指标,然后在发布时,PMF反馈会反映用户的需求反馈是否与测试集的分布一致,用户是否满意。
张鹏:那么用户应该好好使用,还是好好使用呢? 前者是一下子爆炸和上升,后者可以一步一步来完成。 我们今天应该追求力量的爆发吗? 还是先解决少数人的问题,然后解决多数人的问题?
王小川:事实上,两者并不矛盾。
但什么是做得好的呢? 你很容易把自己和自己比较,比自己好,不小心掉进了大厂人的老习。 如果是成熟的大厂,那么是20%到30%,已经有巨大的效益了; 但如果是创业公司,AI 原生应用程序从一开始就应该易于用户使用。在满足特定班级的需要时,您的产品必须提供竞争对手的 10 倍酷炫,不是更好,而是惊喜。
因为今天大模型不是万能的,你只能选择亮点,做出10倍的好,而外围(功能)是5倍、3倍甚至更差,这样你的波峰足够高,以后再逐渐变宽。 如果一个产品一开始不让你凉爽,不到一定高度,只是比原来的好,这还不够。
新时代的企业家首先,有大模型的超级玩家
张鹏:在产品范式的演进下,面对新的变化(新范式),创业者应该如何进入市场?
比如刚才,我非常兴奋,因为做产品的范式不同了,我们想成为新范式下的产品经理。 他们应该如何开始? 不是每个人都像你一样,做过搜索,做过很棒的产品。 我们不能每个人都贴上这个标签才能进入。 其他人应该如何进入?
王小川:我认为这取决于公司的属性。 一家公司是端到端的,它(公司)自己既要做应用程序,又要做模型; 另一类公司不碰模型或者用小模型来解决问题,而是多做应用。 所以,我觉得在路径上会有一些差异,但通常都有一个必要的前提——成为大模型用户,就是把自己当成大模型时代的粉丝,去热情地去体验,去感受大模型给(你)带来了什么样的不同,去好奇, 去欣赏,去感受(它)是否做得好。
张鹏:在某种程度上,你必须首先成为大型模型的超级用户。
王小川:[你]想用市面上的所有产品,极客公园的读者自然是有动力的,充满了这样的好奇心。 一旦你使用它,你的灵感就会来到你身边,你会知道它擅长什么,你会把它变成你未来产品的想法。
我想在未来两年内制作一个超级应用程序我还要加入一家大型模特公司
张鹏:在如今的技术浪潮中,你可能要先跟着它走,也要走近它,才能考虑如何运用它。
如今,公司在不断发展,当你选择一个人时,你会注意什么气质,或者说是什么样的历史经历?
王小川:百川明年将发布一款超级APP,目前还在进行中。 我认为我们取得的成就还不足以实现我们今天的目标,所以我们只能谈谈我们在这个过程中看到的缺点带来的一些经验和一些想象。
我们真的很想选择有经验的人,如果你真的没有(产品)经验,也就是新手,这种情况会比较苛刻。 例如,您需要能够抛出产品的全貌。
你需要为未来的大模型会是什么样子做好充分的准备,包括里面的东西,也就是说,你要有好奇心、想象力来推动你去做一些东西,你必须有这样的能力。 同时,我们希望您以前有过传统经验,我们必须将其分解以滋养大局。
我们遇到的许多产品经理都有一套非常完整的思维范式和框架。 但是,在制作大模型时,他希望将大模型的技术带入原始的框架范式,而不是解构原始的东西,这将带来巨大的挑战。
因此,我们希望(你)拥有之前的成功经验,也能够打破自己的经验,滋养大模特,想象大模特的新面貌,这是既想要又想要的阶段。
如今,中美两国面临的环境不同,百川等国内大型模型公司都处于与时间赛跑的状态,在这种情况下,公司很可能不会给你三五年的探索时间。 在主要方向的情况下,我们的要求是既要有以前的经验,又要能够推翻和整合。
张鹏:那么如果我在某个领域有经验,但我没有技术能力,我可以自己做应用探索吗? 比如我在健康领域有多年的经验,我有你提到的特点,我选择加盟你? 或者你也可以用别人的模型来探索这个吗?
王小川:每个人都会走两条路。
会有人自己去探索,但是在探索的过程中,很可能会遇到一种无力感,那就是模型的支持,提示的优化,发现自己边走边走,所以今天,我觉得在中国的环境里, 如果机会多了,最好加入大型模特公司。因为今天,该应用程序尚未独立推出。 虽然有文章说可以通过调整模型来制作自己的应用程序,但实际上,这个时代还没有到来。
在我看来,未来两年,更多的是加入一家(大模)公司,可以得到平台级的支持,帮你分解整合原有的体验,让超级应用成功的概率大很多。
今天的大模型是Think Fast人工智能需要慢慢思考
张鹏:刚才你说了OpenAI Drama背后的关键因素,背后可能有一些技术,甚至还谈到了Q*(Q-Star))可能思维迟钝,不知道大家有没有关注过这件事情?
王小川:今年,我正在为大模特(创业)做准备,4月份正式成立公司,当时我提到了几个关键词,一个搜索增强,第二个密集化学习。
当时我之所以提出这一点,是因为我看到大模型本身代表了一种快速的思维方式,变形金刚就像一个人,拍了拍脑袋,我给了你答案,然后张开嘴说话。 它在学习习方法和应用推理方法方面有其自身的缺点,(所以)以大模型为原点肯定是不够的。
所以当时我们认为,强化化学习对此有很大的帮助。
就慢思维而言,我在百川的工作中一直非常关注这个领域。 今天的大多数(技术路线)都代表着快速思考,它需要缓慢思考。
如果说自己的看法有两点,一是快速思考其实不叫思考,慢思考不叫思考。 于是我提出了一个新词,以openai为代表的大模型,它的知识是学习的,并不强调推理时如何思考。 孔子有句名言:“不思而学,不计后果,不学则死”。
那么在想什么系统呢? 相反,当 OpenAI 刚开始创业时,以及 Deepmind (之前)所做的事情——比如 AlphaGo 和玩游戏,这是在考虑中。 但那是强化学习,甚至是多方药剂的对抗。 Alphago不是一个学习习系统,它抛弃了之前6000万的棋局,而是两个Alphago自己内心对抗的博弈,在游戏中找到新的理解,最后通牒,让有思考。
但是在alphago想完之后,它只是停在了原地,只是做一个特定的任务,无法扩展到其他领域。 因此,我们说大模型(LLM)代表学习,alphago代表思维,如果这两个系统结合起来,那将是非常强大的。
张鹏:嗯,所以接下来重要的是真正让学习和思考结合在一起。
王小川:让我们想象一个场景,但这并不意味着 Q* 是如何做到的。
你问大模围棋是怎么玩的,但它其实不知道怎么玩,也做不好。 但是,大型模型可以确定围棋的输赢吗? 可以判断,大模型可以写**来判断围棋的输赢。 即使你让它写一段话,也可以在每一步之后写出来判断游戏的状态。
所以我们可以想象,如果大模型足够强大,虽然不会直接下围棋,但可以写出下围棋的交易函数,最终决定围棋的输赢,也就是说,大模型有机会写出alphago的**,跑(**然后下棋,这个事情是可能的。
因此,当我们思考Q*时,我们有机会在内部推测,大模型有机会产生一些思考框架,然后以传统的方式思考。
理想情况下,慢一步在地面上快速三步
张鹏:那边的技术还在探索我们面前的边界,让人感到压力很大,而且你还做大模型,压力转嫁到你身上,你觉得这个距离怎么测量呢? 我们能不能缩短它,甚至说我们未来可以自己创造不同的价值?
王小川:我之前提到过,有句话说理想是慢一步,落地是快三步,其实一开始并没有说,一开始是“理想慢半步,脚踏实地快一步”,然后去美国(习学)回来把理想折成两半, 它变成了一个缓慢的步骤,并在地面上乘以一个 3,称为“快三步”。
张鹏:如何理解在地面上慢一步、快三步的理想?
王小川:和他们接触后,我觉得双方的底心是不一样的。
OpenAI 是一个想要探索 AGI 边界的非营利组织,他们确实做到了。 所以,他们在思考问题的时候,出发点根本不在同一个世界,离他们还有一段距离,要为自己的理想而奋斗。 在这种情况下,人们和公司必须找到自己的利基市场。 但是在这片土壤中,我们确实要有一种自信,那就是我们有机会在应用落地上走得更快。
就像华为制造GPU处理器一样,它可能没有这么好的高精度设备,但这并不意味着我们不能制造东西,甚至(也许)能够在本地运行得更快。
也许随着我们用户规模的扩大,数据积累的规模越来越大,技术积累的应用已经足够高了,甚至可以(拓展)到美国市场。 在这种情况下,并不意味着你必须等到 GPT-4、GPT-5 或 GPT-6 才有机会被使用,不同的东西可以在不同的土壤中生长。
我认为做应用是中国传统的强项之一,也是创新。 相反,我认为这是公平的,与美国相比,我们在理想情况下的前进方向会比他们弱,但我们在应用上会更快,中国公司将面临更好的机会。
尤其是在OpenAI占主导地位的今天美国,做应用的公司要面对OpenAI,它做什么样的技术,能做什么样的应用。 然而,在中国,是模式企业自己在做应用,这种端到端的连贯性有机会在某些领域落地应用(比美国更快)。
张鹏:你说的挺鼓舞人心的,有时候我们一定很愿意怀着非常的理想和使命感去追求一件伟大的事情。 但是,如果AGI是一个很大的过程,我们可以加入球队,他们可能是前锋,我们可能是自由人或中场球员,在团队中是有道理的。 例如,我们把[技术]拿下来,把它变成有意义的东西。 这就是成为团队一员的感觉。
王小川:这两个级别都可以用这种方式推导出来。
作为世界公民,作为中国企业,你在世界上有自己的分工,这不是朋友或敌人的关系,而只是竞争。 我们尊重他们的发明,我们应该迎头赶上,但我们也可以有自己独特的贡献,我认为我不需要我自己,[但]世界不需要我。
张鹏:好在,看来这股创业浪潮找到了与自己的和解点:那就是,我们成为了一个世界里有意义的(AI创业)游戏中的团队成员,并不是每个人都要成为前锋。
白川创业八个月开始沉淀大模型侧**
张鹏:最后一个问题,关于创业的心态,我们都知道大家在4月份的时候都很兴奋,现在已经8个月了,一开始的兴奋估计已经磨光了,创业还是很难的。 今天,经过一段时间的沉淀,你对这次冒险的心态是什么? 目标呢?
王小川:从4月到12月,团队确实跑得很快,成长得也很快。 现在,我认为是时候开始沉淀大模型了。 虽然我们觉得以前在技术能力和产品概念上的经验已经足够了,但是当我们实际工作时,我们觉得还不够轻。
有时我发现有些团队的资源相对较少,但因为他们找到了适合大模型的方法,他们可以更轻量级地使用现有模型,帮助他们构思想法,制作原型,然后与技术对接。
现阶段,我认为我们在大模型方法的联合探索中,正在探索大模型与应用之间最有效的联动,我们的理解也在不断提高。 我认为一个好的状态是,每次看着一个月前的自己,我都觉得自己像个傻瓜。 以前我工作的时候,是以每周的速度迭代,但现在我没有处于这样的敏捷状态,我以每月的状态看待自己的不足。
在这里,我们的管理层和产品经理一起调整他们原有的工作方法,以获得大模型时代的公式。
张鹏:所以这就是你认为让你享受它的状态。
王小川:是的,我每天都在进步,我有多维度的成长,不仅说我知道这些事情,而且想得超前半步。 但有时,你会发现,当你四处走动时,你会想出更好的主意。
张鹏:公司的目标如何,未来 5 年您会发现什么更满意?
王小川:在帮助人们创造、健康和快乐方面,我们在这三个方面都有超级应用程序可供探索。 但不需要5年,5年真的不敢想,因为技术发展的高度可能不是我们今天能理解的。
我们的技术人员都感叹,每天新的**和新的发展,让大家有强烈的反抗意识。 在这种情况下,我认为在两年内,可以证明大模型确实可以作为超级应用使用,就像互联网时代给人类带来的巨大帮助和希望一样,在两年内帮助大家体验和使用。 这是一个可以坚持的信念。
5年后,我想所有的玩法都可能是全新的,比如机器人在地上奔跑,大家都戴着VR眼镜,大家的**atar克隆都出来了。 5年太长了,想想2年后会是什么样子,我就很满意了。
本文原自:极客公园。