温 昊欣
编辑:刘玉琪
行业99%的大模型可能被替换“,百川智能联合创始人兼联席总裁洪涛震惊了四座。
在百模大战中,行业模式一直是焦点,原因归结为两点,一是与研发厂商技术和业务的快速结合,二是需求明确,实际落地速度和商业化远远超过一般大模型。
然而,这种大型行业模型通常要经过微调和微调,缺点很明显,如训练时间长、部署成本高、企业数据隐私问题等。
基于此,国内外正在寻找最优解,形成了两条探索路径:
一种以Pinecone、Zilliz为代表的数据库公司,一条有火的向量数据库路线;一个是由OpenAI领导的RAG(检索增强生成)路线。
如果我们用一个比喻来解释,微调、向量数据库和RAG之间的区别是不同的微调一个大模型就像一个孩子从小学到大学,甚至研究生院矢量数据库和 RAG 更像是开卷考试,您无需学习理解即可给出答案。
总之,在不改变模型的基础上,向量数据库和RAG采用一些“插件”手段,提高大模型应用的准确性,从而弥补大模型本身的错觉、时效性差、缺乏专业领域知识等缺点。
虽然是双路径选择,但向量数据库和RAG并不是完全对立的,需要检索向量数据库,在RAG过程中也有向量化阶段,只是侧重点不同。
在中国,腾讯更加关注向量数据库的方向,并将其提升到战略地位“大模型是计算引擎,改变的是计算方法,存储需要向量数据库”。
12月,百川智能开放了基于搜索增强的百川2-Turbo系列API,结合RAG和向量数据库两条路线,打出了一套“大模型+超长上下文窗口+搜索增强知识库”。
百川智能创始人兼CEO王小川也给出了自己的结论:“大模型+搜索增强是大模型时代的新型计算机,大模型类似于计算机的CPU,互联网的实时信息和企业完整的知识库共同构成了大模型时代的硬盘。”
图:实验表明,RAG+大型模型比Microsoft**的微调大型模型更有效。
在所有方面,搜索增强都比微调行业模型更具成本效益,“王说。
光锥智能在交流会上与王小川进行了对话,深入了解了作为早期选择RAG和矢量数据库路线的企业,如何思考和突破技术又如何落地行业应用?
核心要点如下:
1. 搜索增强是大型模型实用的第一步,甚至是最关键的一步。
2、大模型+搜索构成完整的技术栈,实现了大模型、领域知识、全网知识之间的新链接。
3.大模型+搜索增强是新计算机时代的大模型,大模型类似于CPU,互联网实时信息和企业完整的知识库是硬盘。
4、避免项目化,以产品化代替项目化,以定制化能力实现企业低成本定制。
5、我国大规模模型技术的演进速度远超想象,追赶方向主要集中在文本领域。
Q:在RAG提出之前,业界有哪些手段来解决大模型的缺陷?
王小川:业界已经探索了各种解决方案,包括缩放参数、扩展上下文窗口的长度、将大型模型连接到外部数据库,以及使用特定数据训练或微调大型垂直行业模型。 这些路线中的每一条都有其优点,但它们也有其自身的局限性。
例如,模型参数的不断扩展虽然可以不断提高模型的智能化,但需要海量数据和算力的支持,巨大的成本对中小企业来说非常不友好,完全依靠预训练很难解决模型的错觉和时效性。 因此,行业亟需找到一条集诸多优势于一体的路径,有效将大模型的智能化转化为产业价值。
Q:百川智能提出的“搜索增强”概念与大火的RAG技术思路非常契合,如何理解“大模型+搜索”?
王小川:大模型+搜索增强是大模型时代的新型计算机,大模型类似于计算机的CPU通过预训练将模型内部的知识内化,然后根据用户的提示生成结果;上下文窗口可以被认为是计算机的内存,存储当前正在处理的文本;互联网的实时信息和企业完整的知识库共同构成了大模型时代的硬盘。
基于这一技术理念,百川智能以百川两大车型为核心搜索增强技术与大模型深度融合,结合前期推出的超长上下文窗口,构建了大模型+搜索增强的完整技术栈,实现了大模型与领域知识、全网知识的新链接。
Q:如何通过搜索增强来解决大模型存在的问题?
王小川:搜索增强可以有效解决阻碍大模型应用的核心问题,如幻觉、时效性差、缺乏专业领域知识等。 一方面,搜索增强技术可以有效提升模型的性能,使大模型“附着在硬盘上”,实现实时互联网信息+企业完整知识库的“无所不知”。
另一方面,搜索增强技术还可以让大模型准确理解用户的意图,在互联网和专业企业知识库的海量文档中找到与用户意图最相关的知识,然后将足够的知识加载到上下文窗口中,借助长窗口模型进一步对搜索结果进行总结和细化, 从而充分发挥上下文窗口能力,帮助模型产生最优结果,从而实现各技术模块之间的联动,形成闭环的强大能力网络。
问:在技术路径上,“大模型+搜索”是如何实现的?
王小川:在长上下文窗口和向量数据库的基础上,将向量数据库升级为搜索增强知识库,大大提高了大模型获取外部知识的能力,并将搜索增强的知识库与超长上下文窗口相结合,使模型能够连接所有企业知识库和全网信息, 可以替代大多数企业的个性化微调,从而解决99%的企业知识库的定制需求。
然而,在实施过程中存在许多技术难点。 在搜索增强方面,用户需求的表达不仅口语化、多样化,而且与上下层次有关,因此用户需求(提示)与搜索的对齐成为大模型获取外部知识过程中的核心问题。 为了更准确地理解用户意图,百川智能采用自主研发的大语言模型对用户意图的理解进行微调,可以将用户连续的多轮、口语化的提示信息转化为更符合传统搜索引擎理解的关键词或语义结构。
百川智能还参考了Meta的COVE(Chain-of-Verification Reduce Hallucination in Large Language Models)技术,将真实场景中复杂的用户问题拆分为多个独立的子结构问题,并行检索,使大模型能够针对每个子问题进行有针对性的知识库搜索,提供更准确、更详细的答案。 同时,通过自主研发的TSF(Think Step-Further)技术,百川智能的知识库可以推断出用户输入背后的深层问题,更准确地理解用户的意图,进而引导模型回答更有价值的答案,为用户提供全面、满意的输出结果。
Q:大模型+搜索的测试和运行效果水平如何?
王小川:通过长窗口+搜索增强的方式,在192k长上下文窗口的基础上,百川智能将大模型可获取的原始文本规模提升了两个数量级,达到5000万个token。 并且通过了“大海捞针”测试,被业界公认为最权威的大模型长文本准确率测试,192k令牌以内的请求可以达到100%的应答准确率。
对于192k以上token的文档数据,百川智能结合搜索系统,将测试集的上下文长度扩展到5000Wtoken。 测试结果表明,稀疏检索+向量检索的方法可以达到95%的答案准确率,即使在5000万个token的数据集中也能达到接近全域满分,而简单的向量检索只能达到80%的答案准确率。
问:在推动2B落地的过程中,百川智能在行业模式中发现了哪些问题?为什么行业模式不能推广?
王小川:虽然行业模式是顺应行业需求而诞生的,但目前的情况是,概念很火,但没有好的实践,面临诸多困难。
业界已经提出了L0和L1的概念,L0是标准模型,L1是指垂直域数据在其上的转换。 常见的转换方法有两种,一种是SFT(注:监督微调,通常用于预训练的大型语言模型),另一种是后训练(注:模型训练后的参数调优、压缩和部署阶段。 虽然SFT的难度降低了1-2个数量级,但技术实施难度依然大,仍然需要样板公司的人才。 对于企业来说,这是一个巨大的挑战和资源消耗,一旦启动,就需要GPU算力的支持,训练而不是推理的成本非常高。 尽管投入巨大,但训练模式就像“炼金术”一样,无法保证效果,可能会下降。 同样,一旦数据或算法更新,公司就必须再次重新训练。 当数据发生变化时,需要引入实时数据,需要升级模型库,之前的训练将完全归零,必须重新开始。
我们并不完全否定做行业模型的想法,但我们仍然认为搜索增强在大多数情况下可以取代行业模型。
问:为什么搜索增强可以取代行业模式?搜索增强是采用的关键
王小川:每个人都在呼吁大模型要实用、落地,但今天,尤其是从国内来看,搜索增强是大模型实用化的第一步,甚至是最关键的一步,没有搜索增强的大模型无法在企业中实现。
使用知识库和搜索增强后,直接挂系统,即插即用,就可以在上面使用“硬盘”,搜索的稳定性会好很多,避免了原来的后训练或SFT时可靠性和稳定性不够,现在不管是用来进行向量检索, 或者稀疏检索可以大大提高。毕竟,前面说了,原来的知识库是被拖进来的,训练完成后,只要数据更新了,就要重新训练。 现在使用“硬盘”钩子方式即插即用,避免原有型号升级,型号与你的系统分离,型号升级型号,硬盘升级硬盘。 与现有的培训行业模式相比,搜索增强+大模型的方法将带来很大的优势。
问:搜索增强功能可以利用哪些行业?它将带来哪些新的变化?
王小川:大模型+搜索增强方案在解决了错觉和时效性问题后,有效提升了大模型的易用性,拓展了大模型可以覆盖的领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规与风险控制、营销咨询等场景。
一是大量的文本数据,有的是文本数据,需要对文本的诀窍进行处理,二是与客户打交道,他需要与客户沟通,比如客服场景,或者回答客户的问题,这两个场景比较集中,充分发挥了大模型的两大优势, 并具有无限供应的能力。
问:百川智能的商业化阶段是什么?如何思考定制化和产品化的关系?
王小川:在商业线索的沟通中,百川智能发现很多客户在前期就想了解大模型,很多人来问大模型是什么,能做什么。 在过去的两个月里,客户的问题越来越具体,已经有一些场景我觉得大模型可以使用。 但解决起来比较痛苦,最基本的就是微调,狠狠的SFT和后期训练会提,但这些其实都很重。 现在这样做的目的是告诉客户,我可以快速实现你的实际应用,所以现在不管是私有化场景还是API场景,很多客户都在沟通,我们这次发布的产品就是为了解决他们的问题。
所谓定制,定制,更准确地说,就是个性化,客户天生就有个性化需求。 百川希望避免的是项目化,用产品化代替项目化,这意味着产品具有定制化的能力,可以实现企业的低成本定制。
核心还是成本,客户成本高,项目利润低。 相对赚钱的2B公司大多销售产品,定制大多是项目。 搜索增强的完整技术栈,其目的是定制API插件的企业知识库,是一种产品,可配置和可调整。 当我们为私人客户进行定制时,我们也希望以组合的方式做到这一点,而不是重新做一遍。
Q:作为大模型浪潮的见证者,百川智能回顾这一年,经历了哪些阶段?
王小川:中国现在分为三个阶段。
第一阶段是恐慌阶段OpenAI发布ChatGPT后,中国企业还没有做到,数据飞轮美国先跑,当时大家都在讨论AGI要不要来了;
第二阶段是投资期比如,当我开始做百川智能的时候,大家都开始动起来,人也不断加入进来,所有的焦点都集中在大模型上;
第三阶段是高速迭代期无论是资本、学术界还是工业界,我们每天都能看到新的进步,我们的技术人员每天都在紧跟最新事物,让自己不断迭代和完善,行业的发展速度其实已经超出了外界和资本圈的认知,而且还在快速迭代。
问:从技术角度来看,我国大规模模型更新迭代有哪些特点?
王小川:首先,中国大型模型技术的发展速度比预期的要快得多。 一开始大家都觉得美国的优势特别明显,我们追不上。 但后来,包括百川智能在内的各种大模型问世后,他们发现在某些场景中比GPT-3更好5 甚至 4 好一点,这是已经发生的事实。 比如百川智能,6月第一款、7月第二款、8月500亿参数一直在前行,在美国开源领域依然是另类产品。
第二个特点是国内追赶的方向仍然集中在文本领域。 文本代表了智能化的水平,我们相信,在追求智能的过程中,将文本放在首位的公司正在朝着长期的方向发展。 GPT 到 GPT-4 才刚刚开始拥有 GPT-4V 多模态,所以那些考虑音频、图像和**的公司目前并没有在一个方向上竞争。
我估计中国企业未来将有机会在弯道上超车,因为我认为追赶文本方向、提升大模型智能化是行业最应该关注的事情,包括长窗口、大参数多模态(今天所谓的群体智能)都在朝着这个方向努力。 虽然多模态的途径不只有一种,但多模态是最接近应用的东西,而当中国投向应用方向时,可以通过更小的多模态模式来推动。
王小川: