百川智能发布百川3款超千亿元，称中国评价超越GPT 4

乐天上 1月29日

百川智能今日发布超千亿参数大语言模型百川3，称在CMMLU、Gaokao、Agi-Eval等多篇权威通用能力测评中，百川3展现了能力，尤其是在中文任务上超越了GPT-4。

基础能力提升，多项权威评测中文任务成绩超越GPT-4

据百川情报称，百川3在几篇英文评测中表现良好，达到了接近GPT-4的水平。在CMMLU、Gaokao、Humaneval和MBPP等多个中国评测榜单上，它超过了GPT-4。

此外，在MT-bench、IFEVAL等对齐榜单的评测中，百川3超越了GPT-35.克劳德等大型模特。

不同于百亿、百亿参数模型的训练，对数据质量、训练稳定性、千亿以上参数模型的训练效率的要求在训练过程中要高出几个数量级。为了更好地解决相关问题，百川智能表示，在训练过程中，提出了“动态数据选择”、“重要性维护”、“异步检查点存储”等多种创新技术手段和解决方案，提升了百创3号的能力。

在高质量数据方面，传统的数据筛选依赖于人工定义，通过过滤、质量评分、教科书过滤等方式对数据进行过滤。百川智能认为，数据优化和采样是一个动态的过程，应该用模型本身的训练过程来优化，而不是仅仅依靠人工进行先验数据采样和筛选。为了全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，可以在模型训练过程中动态选择训练数据，提高数据质量。

在训练稳定性方面，由于模型中参数数量庞大，参数超过1000亿个，在训练过程中经常会出现梯度**、损失、收敛不收敛等问题。

对此，百川智能提出了一种“重要性维护”（显著一致性）的渐进式初始化方法，以保证模型训练初始阶段的稳定性。此外，对模型训练过程的监控方案进行优化，在梯度、损失等指标中引入参数“有效排名”的方法，提前发现训练过程中的问题，大大加快了训练问题的定位，保证了最终模型的收敛效果。此外，为了保证超千亿个GPU参数的模型高效稳定训练，百川智能同步优化了模型的训练稳定性和训练框架，采用了“异步检查点存储”机制，可以在不损失性能的情况下提高存储频率，减少机器故障对训练任务的影响，并使百川3号的稳定训练时间达到一个月以上，故障恢复时间不超过10分钟。

在训练效率方面，百川智能对超千亿参数的模型并行训练进行了一系列优化，如高度优化的绳索、摆动计算算子; 参数通信与计算的重叠在数据并行中实现，激活值通信与计算的重叠以序列并行实现，从而有效降低通信时间的比例。在流并行中引入将激活值卸载到GPU的技术，解决了流并行中内存使用不均匀的问题，减少了流并行中的段数，并显着降低了空化率。

通过这些技术创新，百川3训练框架的性能比行业主流框架提升了30%以上。

医疗数据集中代币数量突破1000亿，医疗容量接近GPT-4

从疾病诊断、疾病到患者护理和药物研发，大模型不仅可以帮助医生提高诊疗效率和质量，帮助患者获得更好的服务和体验，还可以帮助社会降低医疗成本和风险，帮助医疗资源实现普惠和平等权利。此外，医疗问题专业性强，知识更新速度快，精度要求高，个体差异大，能充分体现大模型的各项能力，被百川智能称为“大模型皇冠上的明珠”。

因此，OpenAI、谷歌等龙头大型模型公司将医疗护理作为模型的重点训练方向和绩效考核的重要体系。 ChatGPT早在2023年2月就通过了美国医学执照考试（USMLE），展现了其在医疗领域的实力。谷歌更加重视医疗领域，在PALM模型的基础上构建了大型医疗模型MED-PALM，迭代的MED-PALM 2在体检MEDQA中得分超过80分，达到专家级。

在医疗领域，大型模型的全方位性起着至关重要的作用。首先，其多模态学习能力可以整合文本、图像、声音等多种类型的医疗数据，提供更全面、更准确的分析诊断。其次，大型模型的深度推理能力可以帮助做出复杂的医疗决策。此外，稳定的性能和最新的知识能力确保了医疗建议的可靠性和及时性。

同时，大型模型的语言理解和生成能力使它们能够处理技术术语和复杂的句型。最后，将模式识别和学习能力应用于大型模型，使他们能够从复杂的医疗数据中学习和识别重要的模式和特征。因此，大型模型要想在医学领域取得好成绩并不容易，这不仅需要丰富的医学知识、适当的提示，还需要模型本身优秀的逻辑推理能力。

为了给百川3注入丰富的医学知识，百川智能在模型预训练阶段就构建了超千亿个代币的医学数据集，包括医学研究文献、真实电子病历数据、医学领域的专业书籍和知识库资源、医疗问题问答材料。数据集涵盖了从理论到实际操作，从基础理论到临床应用的医学知识的方方面面，保证了模型在医学领域的专业性和知识深度。

针对医学知识刺激的问题，百川智能在推理阶段对提示进行了系统的研究和调优，通过对任务的准确描述和适当的示例样本选择，使模型输出更加准确和合乎逻辑的推理步骤，从而提升了百川3在多项医学考试中的表现，并且还可以在真实的医疗问答场景中为用户提供更准确、更详细的反馈。

在逻辑推理方面，百川3在数学、**等中文等多项权威评测中均超越了GPT-4，充分证明了其较强的基础逻辑推理能力。在拥有丰富优质的专业医学知识的基础上，通过优化提示可以充分激发，结合超千亿参数的推理能力，百川3号在医学领域的任务效果明显提升，在各项中英文医学测试中的表现提升了2-14个百分点。

百川情报表示，百川3号在多项权威医学测评任务中表现不俗，不仅MCMLE、MEDEXAM、CMexam等中文医疗任务的测评结果超过GPT-4，USMLE和MEDMCQA等英文医疗任务的测评结果也接近GPT-4的水平。

突破“迭代强化学习”技术，提升创作准确率

语义理解和文本生成作为大模型最基本的底层能力，是其他能力的支柱。为了提升这两项能力，业界进行了大量的探索和实践，OpenAI、谷歌、Anthropic推出的RLHF（基于人类反馈的强化学习）和RLAIF（基于AI反馈的强化学习）是关键技术。

基于强化学习的对齐模型不仅可以更准确地理解用户指令，尤其是多重约束和多轮对话下的指令，还可以进一步提高生成内容的质量。然而，充分发挥强化学习在大模型中的作用，不仅需要稳定高效的强化学习训练框架和高质量部分阶数据，还需要“探索与利用”之间的平衡，以实现模型能力的不断攀升。

针对上述问题，百川智能进行了深入研究，并给出了有针对性的解决方案。在强化学习训练框架方面，百川智能研发了训练推理双引擎融合、多模型并行调度的PPO训练框架，能够很好地支持超千亿个模型的高效训练，训练效率比行业主流框架高400%。

在部分订单数据方面，百川智能采用RLHF和RLAIF的组合，生成高质量、高质量的部分订单数据，实现了数据质量和数据成本之间的较好平衡。在此基础上，针对“探索与利用”的根本挑战，百川智能通过PPO探索空间和奖励模型评估空间的同步升级，实现了“迭代强化学习”（iterative rlhf&rlaif）。基于强化学习的版本爬坡可以进一步发挥基于SFT的基础模型的潜力，大大提升百川3的语义理解和生成创建能力。

以文本创作中最具挑战性的唐宋诗作为中国传统文化的瑰宝，诗歌不仅在格式、层次、二元性、韵律等方面有严格的限制，而且内容简洁，意义深远。如果仅仅通过SFT的微调，一方面，高质量诗歌的创作数据需要极高的专家成本，另一方面，在调平、二元性、韵律等诸多方面，无法实现更好的约束理解和顺应。此外，传统的单次RLHF范式在唐宋诗面前也遇到了巨大的挑战，PPO在训练过程中产生的反应可能超出奖励模型的评价范围，导致“探索”过程失控。

百川智能表示，百川3号结合了“RLHF&rlaif”和迭代强化学习方法，使大模型的诗歌创作能力达到了一个新的高度。可用性比目前业内最佳模型高出500%，文化是超级GPT-4。对于格式多样、结构深厚、节奏丰富的高难度风格，生成的内容也可以整齐搭配和谐。其精准而深厚的创作技巧，会让大家轻松创作出写写的五字诗和七字绝句，不仅能提高大众的人文素养，也能帮助中国传统文化真正“活”在大典范时代。

雷迪是由**雷建平创立的，如果**请**在**。

百川智能发布百川3款超千亿元，称中国评价超越GPT 4

相似文章

百川智能发布大模型角色，游戏、影视行业迎变革！

永庆百川怎么特别好，百川特别好永庆方地

百川智能荣获新浪2023科技风云榜年度潜力创业企业奖

大海宽容一切河流，寓意墙立在墙上，无欲无意

中汇百川插画与您一起成长