1月29日,百川智能发布了超千亿参数的大型语言模型百川3。 百川3在基础能力上得到了全面提升,在多项权威评测中,英语能力接近GPT-4,中文能力超过GPT-4。
百川3在特定领域也表现出色,比如在医疗领域,百川智能在模型预训练阶段就构建了超过1000亿个代币的医学数据集,包括医学研究文献、真实电子病历数据、医学领域的专业书籍和知识库资源,以及针对医疗问题的问答材料。 在对MCMLE、MEDEXAM、CMEXAM等需要较高逻辑推理能力和专业性的权威医学评价的中国效果方面,百川3也超过了GPT-4,是中国医疗任务的最佳大模型。
《百川3》还突破了“迭代强化学习”技术,进一步提升了语义理解和生成能力,在诗歌创作的格式、韵律、表意文字等方面表现良好。
基本能力全面提升
多项对中国任务的权威评价已超越GPT-4
百川 3 在几篇英文评测中表现良好,达到了接近 GPT-4 的水平。 在CMMLU、Gaokao、Humaneval、MBPP等多个中国评测榜单中,已超越GPT-4,在中文任务中展现出优势。
此外,在MT-bench、IFEVAL等对齐榜单的评测中,百川3超越了GPT-35、克劳德等大型机型处于行业领先水平。
不同于百亿、百亿参数模型的训练,对数据质量、训练稳定性、千亿以上参数模型的训练效率的要求在训练过程中要高出几个数量级。 为了更好的解决相关问题,百川智能在训练过程中提出了“动态数据选择”、“重要性维护”、“异步检查点存储”等多种创新技术手段和解决方案,有效提升了百创3的能力。
在高质量数据方面,传统的数据筛选依赖于人工定义,通过过滤、质量评分、教科书过滤等方式对数据进行过滤。 百川智能认为,数据优化和采样是一个动态的过程,应该用模型本身的训练过程来优化,而不是仅仅依靠人工进行先验数据采样和筛选。
为了全面提升数据质量,百川智能设计了一套基于因果抽样的动态训练数据选择方案,可以在模型训练过程中动态选择训练数据,大大提高数据质量。
在训练稳定性方面,由于模型中参数数量庞大,参数超过1000亿个,在训练过程中经常会出现梯度**、损失、收敛不收敛等问题。
对此,百川智能提出了一种“重要性维护”(显著一致性)的渐进式初始化方法,以保证模型训练初始阶段的稳定性。 此外,对模型训练过程的监控方案进行优化,在梯度、损失等指标中引入参数“有效排名”的方法,提前发现训练过程中的问题,大大加快了训练问题的定位,保证了最终模型的收敛效果。
此外,为了保证超千亿个GPU参数的模型高效稳定训练,百川智能同步优化了模型的训练稳定性和训练框架,采用了“异步检查点存储”机制,可以在不损失性能的情况下提高存储频率,减少机器故障对训练任务的影响, 并使百川3号的稳定训练时间达到一个月以上,故障恢复时间不超过10分钟。
在训练效率方面,百川智能对超千亿参数的模型并行训练进行了一系列优化,如高度优化的ROPE和SWIGLU计算算子; 参数通信与计算的重叠在数据并行中实现,激活值通信与计算的重叠以序列并行实现,从而有效降低通信时间的比例。 在流并行中引入将激活值卸载到GPU的技术,解决了流并行中内存使用不均匀的问题,减少了流并行中的段数,并显着降低了空化率。
通过这些技术创新,百川3训练框架的性能比行业主流框架提升了30%以上。
医学数据集中的代币数量超过1000亿
医疗能力正在接近 GPT-4
从疾病诊断、疾病到患者护理和药物研发,大模型不仅可以帮助医生提高诊疗效率和质量,帮助患者获得更好的服务和体验,还可以帮助社会降低医疗成本和风险,帮助医疗资源实现普惠和平等权利。 此外,医疗问题专业性强,知识更新速度快,精度要求高,个体差异大,能充分体现大模型的各项能力,被百川智能称为“大模型皇冠上的明珠”。
因此,OpenAI、谷歌等龙头大型模型公司将医疗护理作为模型的重点训练方向和绩效考核的重要体系。
ChatGPT早在2023年2月就通过了美国医师执照考试(USMLE),展现了其在医疗领域的强大实力。 谷歌更加重视医疗领域,基于PALM模型构建了大型医疗模型MED-PALM,迭代后的MED-PALM 2在体检MEDQA中得分超过80分,达到专家级。
在医疗领域,大型模型的全方位性起着至关重要的作用。
首先,其多模态学习能力可以整合文本、图像、声音等多种类型的医疗数据,提供更全面、更准确的分析诊断。
其次,大型模型的深度推理能力可以帮助做出复杂的医疗决策。 此外,稳定的性能和最新的知识能力确保了医疗建议的可靠性和及时性。 同时,大型模型的语言理解和生成能力使它们能够处理技术术语和复杂的句型。
最后,将模式识别和学习能力应用于大型模型,使他们能够从复杂的医疗数据中学习和识别重要的模式和特征。
因此,大型模型要想在医学领域取得好成绩并不容易,这不仅需要丰富的医学知识、适当的提示,还需要模型本身优秀的逻辑推理能力。
为了给百川3注入丰富的医学知识,百川智能在模型预训练阶段就构建了超千亿个代币的医学数据集,包括医学研究文献、真实电子病历数据、医学领域的专业书籍和知识库资源、医疗问题问答材料。 数据集涵盖了从理论到实际操作,从基础理论到临床应用的医学知识的方方面面,保证了模型在医学领域的专业性和知识深度。
针对医学知识刺激的问题,百川智能在推理阶段对提示进行了系统的研究和优化,通过对任务的准确描述和适当的样本选择,使模型输出更加准确和合乎逻辑的推理步骤,最终不仅提升了百川3在多项体检中的表现, 同时也为用户在真实的医疗问答场景中提供更准确、更详细的反馈。
在逻辑推理方面,百川3在数学、**等中文等多项权威评测中均超越了GPT-4,充分证明了其较强的基础逻辑推理能力。
在拥有丰富优质的专业医学知识的基础上,通过优化提示可以充分激发,结合超千亿参数的推理能力,百川3号在医学领域的任务效果明显提升,在各项中英文医学测试中的表现提升了2-14个百分点。
百川3在多项权威医学测评任务中表现不俗,不仅MCMLE、MEDEXAM、CMexam等中文医疗任务的测评结果超过GPT-4,USMLE和MEDMCQA等英文医疗任务的测评结果也接近GPT-4的水平,GPT-4是中国医疗能力最强的大模型。
“迭代强化学习”技术的突破
创作的准确性大大提高
语义理解和文本生成作为大模型最基本的底层能力,是其他能力的支柱。 为了提升这两项能力,业界进行了大量的探索和实践,OpenAI、谷歌、Anthropic推出的RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)是关键技术。
基于强化学习的对齐模型不仅可以更准确地理解用户指令,尤其是多重约束和多轮对话下的指令,还可以进一步提高生成内容的质量。 然而,充分发挥强化学习在大模型中的作用,不仅需要稳定高效的强化学习训练框架和高质量部分阶数据,还需要“探索与利用”之间的平衡,以实现模型能力的不断攀升。
针对上述问题,百川智能进行了深入研究,并给出了有针对性的解决方案。
在强化学习训练框架方面,百川智能研发了训练推理双引擎融合、多模型并行调度的PPO训练框架,能够很好地支持超千亿个模型的高效训练,训练效率比行业主流框架高400%。
在部分订单数据方面,百川智能创新性地采用RLHF和RLAIF的组合,生成高质量、高质量的部分订单数据,实现了数据质量和数据成本之间的较好平衡。
在此基础上,针对“探索与利用”的根本挑战,百川智能通过PPO探索空间和奖励模型评估空间的同步升级,实现了“迭代强化学习”(iterative rlhf&rlaif)。 基于强化学习的版本爬坡可以进一步发挥基于SFT的基础模型的潜力,大大提升百川3的语义理解和生成创建能力。
以文本创作中最具挑战性的唐宋诗作为中国传统文化的瑰宝,诗歌不仅在格式、层次、二元性、韵律等方面有严格的限制,而且内容简洁,意义深远。 如果仅仅通过SFT的微调,一方面,高质量诗歌的创作数据需要极高的专家成本,另一方面,在调平、二元性、韵律等诸多方面,无法实现更好的约束理解和顺应。
此外,传统的单次RLHF范式在唐宋诗面前也遇到了巨大的挑战,PPO在训练过程中产生的反应可能超出奖励模型的评价范围,导致“探索”过程失控。
百川3号结合了“RLHF&rlaif”和迭代强化学习方法,将大型模型的诗歌创作能力提升到一个新的水平。 可用性比目前业内最好的模型高出 500%,远远超过 GPT-4。
对于格式多变、结构深厚、韵律丰富的高难度风格,生成的内容也可以整齐搭配和谐,既能提升大众的人文素养,又能帮助中国传统文化真正“活”在大模式时代。
作为超千亿参数规模的大型语言模型,百川3不仅在英语上达到了接近GPT-4的水平,而且在多项通用中文任务的表现上也超过了GPT-4,这是百川智能的新里程碑。
百川3号在医疗领域的综合通用能力和强势表现,将为百川智能打造“超级应用”,为大模型技术在众多复杂应用场景下的落地提供有力支撑。