视觉中国。
1月29日,中国人工智能初创公司百川智能发布了百川3,这是一个拥有超过1000亿个参数的大型语言模型。 在CMMLU、Gaokao、Agi-Eval等多项权威通用能力评估中,百川3号展现了卓越的能力。 在CMMLU、Gaokao、Humaneval、MBPP等多个中国评测榜单中,已超越GPT-4,在中文任务中展现出优势。
不同于百亿、百亿参数模型的训练,对数据质量、训练稳定性、千亿以上参数模型的训练效率的要求在训练过程中要高出几个数量级。 为了更好的解决相关问题,百川智能在训练过程中提出了“动态数据选择”、“重要性维护”、“异步检查点存储”等多种创新技术手段和解决方案,有效提升了百创3的能力。
在高质量数据方面,传统的数据筛选依赖于人工定义,通过过滤、质量评分、教科书过滤等方式对数据进行过滤。 百川智能认为,数据优化和采样是一个动态的过程,应该用模型本身的训练过程来优化,而不是仅仅依靠人工进行先验数据采样和筛选。 为了全面提升数据质量,百川智能设计了一套基于因果抽样的动态训练数据选择方案,可以在模型训练过程中动态选择训练数据,大大提高数据质量。
百川智能的医学知识水平也取得了突破性进展。 百川3医疗数据集中的代币数量超过1000亿,医疗容量接近GPT-4。 为了给百川3注入丰富的医学知识,百川智能在模型预训练阶段就构建了超千亿个代币的医学数据集,包括医学研究文献、真实电子病历数据、医学领域的专业书籍和知识库资源、医疗问题问答材料。 该数据集涵盖了从理论到实际操作,从基础理论到临床应用的医学知识的方方面面。
目前,百川智能没有透露模型参数的数量,只是宣布百川3是一个参数超过1000亿的大型模型。 相比之下,GPT-35 是 1750 亿参数。
百川智能由王小川、茹丽云共同创立,于2023年4月以搜狗团队为基础成立。 据报道,自成立以来,该公司已获得5000万美元的启动资金。
百川智能的速度一直非常快。 成立不到100天,百川智能就发布了百川-7B和百川-13B两款开源、免费商用的中国大机型。 从百川1号出发0 到现在 30,只用了9个月。
就在一个月前,2023年12月19日,百川智能宣布开放基于搜索增强的百川2-Turbo系列API,包括百川2-Turbo-192K和百川2-Turbo,并在支持192K上下文窗口的基础上,还增加了搜索增强知识库的能力。
与baichuan2-192k相比,baichuan3在允许输入文本的长度上有所减少。 百川2-192k上线时,允许用户输入多达35万字的文字,声称可以一次阅读《三体2》的副本,成为全球处理上下文窗口最长的最大模型。 目前,baichuan3 允许您输入最多 4096 个字符的文本,相当于 2000 个汉字或 3000 个英文单词。
在过去一年的大规模模型创业中,通过行业数据训练行业垂直大型模型,被认为是大型模型落地B端的主要路径。 据佳子光年介绍,百川智能将向量数据库升级为搜索增强知识库,提升了大模型获取外部知识的能力; 搜索增强的知识库和超长上下文窗口的组合使模型能够连接到所有企业知识库和网络范围的信息。
在去年年底的**沟通会上,王小川透露,百川智能C端产品的第一重点就是医疗方向,产品预计2024年上市。