工业化是关键。
文丨海科金融 范东成.
人工智能领域已经加入了浪潮。
12月7日,酝酿已久的谷歌正式发布了双子座多模态大模型。
官方公告 双子座 1版本 0 包括 Gemini Ultra、Gemini Pro、Gemini Nano 这 3 种不同尺寸,Gemini Nano 主要用于设备端,Gemini Pro 适合在各种任务中扩展,最强大的 Gemini Ultra 仍在进行信任和安全检查,根据人类反馈进行微调和强化 习,预计将于 2024 年初面向开发者和企业客户推出。
此前,IBM宣布将与Meta与AMD、英特尔、甲骨文、康奈尔大学、耶鲁大学、加州大学伯克利分校等合作,发起“AI联盟”,共同支持开放式AI创新。 IBM董事长Alvind Krishna表示,IBM希望通过此次合作,人工智能联盟能够在安全、问责和科学严谨的基础上推进创新的人工智能议程。
相当明显的是,在AI联盟的合作机构名单中,没有谷歌和ChatGPT背后的公司OpenAI。 不少业内人士认为,这是与巨头竞争的“抱团”。
ChatGPT掀起的大模型浪潮早已席卷而来。 ChatGPT问世1年,是国内外的“百模大战”。 根据《大模型在北京人工智能产业中的创新应用》,截至2024年10月,我国共有254家大型模型制造商和高校院所,参数超过10亿。
其中,开源大模型的开发尤为抢眼。
最先在中国打响枪声的是百川智能,由搜狗前CEO王小川创立。 2024年6月,百川智能发布了可免费商用的70亿参数开源语言模型baichuan-7b,一个月后又发布了130亿参数语言模型baichuan-13b和对话模型baichuan-13b-chat。 9月,百川智能宣布将开源调整后的百川2-7b、百川2-13b、百川2-13b-chat及其4bit量化版本。
另一个大型开源公司是阿里云。
自 2023 年 8 月起,阿里云开源了 70 亿参数通用模型 QWEN-7B、对话模型 QWEN-7B-Chat、视觉语言模型 QWEN-VL、140 亿参数模型 QWEN-14B 及其对话模型 QWEN-14B。 12 月 1 日,阿里云宣布将开源 720 亿参数模型 QWEN-72B,以及 18 亿参数模型 QWEN-18b 和音频模型 qwen-audio。
截至目前,同益千文的开源参数规模覆盖了18亿、70亿、140亿和720亿,再加上视觉理解和音频理解两种多模态模型,可以说已经实现了“全尺寸、全模态”的开源。
阿里云官宣将打造成“AI时代最开放的云”,用开源模式押注生态建设是理所当然的,而同益千问则用自己的迭代和演进,描绘出新的落地图景。
业界早就达成共识,开源和闭源的大模型各有各的长板。
开源可以带来丰富的资源和反馈,让大模型加速迭代,快速形成生态,比如Meta推出的LLAMA和LLAMA 2,通益千文开源的“家桶”,智付AI和清华KEG实验室推出的ChatGPT2-6B,以及百川的一些大模型都在这份榜单中。
闭源可以更好地保护企业的核心技术,从而提供更独特的商业解决方案和服务,如ChatGPT、文心亿言、百川53B等。
以LLAMA为例,在2024年2月推出后,带动了一大批AI公司和机构:Stability AI推出了类似ChatGPT的Stable Chat,它基于开源语言模型Stable Beluga,由Llama进行微调;斯坦福大学推出的 Alpaca 和加州大学伯克利分校领导的 Vicina 都是基于 LLAMA 的开源模型。
开放、包容、生态发展是开源的意义。
同益千问,同样像LLAMA 2一样开源到700亿参数级别,在影响力上也与其不相上下。 QWEN-7B开源后,迅速冲上了HuggingFace和GitHub的热门榜单。
根据 2023 年 11 月 1 日飞天大会发布的数据,阿里云 AI 大模型开源社区已聚集超过 2300 个模型,吸引了超过 280 万开发者,模型数量已突破 1 亿。 用户可以在Moda社区直接体验QWEN系列模型的效果,也可以通过阿里云灵济平台调用模型API(Application Programming Interface),或者基于阿里云百联平台定制大模型应用。
更重要的是,QWEN-72B 在 3T 代币高质量数据上进行训练,在 10 项权威基准评估中获得了开源模型的最佳结果,均优于 LLAMA2-70B,部分评估甚至超越了 ChatGPT-35 和 ChatGPT-4。
在英文任务中,QWEN-72B在MMLU基准测试中获得了开源模型的最高分在中文任务方面,QWEN-72B 在 C-Eval、CMMLU 和 Gaokaobench 等基准测试中的得分高于 GPT-4在数学推理方面,QWEN-72B在GSM8K和MATH评估中断层领先于其他开源模型再看**认识,QWEN-72B在Humaneval、MBPP等考核中的表现有了很大的提升,**能力有了质的飞跃。
汉语复杂的语义理解就是一个典型的例子。 涉及“意思”、“不够”、“真的很有意思”、“对不起”等不同含义的短语,可以用来准确分析句子或段落中每个短语的含义,例如,“不够”可能意味着对方的礼物不够丰富,“小意”意味着谦虚,“对不起”意味着道歉。
对于逻辑推理问题,彤义千文可以提出假设来解释答案。 例如,经典的“两个门卫”逻辑问题是如何从讲真话的门卫和撒谎的门卫那里得到正确答案。在回答了“如果我问另一个门卫,另一个门卫会说对哪扇门”的问题后,大模型分别假设了问真门卫和假门卫的情况,并充分表达了答案的逻辑。
QWEN-72B 可以处理多达 32k 个长文本输入,在长文本理解测试集 LeVal 上超过了 ChatGPT-35-16K效果。 QWEN-72B的指令遵守和工具使用等技能得到了优化,使其能够更好地与下游应用集成。 此外,QWEN-72B还配备了强大的系统命令能力,用户只需使用一个提示词即可自定义AI助手。
据《海科财经》介绍,如果进入“冷嫣姐”,大模特会给出“快说点话,别浪费我时间”“给我一点尊重”的语气。问“二次元萌妹”,大模特在回答时会加入多种象征性表情,表情很柔和;甚至命名影视人物,比如《亮剑》中的李云龙,大模也能将他的说话方式和经典台词运用到他的回答中。
开源和闭源路线的区别,就像iOS和Android对手机操作系统的争夺战,Android凭借其开源玩法形成了独特的生态,取得了很高的市场占有率。 从通益千文的表现来看,开源模式迈出了重要的一步。
开源大模型可以帮助用户简化模型训练和部署的过程。
用户不必从头开始训练,只需要对模型进行预训练和微调,即可快速构建高质量的模型。 一方面降低了各行各业进入大模型领域的门槛,另一方面也可以使特定行业推动大模型技术的进步。
Mindchat就是这种情况,它适用于中国的心理学场景。
MindChat是一款心理咨询工具,可以说是AI心理咨询师,可以方便及时地为用户提供心理评估等服务。 如果用户有任何担忧或困惑,他们可以向Mindchat倾诉,他们甚至可以语音输入。 MindChat会与用户产生共鸣,通过文字内容和语气分析用户的情绪和心理状态,然后给出相应的建议。 这些建议还包括对现实世界专家或心理学家的需求。
用mindchat开发者闫昕的话来说,他希望通过简单易用的界面提供服务,让孤独的人找到情感出口,与社会保持联系。
2024年本科毕业的闫昕,是华东理工大学XD实验室的成员,团队专注于社会计算和心理情感领域的AI应用开发。 他发现,心理服务非常适合大型模型——社会对此类服务的需求巨大,但整体供应稀缺且往往价格昂贵,而大型模型技术可以使服务具有包容性。 如今,MindChat 已为超过 200,000 人提供了超过 100 万次问答服务。
闫昕和他的团队一直在跟踪开源领域大模型的发展,之前也尝试过ChatGPTM、百川、Internlm等大模型。 在QWEN-7B和QWEN-14B推出后,他们利用内部数据和基准测试进行评估,确定通益千问是该场景下开源模型中的最优解,因此他们选择以此为基础。 除了MindChat,团队还开发了基于通易千文(孙思邈)的大型医疗健康模型和教育考试模型Gradchat(锦鲤)。
闫昕表示,他和他的团队是开源的坚定支持者,所以 XD Lab 的一些模型是开源的,反馈给开源社区,另一部分适合真实场景的模型以闭源 API 的形式提供服务。
作为个人开发者的陶佳,也认可了大模型对特定场景的适应性。
陶佳就职于中国能源建设集团浙江省电力设计院,主要负责新型电力系统和综合能源的宏观分析、规划研究和前期优化。 他表示,从行业角度来看,大模型在电力领域的应用前景从最初的领域知识问答系统到电力调度的高层次数学优化,都值得探索。 因此,他尝试使用通益千文的开源模型来构建一个文档问答相关的应用程序。
电力行业的场景非常具体,往往需要从数十万甚至数百万字的文档中查找内容。 涛嘉用通义千文做了一个基于私有知识库的检索问答应用,即给定一个英文文档,告诉大模型需要查找什么,让大模型根据文档目录回答哪个目录有答案。
专业领域的文献检索和解释需要较高的内容准确性和逻辑严谨性。 陶佳说,在他尝试过的开源模型中,通义千文效果最好,答案准确,没有奇怪的bug。
对于陶嘉来说,OpenAI等闭源模型调用API不方便,不适合像他这样的B端用户自行定制可以使用像骆驼这样的开源模型,但它们的中文能力一般。 因此,在QWEN-14B已经可以达到70%以上精度的情况下,陶佳对QWEN-72B充满了期待。
这种期望正在成为现实。 12月8日,HuggingFace公布了最新的开源大模排行榜。 榜单收录了全球数百款开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算等,通益千文超越llama2等国内外开源大模型位居榜首。
无论是从个人、组织还是行业的角度来看,开源都有利于形成更加开放的生态。 这不仅让更多的研究人员或开发者能够丰富应用和服务,也促进了大模型的持续优化和不断前行。
大模型浪潮下也存在问题。
研究机构IDC发布的《2023-2024年中国AI算力发展评估报告》提到,中国企业认识到AIGC(生成式AI)在加速决策、提高效率、优化用户和员工体验方面带来的价值,67%的中国企业已经开始探索生成式AI在企业中的应用机会或已进行相关投资;同时,企业还需要面对计算和存储资源短缺、大型行业模型的可用性以及高昂的投资成本带来的压力。
闫昕坦言,他们没有资源从头开始训练基础模型,所以他们希望在满足场景需求的同时,选择一个主流的、稳定的模型架构来匹配上下游环境,更关心开源模型背后的厂商能否继续投入基础模型和生态建设。
Future Speed的联合创始人兼CEO秦旭业对此也有类似的看法。 秦旭业表示,开源模型安全、可控、可定制、性价比更高,推理成本可能只有闭源计费模型的五十分之一。 未来速通推出的Xinference平台基于通益千问开源模型,内置分布式推理框架,帮助企业用户在计算集群上轻松部署和管理模型。
经过简单的微调,开源大模型可以满足很多B端场景的需求。 秦旭业公司接触的用户,大多使用QWEN-7B等小尺寸模型,利用外部知识库等场景做问答应用,通过大模型调用数据,放在上下文中进行总结和给出答案。
也就是说,通益千文提供的“全尺寸”开源模型,可以让大模型触达更多用户。 虽然模型本身是开源的,但企业仍然可以在此基础上提供各种形式的服务,包括定制开发、技术支持等。 这不仅为自己带来了更多的商业化可能性,也为上下游企业带来了更多的可能性,是一个从生态到商业,再从商业到生态的正向循环。
在2024年11月的飞天大会上,阿里巴巴董事局主席蔡崇新表示,没有开放就没有生态,没有生态就没有未来,只有站在更先进、更稳定的技术能力的基础上,才能对开放有更大的信心。
阿里巴巴一直以来都有着技术开放的传统,在操作系统、云原生、数据库、大数据等领域都有独立的开源项目。 至此,通益千文开源的逻辑更加清晰——不仅仅是传承,而是通过开源提供更多的技术产品,从而驱动阿里云的长远发展。
要知道,云和AI都离不开算力,大模型对算力的要求更高。 已经具备全栈AI能力的阿里云,正在充分利用其数据、算力、存储等资源,以开源模式吸引更多用户加入阿里云系统。 就像Microsoft一样,它也在扩展MaaS(Model as a Service)开源模式,依靠连接产业链的各个端,形成一个规模化、平台化的生态系统。
据海科财经报道,在官方宣布QWEN-72B开源的同时,阿里云还举办了首届“通益千问AI挑战赛”,参赛者可以免费游玩包括QWEN-72B在内的通亿千问开源“全家桶”。
比赛分为两部分:算法侧重于对通益千文大模型进行微调训练,希望通过高质量的数据来探索开源模型能力的上限Agent鼓励开发者基于通义千文模型和Moda社区的Agent-Builder框架开发新一代AI应用,推动大模型在各行各业的应用。 主办方免费提供价值50万元的云算力和丰厚的奖金。
此次大赛也彰显了阿里云立足开源的决心。 这意味着,通益千问乃至阿里云正在以多元化、全方位的技术服务推动AI生态繁荣,在拓宽自身边界的同时,推动整个行业的发展。