1月30日,科大讯飞举办科大讯飞星火认知模型V35 升级发布会,会上,科大讯飞Spark v3第5版正式发布,这是国家首个在国家算力平台“飞星一号”上训练的全国开放大模型。
科大讯飞董事长刘庆峰表示,科大讯飞Spark V35 总体上已经接近 GPT-4 水平; 它与数学和语言交互的能力优于 GPT-4TURBO。 **96% 的 GPT-4 Turbo 和 91% 的 GPT-4V 的多模态理解。
此外,科大讯飞还首次发布了星火语音模型,这是全球领先的主流语言,引领了万物互联时代的人机交互革命。 同时,Spark开源模型“Spark Open Source-13B”也首次发布,深度适配国内算力,帮助开发者、高校、企业自主开发。
然后是最新的科大讯飞Spark v35 该版本实际上是如何工作的? 今天,我们将与您一起体验。
1. AIGC核心竞争力经验。
对于大型模型来说,最关键的自然是AIGC的核心对话能力,所以我们主要先测试一下这些能力。
测试时,使用 ChatGPT 最新的 GPT-4 和 iFLYTEK Spark V35 个版本进行比较,看看科大讯飞 Spark v35 真的有可能赶上ChatGPT吗? 除非另有说明,否则默认情况下两者都是基于 Web 的。
事不宜迟,让我们开始吧。
1.全语音交互。
在本次发布会上,印象最深刻的是科大讯飞星火v35 完整的语音交互能力,可以直接用语音与科大讯飞星火对话,就像和真人聊天一样,非常惊人,所以我们先从这一点来评估一下体验。
目前可以在APP上体验完整的语音对话,升级后,底部输入框最右边有一个机器人助手的图标,点击即可进入完整的语音交互状态。
科大讯飞Spark v35的全语音交互非常流畅,首先AI的声音非常自然,说话时甚至还有“嗯”和“里面”等情绪词,几乎和真人没什么区别。 其次,在交互时,科大讯飞Spark v35 的反应也很灵敏,说话后会很快回升。 此外,科大讯飞Spark v35的答案也非常准确,与上下文相连,没有不问的答案,简而言之,“互动”,更像是自然的“交流”。
GPT-4方面,需要注意的是,由于使用过程中网络连接不稳定的客观原因,在对话过程中会出现频繁的重连、漫长的等待时间,除此之外,GPT-4的语音对话也比较不错,声音也像真人一样自然流畅。
科大讯飞Spark v35 全语音交互目前有两种音色:凌小月(女声)和凌飞逸(男声)可以切换。
2.语言理解。
在语言理解方面,让我们首先测试两个大型模型,让他们尝试分析以下段落中表达的思想和情感:
所有不幸命运的救赎之路在哪里? 如果智慧和理解力可以引导我们走上救赎之路,那么所有人都能获得这样的智慧和理解力吗? 我常常想,丑陋的女人造就了美丽的女人。 我经常认为傻瓜引用智者。 我常常认为这是一个懦夫,他照耀着英雄。 我常常认为,众生已经转化了佛陀。
科大讯飞Spark v35 和 GPT-4 各自给出以下理解:
从答案来看,科大讯飞Spark v35 和 GPT-4 都是可以接受的,但总的来说,GPT-4 更准确、更详细。
让我们让他们更难分析以下具有讽刺意味的对联:
墙上的芦苇头重脚轻,很浅; 竹笋在山上,嘴尖皮厚,肚子空心。
科大讯飞Spark v35 和 GPT-4 都给出了满分:
然后增加难度,用阴阳怪词测试两个大模型:
公司早上09:00上班,我09:00来公司报到,碰巧遇到了老板,老板看到了我。 说:“亲爱的王总,你真的很准时,我们公司有你这样准时的员工,业绩也不马虎? 老板,这是什么意思?
对于这个问题,科大讯飞Spark v35 误会,没有进入老板话语的讽刺:
相对来说,GPT-4回答得更好,也理解了老板话语中的讽刺。
又一句阴阳怪异:
我真的很羡慕你的**,维护得这么好。
为了理解这句话,这次科大讯飞Spark v35 准确地把握了其中的讽刺和讽刺:
GPT-4 也承认这其中有讽刺意味,但它对它所讽刺的内容给出了错误的理解:
测试后,科大讯飞Spark v35和GPT-4在汉语理解上各有优有失,总体可以说是在一个水平上,语言背后隐藏的意思大部分都能识别出来,理解能力还是令人满意的。
3.逻辑推理。
然后测试科大讯飞Spark v3版本 5 和 GPT-4 逻辑推理能力,选择一些用于逻辑思维训练的试题。 第一个是:
假设你有一个池塘,里面有无限量的水,有两个空水壶,容积分别为 5 升和 6 升。 问:用这两个水壶如何从池塘中取出 3 升水?
对于这个问题,科大讯飞Spark v3答案5的步骤很清楚,逻辑很清楚,实际可操作性没有问题。
GPT-4 是回答这个问题的步骤列表,但根据它给出的方法,你不能得到 3 升水。
然后我发现了另一个话题:
A、B、C、D下一盘棋,每人下一盘棋,A胜D,A、B、C赢得相同数量的棋局。 问:D 赢了多少场?
对于这个问题,科大讯飞Spark v35 和 GPT-4 有不同的想法,但他们都给出了正确的答案:
然后是问题:
四年级有三个班,每个班有两名班长,只有一名班长参加班会。 首次参会者是 A、B 和 C; 第二位与会者是 b、d、e; 第三位与会者是 A、E、F。 哪两个班长在同一个班级?
这个问题,科大讯飞Spark v35给出了正确而完整的答案:
GPT-4 也给出了正确的答案,思路很明确。
说到逻辑思维,有一些类似脑筋急转弯的问题,也可以测试大模型的思维和反应能力,比如下面的问题:
如果 1=7,2=17,3=27,4=37,5=47,6=57,那么 7=?
这个问题,科大讯飞Spark v3无论是 5 还是 GPT-4 都无法识别问题中的混淆条件并给出错误的答案:
另一个有思维陷阱的话题:
你参加比赛,当你超过第二名时,你有多少个名次?
这个问题,科大讯飞Spark v35 和 GPT-4 都设法避免了这个陷阱,回答“第一”而不是“第一”,而是“成为新的第二”。
整体来看,在逻辑思维能力方面,科大讯飞星火v35 和 GPT-4 都表现出了非常好的逻辑推理和避坑能力,其中科大讯飞 Spark V35 在第一个问题中,有一个小小的胜利。
4. 回答数学问题。
我们之前已经测试过两个大模型的逻辑推理能力,与之类似的是,其实还有回答数学问题的能力,可以进一步测试大模型的“智商水平”。
我们先来看看下面这个问题:
在 abc 中,a,b,c 是与内角 a,b,c 相对的边,如果 2asina=(2sinb+sinc) b+(2sinc+sinb) c。 (1)求一个的大小; (2)求sinb+sinc的最大值。
科大讯飞Spark v35 第一个测验答对了,但第二个测验答错了,最大值应为 1
GPT-4 另一方面,这两个问题都没有成功回答。
然后我发现了另一个问题:
中学女子站立跳远的考核要求为:133 米得 5 分,每增加 0 分03米,分数增加5分,直到184米后得90分,加01米,分数提高5分,满分是120分,如果一个女孩在训练前的成绩是70分,经过一段时间的训练,分数是105分,那么这个女孩在训练后的跳远中提高了多少米?
科大讯飞Spark v35 给出正确答案,并给出解决问题的过程:
GPT-4 一开始只给出正确答案,只有在询问问题解决过程后才会给出详细的步骤。
最后,尝试一个稍微困难的问题:
知道函数 f(x)=e x-ax-1 和 g (x)=kx 2,当 a>0 时,求 f (x) 的范围。
对于这个问题,科大讯飞Spark v35.给出正确答案,虽然解决问题的过程很简单,但思路比较清晰。
GPT-4 给出了一个相对较长的解决方案步骤,但结果是错误的。
以上例子中的三个问题都是从高三的一次数学模拟测试中发现的,可以在科大讯飞星火v3中看到5的数学能力至少已经达到了高中水平,在实际使用过程中,确实可以发现科大讯飞Spark v35 在解决数学问题方面仍然优于 GPT-4。 但总的来说,两者都有改进的余地。
5.文本生成。
文本生成可能是人们在使用大型模型来帮助我们进行一些文案写作时最常用的功能。 这里还测试了两个大型模型。
首先,我希望他们帮我写一份招聘文案:
招聘要求:具有经济学专业背景,有媒体工作经验,写作优秀,能经常出差。 招聘待遇:有五险一金,月薪15k起,工作环境新雅,节假日有礼品,每年一次旅行团建。 文案要求:风格轻松幽默,500字以内。
科大讯飞Spark v35 给出的副本基本上没有扣除:
GPT-4 的文案总体上也不错,但语言与科大讯飞 Spark V3 相比5 不够轻松幽默。
再看故事纸牌,从最经典的故事开始,让他们继续:
世界末日过后,我成了地球上唯一的幸存者,我正坐在房间里独白,突然想起了敲门声。
科大讯飞Spark v35和GPT-4的故事延续可以合乎逻辑,流畅,有开头有结尾,还有一些细节可以描述,比较不错。
职场中的朋友经常需要写一些计划、活动计划等,这个时候,也可以利用大模型的内容生成能力,帮助你更快完成任务。 在这里,IT之家以“我公司计划开展阅读活动,帮我写活动计划”为需求进行测试。
科大讯飞星火给出的方案比较完整,有时间、地点、目标、流程、前期准备、结果评估等环节,而且不乏细节,可用性非常高。
GPT-4 提案相对简洁,细节较少,但也更完整。
总体而言,在文本生成方面,科大讯飞Spark v35 与 GPT-4 相当,生成的内容没有问题。
6.能力。
使用AI大模型辅助编写也是一些程序员的常见用例,也可以看作是大模型内容生成能力的重要组成部分。
测试时,先用以下问题测试两个大模型:请用C生成以下**:给你一个字符串s,求s中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 **请按照以下模板操作:公共类解决方案 }
根据大模型可以直接使用的标准,对程序运行工具生成的大模型进行测试,看它是否能直接完美运行。 由于我不懂**,我也找了IT家里的程序员来协助评估。
首先,让我们一起来看看科大讯飞星火v35.它给出的格式标准和算法都比较简洁,看起来很清爽。
我拿到检测工具运行测试,发现这个**可以直接运行,输出结果准确,也就是说可以直接使用。
GPT-4 这里给出的**也有标准化的格式,也比较简洁,还有注释。
如果在检测软件中运行,也可以运行成功,性能也不错。
除了会写**之外,你还必须会分析**,所以然后找一段**让他们回答这个**是干什么用的:
# python 3def remove_common_prefix(x, prefix, ws_prefix):x["completion"]=x["completion"].str[len(prefix):]if ws_prefix:#keep the single whitespace as prefixx["completion"]=" " + x["completion“]return x 解释了这个 ** 的用途。
迅飞星火的回答简明扼要地说明了这个**的主要作用,答案是准确的。
GPT-4 也给出了这个实现功能,这也很好,同时也指出了 ** 中的一个小错误,那就是末尾非标准引号的问题,GPT 稍微好一点。
综上所述,目前科大讯飞Spark v35和GPT-4都非常有能力,两者的水平基本没有区别。
7.行业知识。
最后,让我们测试一下两者对行业知识的掌握程度。
让我们从化学领域的一个话题开始:
以下关于镧系元素的陈述中哪一项是错误的? (a) 梅斯最常见的氧化态是+3。 (b) 锑络合物通常具有较高的配位数(>6)。 (c) 所有锎都与水溶性酸反应生成氢气。 (d) 在元素周期表中,maczes的原子半径从la逐渐增加到lu。
科大讯飞Spark v35 和 GPT-4 都给出了正确答案。 其中,科大讯飞Spark v35 的答案相对简单,GPT-4 更详细一些。
然后问他们另一个关于医学的问题:
连接到心脏左房室口周边的瓣膜是什么?
科大讯飞Spark v35 和 GPT-4 都给出了准确的答案。
在知识方面,还需要考虑大模型对最新信息的掌握,即对其知识库的更新。 以下是要测试的几个问题。
首先问“Apple Vision Pro 是什么时候发布的? ”
科大讯飞Spark v35给出了正确答案,并对本产品进行了简要介绍。 知识库的解释非常新,这真是令人惊讶。
GPT-4没有直接回答,然后问了一个与体育有关的问题:
NBA球星克里斯保罗现在在哪支球队?
科大讯飞星火给出了正确而完整的答案:
GPT-4 仍然没有回答,指向搜索引擎。
总体而言,在行业知识方面,科大讯飞星火V35 在知识掌握深度上,与GPT-4基本持平,但在知识库储备的更新速度上,目前科大讯飞星火V35 明显优于 GPT-4。
8.多式联运能力。
在此科大讯飞Spark v3中多模态功能在版本 5 中也得到了显着改进,因此让我们最终测试它在多模态中的表现。
首先是基本的文生图能力,先让他们画出“天宫里的孙悟空浩劫”,科大讯飞星火v35 和 GPT-4 都很快给出了图纸,而且都相当合规。
但总的来说,GPT-4 的画作更加精致和细致。
然后是屠生文的能力,找一个**,看看能不能辨认出**里的笑话。
科大讯飞Spark v35准确地给出了**中的笑话,也判断这是《猫捉老鼠》中的一个场景,但同时,对**中没有的元素也有解释。
GPT-4 也能准确看出**中的笑话在哪里,不会产生多余的信息,但并没有指出这是《猫捉老鼠》中的场景,总体上各有优缺点。
在多模态体验方面,还有另外一个大家比较关注的功能,那就是**生成。 这里试图让两个大模型生成一个关于超人的段落。
科大讯飞Spark v35 很快生成了一个小**介绍超人,还有一个虚拟数字人负责讲解,很不错。
目前不支持 GPT-4**。
总的来说,目前,在多模态能力方面,科大讯飞Spark v35 也非常全面,实际使用体验也很好,与 GPT-4 相比,可以说各有各的优点,介于两者之间。
总的来说,经过多个版本的技术迭代,目前的科大讯飞Spark v3版本 5 在基本功能体验方面问题不大,使用起来全面成熟。
2、有其他基本功能的经验。
最后,我们从其他基础功能体验方面来看看科大讯飞星火的情况,IT之家主要从终端覆盖和功能丰富两个方面进行讲解。
在终端覆盖的丰富性方面,科大讯飞星火一直相对领先,早在去年6月,科大讯飞星火v1当5升级时,它已经实现了Android、iOS、小程序、PC、H5的全覆盖,所以大家可以在主流设备中体验科大讯飞星火大模型。
在ChatGPT方面,目前覆盖了网页端、移动端、PC和Mac、Linux,没有小程序和H5,比于迅飞星火有自己的优势。
在功能上,现在的科大讯飞星火也非常全面。 例如,在之前的 v1 中5 版中引入的科大讯飞 AI 助手功能,针对特定应用场景提供专门的服务和功能,涵盖“职场、生活、旅行、写作、娱乐、情感”等多种场景,甚至可以创建自己的 AI 助手。
在科大讯飞星火上可以看到,目前各类星火AI助手还是非常全面的,几乎可以覆盖所有应用场景。
ChatGPT 上也有类似的功能。
除了星火AI助手,科大讯飞星火还拥有独特的科大讯飞配套功能,你可以将具体的知识、历史对话,或者你每天读、写、想、想的东西发送到系统,并定制你的专属AI个性“朋友”,用户可以体验到科大讯飞星火APP的AI个性“不仅知识, 还有个性”。
再比如,科大讯飞星火还拥有丰富的插件功能,包括PPT生成、邮件生成、简历生成、操作文案生成、思维导图、AI面试官等,非常齐全。
这些是 GPT-4 目前不具备的功能。
结语。 此前,科大讯飞董事长刘庆峰在接受采访时表示,科大讯飞星火将于2024年4月对GPT-4进行全面基准测试。
从这个时候到新的科大讯飞Spark v3从第5版的经验来看,在综合能力上确实可以和GPT-4不相上下,甚至在逻辑推理、数学能力、知识库更新速度等方面都有一定的领先优势。
简而言之,科大讯飞星火认知模型v35 让我们看到国产大模型在技术和应用方面的无限发展潜力,期待科大讯飞星火在未来不断演进,让我们的AI大模型技术和应用生态真正实现国际领先。