OpenAI 最近宣布,ChatGPT 的语音功能现在可供所有免费用户使用。 这意味着您无需支付任何费用,您可以与 ChatGPT 进行自然对话,体验与真人互动的魔力。
当该应用程序在 Google Play 商店中更新时,您会在“事件和订单”部分看到更新,其中说:“现在您可以通过语音自然地与 ChatGPT 互动,无论是在旅途中闲聊、给家人读睡前故事,还是在晚餐时解决争论,ChatGPT 都能满足您的需求。 只需 ** ChatGPT 应用程序并点击耳机图标即可开始对话!虽然 Apple 的 App Store 尚未发布任何公告,但该功能已经在 iOS 应用程序中可用。
12月21日,医渡科技自主研发的医疗垂直领域模型正式发布,这是国内首个面向医疗垂直领域多场景的专业大语言模型,为C端提供专业的医疗级个性化服务,助力提升B端医疗、教学、科研、管理等场景的质量和效率。
目前,医度技术模型在分指导、基础医学、全科医学等多个医疗明确任务场景下的评价表现超过GPT35.已在许多头部医院得到应用。 同日,医渡科技与华为签署深化合作协议,共同推出智慧医疗解决方案,推动医疗健康产业智能化转型。
当地时间12月20日,普利策奖得主泰勒·布兰奇(Taylor Blanche)、史黛西·希夫(Stacy Schiff)等11位非**美国作家在纽约曼哈顿联邦法院起诉美国人工智能公司“开放人工智能研究中心”(OpenAI)和Microsoft,指控他们滥用作品训练chatgpt。
作者告诉法庭,OpenAI 未经许可从互联网上批量复制他们的作品并将其包含在 ChatGPT 的训练数据中,侵犯了他们作品的版权。 他们还表示,由于Microsoft“深度参与”了人工智能模型的训练和开发,因此也应该承担侵权责任。 作者向法院提出了未指明金额的损害赔偿要求,并要求法院命令这些公司停止并停止侵犯版权。
Meta 近日发布了一系列 AI 翻译模型,实现了不超过 2 秒的实时语音转换延迟,支持多种语言翻译,并具备模仿语气、语速、情感等特性的能力。 这一系列模型称为 Seamless Communication,包括 SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2 和 Seamless,其中前三个已在 GitHub 上开源。
为确保翻译准确性并避免滥用,Meta 采用毒性缓解技术,在训练前过滤掉“有毒内容”,并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加水印以进行跟踪**。 为了防止滥用的风险,Meta 还在音频中添加了水印,通过在音频中嵌入难以察觉的信号,您可以准确跟踪音频并对抗各种攻击媒介。
天眼查APP显示,近日,理想汽车旗下北京车合佳信息技术有限公司再次申请注册“Li-AI”商标在科学仪器类,目前状态也在等待实质审查。 据悉,去年9月,该公司为科学仪器和服务申请了“Li-AI”商标,不久前,上述两个商标被驳回。
据报道,最近的 Gemini-Pro 评测显示,在多模态领域取得了重大进展,与 GPT-4V 相当,并在某些方面优于 GPT-4V。 首先,在多模态专有基准MME的综合性能中,Gemini-Pro在2024年问世4分的高分超过GPT-4V,在感知和认知方面展现出全方位优势。
其次,在37项视觉理解任务中,Gemini-Pro在文本翻译、颜色地标字符识别、OCR等任务中表现出色,而GPT-4V在名人识别任务上得分为0。 在高级认知、具有挑战性的视觉任务和各种专家能力方面,Gemini-Pro表现出很强的视觉感知和理解能力,但在位置识别任务上表现不佳。
12月20日,统信软件正式发布统信UOS AI V1版本1,并与多家大型模型合作伙伴签订了“灯塔项目”。 根据官方介绍,UOS AI V10 实现大模型统一管理,完成5个主流大模型的适配,成功对接本地模型。 此外,浏览器、全局搜索、邮箱、注销等应用均与UOS AI全面对接,实现应用体验的智能化升级。
uos ai v1.版本1带来了全新升级的桌面智能助手,支持自然语言交互,覆盖打开应用、设置系统功能、创建排程等40+场景,支持知识答疑、内容创作等。 同时,UOS AI v11、还支持云端和端端模型接入,**接入国内外主流大模型,包括千帆、讯飞星火、智普、360智脑等;设备侧对接文生图、语音、自然语言搜索、处理、分类等局部模型。
12月21日,智源教育学院宣布发布拥有370亿个参数的多模态大型模型EMU2。
据介绍,EMU2在小样本多模态理解任务中大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多项少样本理解、视觉问答、主体驱动图像生成任务中均取得最佳表现。
EMU2 具有强大的多模态上下文学习能力,甚至可以解决需要即时推理的任务,例如视觉提示和基于对象的生成。 基于 EMU2 微调的 EMU2-Chat 可以准确理解**指令,从而更好地感知信息、理解意图和制定决策。 EMU2-Gen 可以接受图像、文本和交错位置序列作为输入,以实现灵活、可控、高质量的图像和**生成。 研究团队还表示,EMU2可以作为各种多模态任务的基础模型和通用接口。