AI Vision、Google Gemini Pro 开通，文心一妍插件商城上线

[gf]1f4f0[/gf][gf]1f916[/gf][gf]1f4e2[/gf]AI 中的新增功能

Google Gemini Pro 开通

谷歌的 Gemini Pro 大模型在研究基准测试中表现出色，支持 32K 上下文窗口的文本输入和生成能力，并向 Vertex AI 云计算客户和 AI Studio 开发者开放，提供多种功能和 SDK，为构建 AI 应用提供更多可能性。

[AIBASE简介：]。

GF]1F680[ GF] Gemini Pro 性能：在研究基准测试中，Gemini Pro 表现出强大的性能，支持 32K 上下文窗口中的文本输入和生成，并支持 38 种语言。

GF]1F310[ GF] 多平台支持：Gemini Pro 提供 Python、Android 和 NodeJS、Swift、J**Ascript 等多种 SDK 可帮助开发者在不同平台上构建应用。

GF]1F510[GF] 完全托管解决方案：用户可以轻松地从免费的 Google AI Studio 迁移到 Vertex AI，以实现全面的数据控制和其他 Google Cloud 功能，包括安全、隐私和数据治理。

文心易妍插件**上线文心易颜插件**正式上线，提供多功能插件，包括PPT生成、音频提取、思维导图等，用户只需简单的指令即可满足多种场景的需求。插件**还允许用户自己设计新的插件。

[AIBASE简介：]。

gf]1f680[ gf] 实用插件覆盖多个场景：文心易颜插件**涵盖PPT生成、音频提取、思维导图等实用场景，提升用户办公效率。

GF]1F3A8[ GF] 支持自行设计插件：用户不仅可以使用插件，还可以成为设计师，在插件中设计新的应用**，拓展创作空间。

gf]1f469[ gf][gf]200d[ gf][gf]1f4bc[ gf] 一键安装多功能插件：用户可以通过简单的说明安装插件，满足多场景、多模态需求，如助手、项目管理看板等。

ChatGPT 成为《自然》杂志年度十大人物之一2023 年，《自然》杂志评选出了包括 ChatGPT 和 OpenAI 首席科学家 Sutzkwe 在内的年度前 10 名人物，成为首位入选榜单的非人类，凸显了人工智能在科学界的领先地位。

[AIBASE简介：]。

GF]1F310[ GF] ChatGPT破例：ChatGPT首次入选《自然》十大人物榜单，承认生成式人工智能给科学研究带来的重大变化。

GF]1F680[ GF] 人工智能引领科学：OpenAI 首席科学家 Sutskovi 的入选凸显了人工智能在科学研究中的关键作用。

GF]1F30D[GF] 各领域杰出成就：榜单涵盖健康、环境、物理等领域，凸显科技创新对全球社会的深远影响。

国内首例AI语音侵权案件公开开庭审理北京互联网法院公开审理全国首例AI语音侵权案，配音演员起诉了包括墨音工场APP和Microsoft在内的五名被告。该配音演员将墨音工坊等五家公司起诉到北京互联网法院，理由是原告的声音未经授权、AI、在APP上销售，案件仍在审理中。

[AIBASE简介：]。

gf]1f5e3[ gf][gf]fe0f[ gf] 声音侵权指控：配音演员原告声称他的声音是人工智能诱导的，并在“Magic Sound Workshop”应用程序上以化名出售，侵犯了他的声音权利。

gf]1f916[ gf] 被告抗辩：被告公司否认侵权，称该声音产品合法，Microsoft声音来源于中光音响，不构成侵权。

gf]2696[ gf][gf]fe0f[ gf] 庭审过程：原告主张侵犯人格权，不承认涉案著作权，案件目前正在进一步审理中。

iQOO Neo9系列率先搭载自研AI蓝心模型iQOO Neo9系列手机将首次搭载自主研发的AI蓝心模型，在语言理解、文本创作等领域表现良好，为用户带来更智能、更流畅、更安全的体验。

[AIBASE简介：]。

GF]1F50D[ GF] 技术亮点： iQOO Neo9系列引入自主研发的AI蓝心大模型，在语言理解和文本创作方面表现良好，位列中国大模型榜首。

GF]1F680[GF] 强悍性能：手机采用专业级全能生态，搭载高性能处理器，专业版运行得分突破233万分，创下新纪录。

gf]1f3ae[ gf] 提升游戏体验：配备独立显示芯片，为玩家带来更好的游戏体验，提高流畅度和稳定性。

AI主播Channel1上线近期热播剧《新闻女王》备受关注，与此同时，美国新闻创业公司Channel1发布了一款可以24 7播出新闻的AI主播，引发了媒体的热议。

[AIBASE简介：]。

GF]1F916[ GF] AI主播取代人类主播，Channel1推出的复杂模型支持真主形象，可以播放多语种新闻。

GF]1F310[ GF] 该公司强调新闻来源来自独立记者、**文件和外部机构，保证了内容的真实性，但仍存在争议。

GF]1F4BC[ GF] Channel1 在个性化、消费者选择的制作方式上与传统新闻频道不同，并计划在 2024 年以低成本推出。

邢波团队提出了一个全开源的倡议，LLM360邢波团队提出了LLM360综合开源计划，旨在让大型语言模型的训练过程透明化，发布两个大型语言模型，为研究人员提供开发经验和性能评估结果。

*地址：项目网页：

[AIBASE简介：]。

GF]1F310[ GF] 全开源计划：星波团队的LLM360框架涵盖了训练数据、模型检查点和性能指标，为大型语言模型建立了全面透明的标准。

gf]1f680[gf] 发布大型语言模型：在框架下发布的 Amber 和 Crystalcoder 基于 13t 和 14T token的大型语言模型，提供绩效评估和LLM领域的实践经验。

GF]1F91D[ GF] 推动开放协同研究：LLM360全面开源趋势有望推动更多研究人员参与合作，推动人工智能领域的持续创新与进步。

[gf]1f916[/gf][gf]1f4c8[/gf][gf]1f4bb[/gf][gf]1f4a1[/gf]大型模型动态Google Deepmind 发布最先进的图像生成模型 Imagen2

Google Deepmind 推出了 ImageN2，这是一个强大的图像生成模型，可通过引用和文本生成新的和部分编辑，并改进了对图像描述的理解和对图像编辑的支持。该模型在安全性方面采用了数字水印工具，可以在不影响图像质量的情况下防止潜在风险。

地址：

[AIBASE简介：]。

GF]1F31F[ GF] 强大的生成功能：ImageN2 通过引用 ** 和文本来生成新的 ** 和局部编辑，改进了图像描述理解和生成图像的质量。

GF]1F512[ GF] 数字水印保护：该模型集成了合成数字水印工具，可在不影响图像质量的情况下防止潜在风险和不良内容。

GF]1F3A8[ GF] 灵活的样式控制：ImageN2 的扩散技术提供了高度的灵活性，可以通过引用样式图像和文本提示来训练模型以生成与相同样式匹配的新图像。

stability.AI 开源 ** 3D 模型稳定 zero123stability.AI开源Stable Zero123是丰田研究院与哥伦比亚大学联合开源的Zero123模型的优化版本，通过改进渲染数据集和分数蒸馏，提升了3D模型生成效果和训练效率，可与SDXL高精度**模型结合使用。

项目地址：

[AIBASE简介：]。

GF]1F4A1[GF] 稳定 zero123 为稳定性Zero123模型的AI优化版本通过改进渲染数据集和分数蒸馏，提高了3D模型生成效果和训练效率。

GF]1F504[GF]与最新的开源SDXL高精度**模型配合使用，相当于对3D模型的扩展，拓展了生成式AI的应用领域。

GF]1F310[ GF] 通过使用高质量的数据集 OBJ**ERSE-XL，STABLE ZERO123提供了一个强大的工具，可以在生成过程中更好地理解和生成 3D 模型。

全国首部古籍大语文模型《荀子》发布南京农业大学研发的“荀子”古籍大语种模型整合了20多亿字的古籍语料库，旨在促进古籍研究与保护，提高中国传统文化传承效率，实现大语言模型与古籍加工的深度融合。

地址：

[AIBASE简介：]。

gf]1f4da[ gf] 全整合语料库：“荀子”大语言模型包含20多亿字古籍文献，目的是促进古籍的研究和传承。

gf]1f4bb[ gf] 多功能应用场景：该模型提供智能索引、翻译、诗歌生成、阅读理解等功能，显著提升古籍加工研究效率。

GF]1F469[ GF][GF]200D[ GF][GF]1F3EB[ GF] 专家对该模式的实用性给予了高度评价：在发布会上，来自多所高校、出版机构、互联网公司的专家学者对该模式的实用性给予了高度评价。

Moda社区推出Mistral AI首个开源MOE模型Mistral AI 近日在 Moda 社区推出了首个开源 MOE 模型 MixTRAL8X7B，该模型是由 8 个专家网络组成的混合专家模型，参数数为 70 亿，支持 32K 代币上下文长度，达到 8 个3 分，GPT 35 相当。

[AIBASE简介：]。

GF]1F680[ GF] 模型介绍：Mistral AI 发布开源 MOE 模型 Misetral8x7B，该模型由 8 个专家网络组成，拥有 70 亿个参数，支持 32K 代币上下文长度。

GF]1F4C8[ GF] 性能评估：在 MT-bench 测试中，mixtral8x7b 达到 83 分，GPT 35 相当，表现出出色的性能。

GF]1F310[ GF] 社区发布：mixtral8x7b 模型在 Moda 社区正式上线，为开发者提供了一个交流和分享的平台。

mixtral-8x7b-v0.模型 1：

mixtral-8x7b-instruct-v0.模型 1：

mistral-7b-instruct-v0.2 个新模型：

gf]1f916[/gf][gf]1f4f1[/gf][gf]1f4bc[/gf]AI应用

美图公司推出WHEE APP，一款AI绘画和**生成APP

美图公司WHEE手机APP正式上线，由奇绩幻视4提供支持0大模型提供支持，为用户提供一站式AI视觉创作服务，包括AI绘画、**生成、修图、扩展、3D效果等功能，汇集各领域创作者的作品，促进创作者交流合作。

[AIBASE简介：]。

GF]1F3A8[ GF] 全创作服务：WHEE APP集成奇迹幻景40大模型，提供AI绘画、**生成等全方位的创意服务，用户只需用自然语言描述自己的需求即可轻松上手。

gf]1f91d[ gf] 创作者交流平台：该应用汇集了来自各个领域的创作者的作品，为创作提供灵感**，促进创作者之间的交流与合作。

gf]1f4da[ gf] 用户支持和指导：提供创作指南和模型训练指南，以帮助用户更好地使用和理解应用程序。

谷歌推出其人工智能**创作工具“MusicFX”。Google 的 AI** 创作工具“MusicFX”利用 Google 的 MusicLM 和 Deepmind 的 Synthid 技术，让用户只需几句话即可生成原创**，同时强调负责任的 AI 创新。

经验**：

[AIBASE简介：]。

GF]1F680[ GF] MusicFX 使用 Google 和 DeepMind 技术，使用户能够在短短几句话内创建标志性的 AI** 创作工具。

GF]1F6E1[ GF][GF]fe0F[ GF] 该工具强调负责任的人工智能创新，通过公众参与和隐私保护来解决潜在问题，并保护原创艺术家的声音和风格。

gf]1f310[ gf] MusicFX 或许颠覆了行业，降低了创作门槛，但伴随着 AI 生成的内容，挑战了版权和原创性。

GoLinks 推出企业 AI 搜索引擎 GoSearchGoSearch是Golinks推出的人工智能搜索引擎，通过多模态搜索和AI核心技术为企业提供高效的信息检索体验，减轻员工认知负担，支持实时索引，兼容100多个数据源。

[AIBASE简介：]。

gf]1f680[ gf] gosearch发布：GoLinks的GoSearch旨在解决大型企业软件应用栈中信息泛滥的问题，提高工作效率，支持多模态搜索，如图片、截图、笔记、URL等。

GF]1F9E0[ GF] AI核心技术：GoSearch利用AI核心技术，不仅可以查找文档，还可以理解用户意图，提供信息汇总，减轻员工的认知负担，实现细致入微的索引。

GF]1F310[ GF] 综合搜索能力：GoSearch实时索引数据，兼容Google Workspace、Salesforce等100多个数据源，通过多模态搜索提供一体化的企业搜索体验，标志着企业搜索的一场革命。

[gf]1f468[/gf][gf]200d[/gf][gf]1f4bb[/gf][gf]1f4a1[/gf][gf]1f3af[/gf]聚焦开发人员阿里推出虚拟试穿技术装备任何人

阿里巴巴的Outfit Anyone虚拟试穿技术使用双流条件扩散模型对模型和服装数据进行处理，通过服装图像实现逼真的虚拟试穿效果，结合Animate Anyone的技术，轻松让任何角色的服装变化**。

项目地址：体验地址：

[AIBASE简介：]。

GF]1F457[ GF] 多功能试穿体验：服装任何人都使用双流条件扩散模型来处理模型、服装和文本提示，以获得逼真的虚拟试穿效果，包括处理各种古怪而独特的服装款式。

GF]1F465[ GF] 强大的泛化能力：该技术展示了对各种体型和动漫角色的泛化能力，支持不同生活背景和新动画角色的需求。

GF]1F3A5[ GF] Easy Costume Make**制作：结合Animate Anyone的技术，实现更丰富的试穿体验，用户可以轻松进行任何角色服装的更换**。

斯坦福中文提出了一个新一代的框架，Wonderjourney斯坦福华人研究人员推出的WonderJourney框架，通过一句话或一张图片生成连贯的3D场景，并整合语言模型和视觉模块，展现出无限的创作可能性。

项目**：

[AIBASE简介：]。

GF]1F310[ GF] 新框架设计：Wonderjourney 的模块化工具允许您从任何位置开始，从短文本或图像生成连贯的 3D 场景序列。

GF]1F3A8[ GF] 文本驱动创意：使用语言模型生成场景描述，使用视觉模块生成彩色点云，展现多元可控的旅程。

GF]1F680[ GF] 重要突破与应用：WonderJourney开创了3D场景生成领域，为用户提供了强大而灵活的工具，通过简单的输入创造丰富的3D视觉体验，为艺术、影视带来了新的可能性。

Microsoft推动压缩技术llmlinguaMicrosoft 推出了 llmlingua，它使用独特的粗细压缩技术来解决大型语言模型中长提示导致的计算效率问题，实现了高达 20 倍的压缩比。

项目**：

[AIBASE简介：]。

gf]1f504[ gf] 动态预算控制：llmlingua 采用动态预算控制，在大规模压缩下分配压缩比，保持提示的语义完整性。

GF]1F3AF[ GF] 标记级迭代压缩算法：引入标记级迭代压缩算法，实现复杂压缩，维护按键提示。

gf]1f504[ gf] 指令调整方法：提出一种基于指令调整的方法，以解决语言模型分布不一致的问题，提高小型语言模型与大型LLM的兼容性。

南洋理工大学（NTU）发布了 FreeInit，这是一种提高 AI 生成内容一致性的方法南洋理工大学（NTU）推出了一种名为FreeInit的方法，该方法通过优化推理初始噪声的时空低频分量，显著提高了AI生成内容的一致性，为AI创作和AI应用带来了新的可能性。

项目地址：

[AIBASE简介：]。

gf]1f4a1[ gf] freeinit 方法创新：对推理初始噪声的时空低频分量进行迭代优化，无需额外训练，显著提高了**生成的时空一致性。

gf]1f4bb[ gf] 隐式训练-推理差距揭示：研究了扩散模型的噪声初始化，发现了训练-推理差距，并提出了Freeinit来填补初始化差距，提高生成结果。

GF]1F680[ GF] 技术展望： Freeinit方法的发布为人工智能生成领域带来了新的突破，有望提高生成的质量和时间一致性，为未来的发展带来更多可能。

谷歌发布了开源头像库“有效”。Google AR&VR与佛罗里达大学合作发布了开源头像库“Valid”，这是一套代表七个不同种族的210个头像，旨在促进多样性和包容性。研究结果显示，对亚洲人、黑人和白人化身的看法一致，但其他种族之间存在认知模糊性。同质性偏见影响了化身识别，强调了参与者种族对研究的影响。该库是开放访问的，支持Unity和Unreal等游戏引擎，挑战刻板印象，并为虚拟形象的研究和应用提供多样化的视角。

项目**：

[AIBASE简介：]。

GF]1F310[ GF] 谷歌AR&VR和佛罗里达大学发布了一个名为“VALID”的头像库，其中包含代表七个不同种族的全套210个头像。

研究结果显示，不同种族的参与者对亚裔、黑人和白人的化身是一致的，但其他种族之间存在认知模糊性，同质性偏见影响了化身的识别。

GF]1F4DA[ GF] 开源的“有效”库支持 Unity 和 Unreal 等游戏引擎，挑战刻板印象，为虚拟角色的研究提供多样化的视角。

AI Vision、Google Gemini Pro 开通，文心一妍插件商城上线

相似文章

谷歌将推出 Gemini Pro，免费提供给云端客户，AI 技术突破或超出市场预期

AI Horizons Mistral AI 发布 87GB 开源 MoE 模型 Soul，并推出大模型 SoulX

谷歌最强AI模型Gemini正式发布了三个版本的多模态

谷歌发布AI模型双子座小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道擅长复杂主题推理，懂编程语言PKGPT 4

AI Vision、Google Gemini Pro 开通，文心一妍插件商城上线

相似文章

谷歌将推出 Gemini Pro，免费提供给云端客户，AI 技术突破或超出市场预期

AI Horizons Mistral AI 发布 87GB 开源 MoE 模型 Soul，并推出大模型 SoulX

谷歌最强AI模型Gemini正式发布了三个版本的多模态

谷歌发布AI模型双子座 小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道 擅长复杂主题推理，懂编程语言PKGPT 4

谷歌发布AI模型双子座小公主还没长大，就被逼出内阁

谷歌大型AI模型双子座出道擅长复杂主题推理，懂编程语言PKGPT 4