让郭德纲在英文中一飞冲天,让霉菌会说中文的翻译**生成工具,和掀起AI号号照热潮的“苗鸭相机”,在疯狂刷屏后迅速消失在各大群中。
10月,海根**出品的各类明星跨语翻译在全网疯传,众人被AIGC地道的中英文表达所震撼,完全没有翻译电影的音色,生动的音色还原,高度对齐的唇音,让很多人纷纷表示“我真的害怕”“配音演员要丢工作了”, ......
太阳底下没有新鲜事,这种现象级的AIGC应用也逃不掉“快速衰败”的命运。
如今,在我所在的LLM大模型讨论组里,偶尔会有人发一个中英文翻译**,但根本没有人讨论,大多数人可能连点开都不感兴趣。
大众的新鲜感很快就会过去,“明星翻译片”只有看戏的娱乐属性,而不是高频刚需。
今年,大型模型无疑是全球最大的热点。 然而,最终在商业市场上站稳脚跟的大型模型的应用仍然稀缺。
明明已经是“百款争美”了,为什么只有少数几个现象级的应用被成功产品化?
而为什么这些产品成熟、人气不小的热门AIGC应用,还不能将流量转化为持久的经济效益,商业化依然是迷雾?
本文希望从“AI翻译与生产”这个小切口,来看看大模型的产品化条件和商业化神话。
一夜之间走红是产品化的胜利
首先需要明确的是,不管是苗雅还是海根,AIGC应用一夜之间走红,对于大模特行业来说,绝对是一件利好的事情。
大模型只是一种基础技术,相当于钢铁,而大模型制造商相当于钢厂,需要有人设计出洗衣机、跑步机、微波炉等特定产品,让新技术为人们所用。
而海根一夜热红,更是产品化的胜利。
从技术原理上看,跨语言翻译制作并不是什么新鲜事,业内已经有不少科技公司、影视公司、后期制作公司探索并推出了专业级工具平台。
简单来说,就是TTS(Text to Speech)技术的升级版。 利用大语言模型将文本翻译得更真实,然后对声音空间进行更好的建模,并训练跨语言迁移TTS模型,使风格迁移、音色迁移、情感迁移更加鲁棒,合成后的语音更加自然和还原。
该技术的特点是效率高,整个翻译过程完全自动化,可以批量生成翻译**。 然而,在自然和表现细节方面,它仍然不如真人配音演员的演绎那么细腻和有创意。
综上所述,Heygen背后的技术原理并不是一个排他性的作弊。
它之所以受欢迎,是其极高的产品化能力。
一般来说,人工智能技术的产品化要经历三个步骤:
第 1 步:选择一个工具。
工具是开发人员喜欢花很多时间争论的话题。 Heygen的工具选择更加务实,甚至看起来特别“白”,即头部闭源模式+开源“礼包”。
有网友捡到,heygen使用whisper将语音转换为文本,GPT4(目前未开源)进行文本翻译,语音克隆+用so-vits-svc生成音频,最后geneface++将翻译后的声音与说话者的唇部动作同步。
自从大模型热潮以来,我们看到很多开发者在衡量和选择“最好”的大模型,市面上有各种不同的基座模型厂商,提供类似的竞争服务,开发者几乎不可能找到绝对意义上最好的工具。 这些底层工具,如基座模型、编程语言等,可能会发生变化。 选择一个比较好的工具组合,然后快速开发demo,验证思路,迭代升级,是开发者最需要做的事情。
第 2 步:原型设计。
Heygen 选择的工具,无论是 GPT4 API 还是开源模型,都相对容易获得,但大多数普通人并没有从搜索 GitHub 存储库和处理软件错误中获得太多乐趣。
以跨语言翻译为例,涉及到多模态内容的翻译,包括语音、文本和**,在字幕翻译、语音合成、智能配音等方面,目前有较好的自动化,但多模态功能的集成,实现端到端的一键翻译产品并不常见。
因此,海根构建了一个简单易用的访问界面,通过集成多种模型、多种工具,降低了翻译门槛,用户只需上传初始**选择目标语言一键输出,即可高枕无忧等待声音克隆完成。
Heygen的核心价值在于,非技术用户不必纠结大量的技术细节,不需要安装超过n个额外的工具,可以与多个模型进行交互,完成很多复杂的事情,如转录、翻译、配音、图像处理、音图同步等,并轻松进行高维、 交互式内容创建。
第 3 步:商业化。
名人与名人**的跨语言翻译精彩纷呈,但只是一个用例,只能停留在C端用户模因中,涉及自然人的声音、肖像等版权问题,无法大规模普及和商业化。 因此,虽然明星配音片给海根带来了人气,但海根要想把产品推向市场,充分发挥其价值,还需要更有说服力的产品力。
从海根官网可以看出,数字人+跨语言翻译**是海根的核心产品优势,给出了跨境电商营销**、跨语言品牌推广、教师制作教学**、社交**粉丝吸引、生日婚礼等纪念日难忘个人**等一系列落地场景。
在此基础上,Heygen允许数字人跨语言翻译**,这可以通过自动化装配线进行。
用户可以上传自己的**进行个性化的图片定制,也可以从HEYGEN提供的数字人体素材和模板中进行选择,然后输入脚本后即可生成所需的多语言**。
至此,海根已经成功完成了AI翻译向产品的转化,从而取得了巨大的成功,形成了“多年无人问翻译,一旦海根向世界知道”的局面。
从AI摄影到AI翻译电影的爆火,人们一再阐述,产品化是连接过去和未来不可或缺的一步,怎么强调都不为过。
可以肯定地说,无法完成从技术到原型再到产品的过渡,将是许多大模型投资回报率低的主要原因,也是许多AI创业项目失败的原因之一。
难以逃脱“快速衰败”的命运和商业化的诅咒
然而,即使有了如此成功的产品化,海根还是再次重复了《奇妙鸭子》前辈的故事,在访问量急剧增加后,它很快就从各大群体中消失了。
公有领域流量的潮起潮落,似乎是流行的AIGC应用的共同命运。
对此,有人认为海根是在“默默发财”。 虽然猎手已经散去,但剩下的用户仍然为海根的收入增长做出了贡献,海根已经连续九个月环比增长超过50%。 创始人Joshua Xu也在社交**上公布了相关数据,在短短7个月的时间里,ARR的年度经常性收入就达到了100万美元。
那么问题来了,Heygen的商业化潜力是否可持续?
我们认为,HEYGEN将面临的商业化挑战仍然非常大。
首先,技术工具不能被垄断,单靠多模态AI无法构建商业模式。
凭借大模型强大的多模态和理解能力,Heygen使跨语言翻译制作达到了传统AI翻译无法企及的水平,这是一项非常强大的工作。 但大模型,如C++和数据库,只是一种新的技术工具,不能被垄断。 Heygen 使用的开源工具具有高度可访问性,并且闭源 API 对客户开放,因此仅凭底层工具无法建立商业模式和竞争壁垒。
产品创意和交互界面的开发门槛不高,大量的科技公司和个人开发者可以轻易的复制和优化升级,产品可能只能一夜之间被超越。
现在点击海外科技**的报告页面,你会看到一个类似Heygen(原Movio)的**生成工具,列表多达95个。 可以说,Heygen提供了一个有价值的AIGC用例,但很快就开启了激烈的竞争,这对其后续收入的持续增长构成了巨大威胁。
其次,C端支付刚性,B端行业壁垒较深,收入增长曲线将放缓。
目前,海根的营收主要依靠C端客户的支付。 免费版只支持一个免费积分字幕,明明只用于玩票,最低的创作者(creator)付费文件也是每月24美元,虽然对于个人博主来说并不算太贵,但随着大量同质化产品**的“内卷化”,未来也将面临低性价比的困境。
虽然企业用户支付能力强,接受度高,但跨语言翻译的技术要求较为复杂。 海根商业版的客户大多是电商营销广告、语言学习数字人、多语种新闻播报、翻译电影等,对翻译质量会提出更细粒度的要求,比如文本翻译的长度,要尽可能贴近目标语言,以保持口语的一致性。 此外,不同人说话的节奏不同,停顿和重音的位置必须对齐,才能高度还原个人风格。
再比如,当老人和孩子说同一段文字时,由于字样不同,词语和句子要不同,翻译后的文字和语音需要与字对齐。
在跨语言翻译中,还有很多文化细节需要强力把控,其中很多仍然需要人工翻译来完成。 毕竟商业场景不同于娱乐场景,容易出现跨语言歧义,一旦出现1%的错误,99%正确完成的工作就可能白费,在海外市场面临丢单甚至合规的风险。
因此,企业用户需要精密、高质量、高可控性的产品。 这就要求厂商在数据方面有独家的、高质量的数据积累,尤其是小语言等小样本数据。 模特培训、强大的行业知识等,必须长期积累和迭代,才能达到专业译员的水平。
目前,一些AI公司已经推出了TOB产品解决方案,以满足高质量翻译的需求,训练跨语言语音转换模型,采集配音演员的口型,手动控制,然后通过VC模型生成配音结果,比TTS模型更具表现力,保留更多细节。
目前,国内AI巨头对B端市场高度重视,资源充足,在机器翻译TTS和多模态AI技术方面有深厚的积累,可能是海根业务用户的有力竞争者。
大模式的产品创新风口才刚刚起步,要保持商业化的优势地位,如逆流而上,不能掉以轻心。
热门APP“速生快衰”,大模型的商业神话
2022 年 11 月 30 日,ChatGPT 问世,刚过一周年,这股大语言模型的热潮席卷了其中的所有人。 也许有人是无知和无意识的,但他们也注定要被挡在外。
在过去的一年里,经常出现苗雅相机、黑根等热门应用,纷纷在社交媒体上刷屏**。 这证明了几件事:
1.大模型是条件,而不是结果。 那些使用这些新工具创造新产品的人将在新时代获得无限的机会。
2.基础设施是一个问题,但不是问题。 说到大机型,业界总会担心算力卡的局限性和国产大机型能力的差距,但悲观者是对的,乐观者是前进的。 事实上,计算基础设施、开发工具和基座模型都不是也不应该成为当今应用程序开发人员的障碍。
业内有人曾表示,只要国产卡达到N卡性能的60%,用户就会买单。 而有开发者告诉我,文心一颜、科大讯飞星火等国产大模型的密集使用,确实可以称得上GPT 35-Turbo,功能调用、稳定性等非基本能力也非常出色。 苗雅、海根也是中国企业开发的,行动比洞察更重要。
3.商品化是大模型商品化的必要条件。 通用模型和行业模型那么多,但是没有大量的产品化成果,就无法转化为使用价值和经济效益。 “改变世界”不是大模型,而是各种产品,无数的黑根,帮助开发者完成从原型设计到产品化的转变,降低试错成本,将是下一个大模型厂商最重要的行动。
4.建立业务壁垒的是刚性需求场景+强大的业务知识数据+软件工程。 海根的商业化挑战表明,大模型不是壁垒,产品不是壁垒,易于复制。 能够根据具体场景需求,深入挖掘、快速开发、快速迭代优化大规模软件工程的行业知识数据、流程控制、降本增效,符合AI技术的特点,是商业化的保障。
几位大规模行业应用的开发者告诉我一件事:先找到场景,再优化产品和服务。 也就是说,首先考虑商业变现的路线,确保你的壁垒已经达到,然后扎扎实实地做产品,这样你就不会慌乱。
例如,TOC的B&B大模型解决了旅行者入住B&B时,管家参与得太深,没有边界感,过度打扰的问题管家的介入太浅,缺乏及时解决问题的服务价值感。 基于大模型的语音交互助手,起到了很好的乘客和管家之间的缓冲桥梁作用,让服务恰到好处。 旅行者在当地的餐饮、游玩、购物等活动也以“住”为中心,通过寄宿家庭模式提供优质可靠的推荐服务,也带来了业务转化的潜力。
一位TOB金融模型应用开发者也表示,企业组织内部的多样化需求,是无法用通用的、标准化的软件产品来承载的,所以TOB模型创业不仅要做业务分析和咨询,还要做软件开发和编写,才能真正服务客户。 AI软件开发的流程化和自动化对于控制成本非常重要,每个项目都不可能被一群医生“搓”一手
对业务和场景的深刻洞察,对行业和客户的了解,比掌握算法和技术要困难得多,也是开发者最应该关注的核心竞争力。
最后,我想说的是,虽然大模型已经很受欢迎了,但不要担心“泡泡”和“追高”,这才是开始。
根据一家国际咨询机构的调查报告,目前有65%的受访者偶尔或很少使用生成式人工智能,而约90%的受访者认为人工智能应该“经常或总是”使用。
换句话说,机器习和生成式AI(Gen AI)的接受度很高,但实际渗透率并不高。 妙雅、海根等现象级的一代AI产品无疑迈出了一大步,仅靠它们还远远不够。
流行的AIGC应用只是AI和大模型价值潜力的一小部分。 目前还没有一个长期运行的商业模式,这恰恰说明在科技新大陆,着陆者和建设者还有很大的发挥空间。