作者丨李双双.
编辑丨海腰。
Assembly AI 由 Dylan Fox 于 2017 年底创立,致力于研究、训练和部署领先的语音 AI 模型,供开发人员和产品团队集成到他们的应用程序和服务中。 与国产“科大讯飞听力”类似,执行语音转录、内容审核、密钥提取等任务。
12 月 3 日,Assembly AI 宣布获得 5000 万美元 C 轮融资,以加速语音 AI 能力的增强。 本轮融资由 Accel 领投,知名投资者包括 Nat Friedman、Daniel Gross、Salesforce 前联席首席执行官 Keith Block、Insight Partners 和 Y Combinator。
根据Smartbeast分析数据显示,Assembly AI共进行6轮融资,总金额为1581亿美元,Accel已连续投出4轮,参与前几轮融资的知名投资者包括Stripe创始人John Collison、Smith Point、Technexus Venture Collaborative等。
Assembly AI 现在表示,与去年相比,其付费客户群增长了 200%,达到 4,000 个品牌,每天处理约 2500 万次 API 调用。
开发模型需要时间、金钱和计算能力,而小公司很难跟上,因此他们寻求 AI 即服务供应商的帮助,这些供应商负责创建模型的艰苦工作,并通过 API 收取访问费用。 Assembly AI就是这样一家公司,专门从事语音转录和文本分析服务,并享受了AI布局的红利。
根据 IDC** 的数据,到 2023 年,全球在“以人工智能为中心”的系统上的支出将达到 1540 亿美元,同比增长 26%9%,到 2026 年将超过 3000 亿美元。
今年10月,《麻省理工科技评论》对600家公司的调查发现,近一半的公司表示,未来一年在数据基础设施和人工智能方面的支出将增长25%以上。
“卷心菜价格”转录
Assembly AI旨在使开发人员能够使用他们的AI模型来构建AI产品来分析语音数据,该公司表示,目前有超过20万名开发人员使用该平台。 高级工程师 Afiz 在推特上写道:“在 Assembly AI 中使用 5 行 Python,您可以为文件生成字幕。 在用户页面中,用户可以选择不同的编程语言,通过官网简单的**引文写作,完成实时不同步语音转录、细化高光等功能。
据官网介绍,Assembly AI的三大核心产品分别是语音转录、智能音频和狐猴。
语音转录是Assembly的基础服务,其最新的自动语音识别AI模型是Conformer-2,该模型于7月发布。 据说该模型是使用 110 万小时的英语音频数据进行训练的。 在这里,Assembly AI 使用了一级方程式解说员对维斯塔潘在嘈杂环境中弯道超车的评估音频,与上一代 Conformer-1 专有名词相比,模型的错误率提高了 6%8%,字母数字识别率提高了 317%,抗噪性提高12%。
Assembly AI 的语音转录包括异步转录、同步转录、说话人分类、自定义词汇表、精确到单词的时间线、填充影响内容和亵渎过滤等功能。 目前,Assembly AI 支持 16 种中文语言的 ASR(自动语音识别),包括全球英语(包括带口音的英语)、西班牙语、法语和中文。
智能音频服务提供诸如总结语音、检测恶意内容、识别主题、提取见解等服务。
组装AI语音转写后,用户可以通过其摘要、关键词、自动章节等功能,对整体内容进行关键抽取。 用户可以选择不同风格和语气的摘要,还可以在不到1分钟的时间内得到识别记录中的关键词和重要概念。 其主题标签遵循标准的 IAB 内容分类法,以识别语音转录中的不同主题。
它将用户的数据安全需求与检测和分析相结合。 一方面,Assembly AI提供涉及暴力、恶意言论、社会敏感话题等内容的内容审核检测**,还可以检测每句话中人物的情绪。 另一方面,Assembly AI 可以通过语音自动识别个人和公司名称、地址、日期和位置。 用户可以启用 PII 编辑模型,将敏感个人信息(如姓名、电子邮件地址等)替换为“ ”,或创建 PII 编辑的音频,将敏感信息替换为哔哔声。
它的新框架狐猴在Conformer-2发布一周后发布。 据报道,用户可以通过 API 调用总结会议、生成见解和审查超过 100 小时音频的项目。 狐猴针对特定任务的精确度进行了优化,从简短的客户咨询电话到长播客,用户可以在其中提出问题并获得答案,或者他们可以输入自己的提示来生成输出。 此外,狐猴以用户给定的格式审查会议中的操作项,并将其分配给与会者。
目前,Assembly AI 允许免费用户使用和探索,每月限制为 5 次异步转录,上传 100M 文件。 除此之外,您需要支付大约 0 的语音转录订阅费用每小时 65 美元(约 4 美元。每小时6元),实时转录约0时薪$74,988 (约5.)每小时4元)。与国内同类软件相比,科大讯飞可听到约19个语音转录每小时8元,组装AI几乎是“白菜价”。
智能音频服务遵循从 0 开始的不同型号每小时 05 美元(约 0。每小时36元)到0每小时 3 美元(约 2 美元。每小时14元)。Lemur根据输入输出密码的数量定价,默认版本约为0017 USD k 代币(1 美分 k 代币),输出为 0$049 K 代币(3 美分 K 代币)。
2022 年 9 月,Assembly AI 推出了企业版产品,其中包含四个最大的用例:虚拟会议、虚拟会议和用户。 其主要客户包括华尔街**、Spotify、Grain、BBC、NBCniversal、VeeedIO、Dropbox、Runway 等。
除了知名报刊杂志、音频**用于语音转录外,小公司如流媒体**循环广告内容检测、呼叫跟踪平台呼叫轨道呼叫汇总、会议平台萤火虫AI的自动会议记录和业务管理平台CLARI的营业收入记录,都通过API称为狐猴。
Assembly AI 联合创始人兼 CEO Dylan Fox 在接受采访时表示:“实现低成本和高利用率极具挑战性,调用 Assembly AI API 的企业可以专注于构建新的 AI 产品、应用程序和业务,而不是专注于大模型开发和训练。 ”
dylan fox
从 10,000 小时到 10,000,000 小时
Dylan Fox 毕业于乔治华盛顿大学,在与朋友一起创业时学习了软件,这使他接触到了机器学习和 NLP。
在 2015 年第一次创业失败后,他在思科担任高级软件工程师,专门研究协作产品的机器学习。 同年推出的亚马逊语音助手Alexa风靡全球,导致许多公司对将语音驱动程序集成到其产品中感兴趣,思科也不例外,并开始寻找提供语音识别技术服务的公司。 自从他能够用声音向机器发出命令以来,迪伦就一直痴迷于语音识别。
Dylan 开始研究 ASR 的 API 示例,在这个过程中,Dylan 发现需要使用语音识别的项目使用的 AI 技术体验很差、过时,这些厂商的技术要么使用起来很复杂,要么没有 API。 Dylan举例解释道:“一个**商家给我发了一张CD,为了获得API,我需要与一群销售人员交谈。 ”
事实上,此时用于语音识别的机器学习方法在ASR的准确率上已经取得了突破,比如Microsoft的Cortana在2024年作为语音识别个人助理出现,识别错误率在6%左右,2024年3月,语音搜索被开放进行精准识别,谷歌的语音搜索也从2024年开始进行了多个版本的迭代。
由于技术先进,没有好的用例,Dylan注意到语音识别领域的许多市场空白。
2024年,美国云通信服务提供商Twilio在纽约证券交易所上市,根据财报,其毛利率自2024年以来一直保持在50%以上。
这让 Dylan 开始思考,“如果我们能利用最新的 AI 研究建立一个 Twilio 风格的 API 公司会怎样?”
2017 年,Dylan 独自参加了 Assembly AI 项目的夏季 Y Combinator。 在那里,他遇到了丹尼尔·格罗斯(Daniel Gross),“他完全理解我的意思,因为他也看到了ASR的市场。 丹尼尔·格罗斯(Daniel Gross)当时仍在苹果公司工作,后来成为Assembly AI的风险合伙人。 此外,曾在 Twilio 工作了 9 年的前内容生成器高级总监 Matthew Makai 也成为了 Assembly AI 的副总裁。
daniel gross
当他创业时,迪伦最常见的问题是,“你会中止一家拥有数千名员工的大公司,而你只有一个人吗?”
起初,Assembly AI 的第一批模型训练数据在 10000 小时左右,作为一家 AI 公司,迭代速度很慢。 Dylan 投入了大量精力来建立口碑,寻找需要使用 API 的潜在初创公司,并参加黑客马拉松以扬名立万。 在 Hacker News 上,Dylan 获得了第一批对 Assembly AI 的 API 感兴趣的用户。 目前,最新模型 Conformer-2 拥有超过 100 万小时的训练数据,Dylan 表示将为该模型发布 1000 万小时的训练数据。
Dylan坚信ASR具有巨大的市场潜力,这也是他前进的原因。 “尽管人工智能技术的实际准确性仍然令人困惑和困惑,但对它的需求仍然很大。 所以,我相信语音识别会有市场。 ”
市场机会是迪伦的“东风”。 2024年,受疫情影响,智能语音系统应用需求激增,大数据、多模识别、云服务等技术触及行业核心需求。 来自互联网的大数据、客户共享数据、客户非机密数据投入到装配式AI训练中。 同年 11 月,Accel、Daniel Gross、John Collison、Nat Friedman 等人向 Assembly AI 的天使轮投资了 5000 万美元。
有数百家初创公司正在使用 Assembly AI 的 API 来快速扩大用户群,例如 Call Rail,它使用 AI 让人们查询和了解企业可以变得更有效率,为全国数十万家小企业提供 AI 对话平台。
有分析人士指出,Assembly AI在2024年9月发布公告,向高端市场进军,但截至目前,Assembly AI尚未提供本地解决方案,以满足官网价目表中**或医疗机构的敏感数据处理需求。