如果有一款小于你手掌大小的设备,你可以用这个设备随时随地记录你周围的声音,并能将它们转换成文本与大型语言模型进行交流,那么你会考虑买一个吗? 那如果我再告诉你,你甚至可以自己手工制作这样的设备,成本甚至不到100美元。
是的,这相当于用手揉搓 AI PIN 码。
Adam C.,英国首个法医调查平台Cado首席执行官h.发布一个**,说明他只用了一块Coral AI微开发板和开发板可选的蓝牙模块来制作语音采集器,Adam称这款设备为“ADEUS”。 这个词在西班牙语中的意思是再见,在这个设备中,它的意思是“告别网络和监管”,指的是互联网公司无法通过设备收集用户的个人隐私。
从上图可以看出,该板包含一个摄像头和一个麦克风,MCU(微控制器)称为 NXP IMX RT1176 基于 ARM 架构,使用两个处理器,Cortex-M4 和 Cortex-M7。 坦率地说,这两款处理器都是 Cortex 系列中的低端处理器,并没有提供太多的计算能力。
说到这里,你可能会想“啊,这不是胡说八道吗,这个坏了的MCU就够了”。 这么说,就意味着你在问重点,让我们把重点放在看起来与其他芯片明显不同的芯片上,上面刻着大大的“珊瑚”标志。 这是一个 CORAL AI EDGE TPU 协处理器,提供 4 个顶部(数据结构为 INT8)的计算能力。 TPU是谷歌提出的一个概念,全称是张量处理单元,是专门为深度学习和机器学习任务而设计的。
Coral AI Edge TPU不是另一种TPU,它被称为“Edge TPU”,意思是边缘TPU。 它的兼容性和性能远不如TPU,但它具有低功耗和小尺寸。 当然,每个神经网络模型都有不同的性能要求,面对像 Adam C 这样的东西h.安装在 Adeus 中的这个开源模型通常性能不会太差。
那么剩下的就很容易了,亚当 Ch.我在网上找到了一个开源的AI语音转文本软件,将ADEUS连接到电脑上,最后进行了安装,一切都完成了。 如果需要,可以为开发板的摄像头安装开源的 AI 软件,例如识别人脸、物体等。 看到这里你应该明白了,现在做电子产品的逻辑是,整个过程都依赖于人工智能,所有组件都服务于人工智能,只要硬件算力到位,功能最终就能实现。
如果不使用人工智能技术,就很难恢复“录音和转换文本”的过程。 您需要的第一件事是可以拾取声音的模块,通常是麦克风。 但是,麦克风捕获的声音是模拟信号,因此要捕获的模拟信号可能需要经过一些前处理,例如滤波、放大等,以确保质量和适应性,并且每一步都需要芯片。
最重要的事情来了,它将模拟信号转换为数字信号,以便芯片可以进行数字信号处理。 下一步是处理数字信号,例如降噪和特征提取,以准备输入到语音识别引擎。 在通过语音识别引擎传递这些数字信号后,需要将转录的文本输出到合适的存储设备或通过通信接口发送。
如果你比较一下,你会发现“原来人工智能可以节省很多东西! ”
说实话,100美元还是有点太高了。 所以亚当 Ch.未来,Raspberry Pi Zero将用于制造Adeus。
Raspberry Pi Zero也不例外,聊天应用Squad的首席技术官Ethan Sutin也有类似的想法,但他想要的是随时随地与大型语言模型进行交流。 于是他利用苹果的M1芯片,结合OpenAI的Whisper技术,制作了一款可以“揣在口袋里”的Chat GPT3。5。
Apple 的 M1 芯片和麦克风阵列 Whisper 是用于自动语音识别 (ASR) 和语音翻译的预训练模型。 Whisper 的理论基于 OpenAI 的 Alec Radford 等人的“通过大规模弱监督进行鲁棒语音识别”。 Whisper 模型在近 700,000 小时的标记数据上进行了训练,展示了其有效泛化的能力,而无需对许多数据集和域进行微调。
这个设备上没有开关,所以如何激活Whisper也需要人工智能的帮助。 Ethan 使用 Silero,即声音活动检测 (VAD),并选择它,主要是因为 Silero 使用的模型,JIT,它只需要 1MB 字节的大小,而便携式设备最缺乏的就是容量。
在了解了这两个关键之后,你会发现 Ethan 的方法比 Adam C 的方法更好h.很简单,该设备使用 silero 来识别是否有声音传到麦克风,然后使用耳语模型将声音转录为文本。 通过手机将转录后的文本输入到大语言模型中,最终获得大语言模型的反馈,从而实现随时随地与大语言模型的交流。 所以从本质上讲,他也在利用人工智能来制造硬件。 苹果的 M1 芯片**售价约为 40 美元,换句话说,它比 Coral AI 便宜很多。
苹果M1芯片OpenAI首席执行官Sam Altman表示,现在有一家市值10亿美元的公司,只有一名员工,其核心竞争力是人工智能。
未来,尤其是在智能穿戴领域,很有可能成为一种“需要什么功能,准备多少计算资源”。 例如,他们之所以为上述两款设备选择树莓派和苹果M1芯片,就是因为这两款设备提供的内存、显存和算力满足了需求。 一般来说,GPU的内存主要用于存储模型参数,计算中间结果,以及对模型优化进行相关操作。 系统的内存主要用于存储训练数据、模型参数和一些运行时数据。 在训练大型深度学习模型时,必须确保系统内存和视频内存足够大,以容纳数据和模型参数。
树莓派 我们可以简单地将这种硬件趋势简化为一句话:道生一,一生二,二生三,三生万物。 这些伟大发明家的本质不在于他们拥有多么精湛的工艺,而在于他们如何巧妙地将人工智能融入到硬件产品中。 未来,随着技术的不断进步和创新,我们有望迎来智能设备生产成本大幅降低的时代。 届时,各种先进的传感器、微处理器和人工智能组件将变得更加平易近人,让手工艺爱好者甚至普通大众都能以相对较低的成本制作出自己功能丰富的智能硬件产品。 在开源社区的支持和共享经济的发展下,制作智能设备所需的软件资源和技术教程也将变得触手可及,进一步降低进入门槛。