苏黎世大学在基于视觉的自治系统方面的突破表明,通过使用先进的神经网络和机器学习算法,基于视觉的自主系统确实可以超越人类。
大多数自动驾驶仪解决方案通常使用雷达和摄像头的组合来使感知更加准确。 但是,这种方法存在许多缺点。 在他们的工作中,工程师们发现,在摄像头上增加额外的传感器,如雷达,会影响最终的分析速率和结果,冗长的程序**也会使驾驶系统不够“智能”。
此外,配备激光雷达的车辆越来越多,会相互干扰,影响检测精度雷达的观测值会不时变化,会带来一定的误差除此之外,当摄像头和激光雷达传输的信息发生冲突时,车机应该选择相信谁?“如果雷达与相机分析的信息相互矛盾选择智能驾驶系统将很困难。 最好只选一个,做到极致。
马斯克坚持要摆脱惯性思维,从第一性原理出发:道路是为生物神经网络和眼睛设计的,人没有类似雷达的器官,只有眼睛还能识别路上的交通,那么汽车也可以做到。 特斯拉前人工智能高级总监安德烈说:“。希望能够构建一个类似于动物视觉皮层的神经网络,以模拟大脑中信息输入和输出的过程。
就像光线进入视网膜一样,我们想用相机模拟这个过程。 可以看出,特斯拉致力于开发纯视觉自动驾驶系统,通过模拟人眼和大脑的结构和功能,可以实现比人类更高的驾驶性能。
事实上,早在 2020 年,特斯拉就宣布将放弃雷达,全面采用基于摄像头的自动驾驶系统。 彼时,业界仍存在诸多疑问,但随着算法和算力的进一步提升,纯视觉自动驾驶解决方案正在迅速实现突破,而苏黎世大学的研究更是进一步印证了这一点。
研究表明,通过模仿人眼视网膜的结构和大脑的视觉皮层,一个庞大的卷积神经网络不仅可以达到甚至超过人类在图像分类、物体检测等传统视觉任务中的性能水平并且可以将图像输入端到端地转换为驱动决策输出,完成整个自动驾驶感知和决策过程。
换句话说,这是一种人工智能解决方案,从输入到输出都高度模仿生物视觉系统。 输入端模拟眼部图像采集,中间端通过类似视觉皮层结构的卷积神经网络提取和理解特征,最后输出端直接生成驱动决策,无需传统的多传感器融合或规则引擎。
研究还表明,这种纯视觉系统可以进行快速准确的交通环境感知,包括目标检测、跟踪、运动估计等功能,感知的速度和质量甚至超过人类水平。 在驾驶模拟和道路测试中,它展示了强大而稳定的自动驾驶能力。
更重要的是,这个了解交通环境和做出驾驶决策的整个过程完全基于高效的神经网络深度学习算法,取代了过去低效繁琐的人工特征工程和规则集设计,并且完全可复制、可扩展、可持续。 这意味着,随着计算能力和数据集的增加,此类系统的驾驶性能将继续呈指数级增长。
尽管在繁忙的街道上,距离真正的商业化和应用还有一段距离,但纯视觉自动驾驶系统显然是最有前途的解决方案。 它具有高度仿生性,同时也是一种高效的深度学习解决方案,势必成为该领域发展的主流和趋势。 特斯拉正在顺势而为,全力推进这一战略,相信会率先成功。
苏黎世大学的研究是在这个过程中迸发出来的一项关键突破性技术。 它在系统设计和实际结果方面都显示出令人惊讶的能力,证实了纯视觉系统在自动驾驶方面超越人类的巨大潜力。 相信在不久的将来,这样的系统将改变交通和流动性的面貌,造福人类社会。