年末,如果要总结2024年科技行业的大事件,人工智能几乎可以算是全年的主线之一。
从去年年底GPT-3通用语言模型出现“智慧涌现”,到今年年初,ChatGPT高调出圈;从如火如荼的“千模大战”到“所有企业都值得用人工智能重新做一遍”;从英伟达市值飙升,到OpenAI人事变动大戏......
然而,在过去的几十年里,这条AI赛道上一直没有IPO的锣花,只有漫长的荆棘路。
对于中国的人工智能人来说尤其如此。 由于错过了上世纪50年代全球人工智能的第一波浪潮,中国人工智能界没有明斯基、麦卡锡、司马和、费根鲍姆、辛顿等权威学者,但从上世纪70年代开始,我们迎头赶上,资源投入相对有限, 不仅在符号人工智能研究方面取得了世界级的成绩,而且赶上了神经网络研究的热潮,逐渐赶上了当今世界第二的位置。
在这个过程中,一个重大事件是国家“863”计划,在上世纪90年代,当全球人工智能陷入低谷时,“863-306”主题通过不断投入,在高性能计算机、智能接口、智能应用等方面取得了多项重大科研成果,为我国培养了一大批进入国际高科技前沿的计算机人才, 同时也成为曙光、汉旺、中科星图、科大讯飞、寒武纪等一大批高科技企业的源头。
近日出版的《中国人工智能简史(第一卷)》撰写于2024年至2024年,通过对当事人的大量访谈,以中国计算机学会人工智能与模式识别委员会、中国人工智能学会部分人员为主线,系统梳理了中国人工智能发展的早期源流, 并为想要了解和投身于当今人工智能领域的朋友们提供了一张难得的地图。
人工智能的发展是一个螺旋式的过程。 以史为鉴,可以帮助我们理解科研工作如何把握规律,不随波逐流,更好地应对这些挑战。 鹏城实验室主任、中国工程院院士高温在该书的序言中写道。
本文由科学界和工业界力量合著的《中国人工智能简史(第一卷)》。
1、Leifeng.com 创始人林军采访记录。
Science and Engineering Power:从你的角度告诉我们写这本书的背景和目的
林军:高温老师在序言中也提到,那是2024年的元旦,我和女儿在美国圣地亚哥的白沙滩上度假,突然收到老师的***,他说有一篇关于《中国人工智能史》的ppt,想问问我的意见。
我听了又听,发现画风不对劲,原来他是想骗我写。 我一热,就同意了。
几周后,我回到中国,在办公室采访了高温先生。 高总提出了一个想法,让我们开始对中国计算机学会人工智能与模式识别专业委员会和中国人工智能学会部分人员的采访。
中国计算机学会(CCF)是一级学会,其人工智能与模式识别委员会是与其他学会相当的二级学会,具有很大的影响力。 中国人工智能学会(AAI)最初并不是一个纯粹的人工智能学会,它也包括许多社会科学和哲学领域的学者,这在一定程度上导致了它们与计算机科学社会的某种程度的不相容。 随着时间的流逝,中国人工智能学会也逐渐转向了更加关注自然科学和工程领域的方向。
以这两所大学的人员和发展为线索,在一定程度上可以反映中国人工智能领域的发展历程,当然并不能完全涵盖所有在人工智能领域做出重要贡献的学者和机构。
随后我去了东北,拜访了中国自然语言领域的重要教师、哈尔滨工业大学老校长王凯柱和吉林大学王祥浩的学生刘大友。 当我回来时,我开始构思和准备写作。
但是这本书的出版时间很长,而且有点曲折,首先,因为我当时正专心致志地写《沸腾新10年》,而2024年,有疫情的影响,人工智能这个话题在当时的**圈里还不是热门话题, 而且出版社不是很热情,所以耽误了出版进度。但采访仍在继续。
到 2022 年底,ChatGPT 再次流行起来,我们加快了进度,并于 2023 年出版了第一卷。 目前,第二卷已经写完了一半,第三卷已经写完了30%,我们想在春节前完成第二卷,明年7月就能完成第三卷。
科学和工业力量:去年年底以来,大模型的进展有没有影响到你写第三卷?
林军:我们三本书的逻辑设计是,第一卷写学术渊源,厘清中国人工智能的源头在哪里,建国派的宗师是谁;第二卷是铺开叶子,更是书写教育者的故事,这个阶段正处于全球人工智能的低谷,大师们开始传下去**,这些学生现在大多是各大高校的校长,各大科研院所的院长,以及各个系统的带头人;在第三卷中,我们认为应该写过去和未来,谈谈人工智能产业化的进展,因为在2024年互联网兴起之后,开始出现算法推荐引擎、机器视觉、自动驾驶等产业应用。
我们的写作在 2021 年停滞不前的原因之一是我们发现完成这个系列有点困难。
彼时,虽然已经衍生出语音、语义、机器、安全、自动驾驶等各种应用场景,但这只是大家在AI产业化过程中对一些前沿应用的投入,资本市场也存在一定的高估和泡沫。
本来我们不知道该怎么结束,我们写不出一部产业史,最后写出了行业的鸡毛,而在2024年下半年,GPT出现了,我们最终可能会得到GPT模式带来的新型工业化。 同时,人工智能在过去两年中发展迅速,我们将为未来谱写新的篇章。
Science and Engineering Power:你在写作时设想了哪些类型的读者?
林军:同样,我们希望首先吸引人工智能的研究人员和从业者。
首先,核心读者应该是做研究的人,尤其是一些刚进入这个行业的年轻朋友,应该了解学术和学科的背景。 其次,我们想吸引人工智能从业者,帮助他们了解学术的发展,我们的目标基本上是这两类读者。
科学和工业力量:高温院士在序言中写道,人工智能在世界和中国几十年的发展是一个螺旋式前进的过程,现在人工智能火了,很多研究人员和从业者不知道历史,有很多似是而非,你怎么看这个问题?
林军:在过去的几十年里,人工智能并不是一门占主导地位的科学。
我学的是人工智能,专业是图像处理和模式识别,现在叫计算机视觉,其实我们毕业的时候很难找工作,一个方向是去公安局,因为有罪犯要抓拍辨;另一个方向是去空间系统,做数据传输和遥感,这些方向,合适的工作机会很少。
所以在我们看来,人工智能在行业中长期处于低谷。 我们已经完全经历了低谷和高潮,所以我们在低谷时不会那么悲观,在高潮时也不会那么乐观。
现在人工智能的炒作和宣传,有的来自科幻爱好者,他们更依赖想象力,但是我们来自计算机背景,我们还是要多谈这些事情在理论上和逻辑上是否可行,以及它们是否能成功。 目前,一些**热点与计算机本身无关,但大模型是算力提升的结果,这是可行的,尽管解释上还存在一些问题。
科幻作品《三体》我们认为,当前算力提升带来的人工智能高潮是又一波螺旋式上升,将给市场带来一批新的应用,吸引市场上新的研发投入,开发新的算力。 当然,在这个过程中也会有一些泡沫,算力本身的不断迭代也是一个周期性的过程,呈现出波浪式进步的特征。
现在有很多年轻人正在加入泡沫过程,这可能是有问题的。 我们相信,新技术提供的可能性永远不应被高估或低估。
科工强国:全书第8章、第15章重点讲述了“863-306工程”的故事,当时高温院士主导智能接口研究,李国杰院士主导“黎明”系列计算机,在全球人工智能的低谷中,中国人工智能的研究和产业化为何能加速赶超?
林军:诚然,在 863-306 项目的早期,我们确实想从日本“抄袭作业”。
上世纪90年代中期,日本大力推广第五代计算机,不仅加速了人工智能的追赶,而且在存储芯片上也大力下功夫。 于是,英特尔放弃了存储芯片的生产,将这项业务外包给台积电代工厂,这导致了自身芯片业务的重生。
一段时间以来,日本一直备受瞩目,而在中国,关于是指美国还是日本的争论不休。 当时国内很多人都倾向于日本路线,当时作为年轻人的高温和李国杰两位院士,在确定路线方面发挥了作用。
这是本书第八章的内容,当时高温正在日本留学,习人工智能,他给出的意见是日本的人工智能路线存在问题。 李国杰当时在美国普渡大学读书,对王凯、黄英杰等人非常熟悉,提供了大量关于美国的资料,也提出了自己的看法。
两者都采取了现实的做法,这导致中国选择了高性能计算(HPC)路线,即美国航线,而不是日本的五代机航线,这更符合中国国情,也将为中国的产业和应用层面带来更多的帮助,包括后期对科大讯飞的863-306项目的支持, 这是以后的故事了。
说到计算机和人工智能,有很多人沉浸在自己的业务中,但事实证明,在资源有限的情况下,哲学思维和战略方向很重要。
科工强:在2024年本书规划之前,2024年的alphago也掀起了一波人工智能热潮,你觉得当时的情况和现在相比怎么样,有什么异同?您也是从业者,您如何看待当前人工智能的投资环境?
林军:2024年,雷锋与中国计算机学会合作,打造了“全球人工智能与机器人大会”(GAIR),这或许是我个人对“6”年的形而上学迷恋,你看,2024年伊始是“iPhone时刻”;2024年,Microsoft发布了Windows 951986 年是第一台 386 计算机的发布,它是......PC的重要时刻
因此,我们认为,2024年的alphago事件是人工智能公域的一次突破,很可能标志着人工智能的重要时刻,其粉丝和投资先锋范围不大,一些投机者已经进入了这一领域。
2024年,ChatGPT出现,在行业发展了六年多的时候,第一批投机者被挤了出来,新的投研机构也加入了进来。
一旦成为一个行业,不太可能跌入新的低谷,我个人认为AI行业会在2024年左右达到高点,然后进入横盘整理趋势。
科工力量:目前国内有一些大型企业和国家队在对标GPT,但也有一些**认为国内水平还远远落后,你觉得客观评价如何?
林军:到今年年底,该国将能够达到GPT-3到明年年中,5的水平大概能赶上GPT-4的水平,这是目前比较客观统一的看法。
科工力量:如果这样追赶,差距是缩小还是扩大?
林军:在收缩。
我们有一个有趣的观察,我们曾经在硅谷遇到过王美红,王美红是当时Facebook最年轻的中国E9人才,后来担任快手的海外技术负责人。
王美红是全球第一个构建推荐引擎的人,他与我们分享了他的观察。
2012 年,他在 Facebook 上做推荐引擎,2014 年,他回国一次,当时国内大家都只听说过这些引擎,没人做;2024年回国时,他发现中国制造的推荐引擎已经不错看了;到2024年,他发现国内的推荐引擎比国外的推荐引擎做得更好。
从这个小例子可以看出,只要有驱动力,在应用创新方面,中国人是领先的,但在底层技术能力的创新上,确实不如美国人强。
美国人可以做安卓,中国人可以做微信,大概就是这个逻辑吧。
电视剧《硅谷》。科技实力和产业实力:国外人工智能具有先发优势和生态优势。 AlphaGo之前出圈了,现在ChatGPT出圈了,再加上英伟达的GPU芯片、CUDA工具链、TensorFlow和PyTorch的主流AI框架,大量的开发者,强大的英文语料库,成熟的资本和融资环境,共同构成了一个具有先发优势的强大AI生态。 面对这样的局面,中国企业该如何应对?
林军:这取决于我们如何定义“中国企业”。 如果所谓的“中国企业”是在中国创办的企业,只使用中国原创技术,在中国做生意,那么这样的讨论可能就没有必要了。 但是,如果你谈论的是中国领导的具有全球影响力的公司,那么就有很大的改变和讨论空间。
我举个简单的例子,在《数据安全法》出台后,字节跳动正在推动数据跨境流动的“第一例”。 此事的背景是,国内**内容量远大于美国,生态丰富度远强于美国,抖音上的数据量是抖音的10倍。
事实上,美国的顶级科技公司都是一样的,像英伟达这样的算力供应商也有强烈的冲动在中国市场销售产品。 这是一个有趣的话题,美国的巨头们也面临着国家地位和自身价值观之间的冲突,因为他们想做全球生意,尤其是支持全球化。
可口可乐、惠普、IBM、Microsoft、谷歌、Facebook、英伟达等全球巨头,已经超越了国与国之间的冲突,他们的业务遍布全球,只有20%-30%的业务在美国,而中国巨大的市场就在这里,他们想放弃就不能放弃。
在这个问题上我是乐观的,只要我们愿意坚持开放和沟通,以中国人的勤劳和智慧,就一定能够把世界的资源为己所用。
科学和产业力量:大模型需要如此多的算力,具有明显的基础设施特征,边际成本正在下降,并且有很强的规模效应。 国外发展的现状是,由跨国巨头或巨型联盟提供这样供全球使用的公共基础设施,像中国这样,是否需要一种新型的***体系与之竞争?
林军:超级计算机和算力网络无疑是国家的关键基础设施,其重要性甚至可以与核心**相提并论。
诚然,中国没有能力率先建设这个“核**”,但有可能在别人建设的时候,我们也会效仿核**,只要有通信和信息传递,就不可能阻止技术的扩散。
高温教授领导的鹏程实验室从一开始就围绕着为华为提供计算基础设施的使命而建立。 是科研目标与产业转化相结合的实验室,是一种新机制,传统高校可能更注重科研目标,而鹏城实验室也是以产业为导向,拥有自己的工程管理能力,集中了全国乃至世界最优秀的人才,可以说是“新一流体系”的代表。
高温院士,鹏程实验室主任科技与工程实力:中国人工智能发展既有高端人才的短板,又有大批优秀青年,如何看待这一局面?对于有兴趣在人工智能领域从事职业的年轻人,您有什么建议?
林军:首先,在人工智能方面,我国拥有全球最好的高等教育人才批量培养体系其次,中国缺乏大师,这是两个事实。
顺便说一句,与我们相反,美方有一个大师成长的体系,但在人才的大规模培养方面却没有。
这是有历史渊源的,世界人工智能在这波浪潮之前,有过两次起伏,中国的人工智能发展始于人工智能的第二波浪潮之初,所以它的诞生时间比世界水平晚了一个周期,这也是我们现在缺少高手的原因。
但是,中国在应用层面拥有独特的人才培养机制,现在也拥有了丰富的应用场景,这在世界上是独一无二的。 2024年前后,机器视觉(CV)四虎出现在中国,为什么它们首先出现在中国而不是美国?在这件事上,美国的劳动力成本非常高,而从2024年开始,中国培养了一批基础扎实、善于解决场景问题的人才,落地场景也更加丰富。
未来,算力将日益成为计算机领域的核心资源,算法将成为商业的新驱动力。 因此,中国人工智能从业者要想有所作为,我的建议是选择算力或算法的方向,年轻时出国,看看世界,在海外取得一定成绩后回国发展,这还是一条快速高效的路径。
《科学与工程力量》:这本书的写作过程中有什么遗憾吗?
林军:我们想说一些非常感伤的话。 在这本书的采访、编辑和出版过程中,一些年长的先生离开了我们。 在中国科技史上,通过我们的小小努力,我们留下了一些开拓者的珍贵史料。
附言在编纂《简史》期间去世的(老)先生们。
董振东他是中国著名的信息处理专家,CNKI的发明者。 他于2024年2月去世。
第 15 章“306 变得更好”提到了对机器翻译的相关贡献。
thomas huang中国计算机视觉大师,桃李遍布全球。 他于2024年4月去世。
第 6 章“计算机视觉”中有一个特殊部分。
刘旭华他是中国人工智能研究领域的先驱,吉林大学教授。 2024年,他脑溢血,进入植物人状态。 他于2024年5月去世。
第一章“符号主义与数学家”提到刘旭华作为王向浩的主要助手对早期人工智能的推广。
卞兆琪模式识别的先驱,《模式识别》教科书的作者。 他于2024年3月去世。
第3章讲模式识别,第7章讲清华人工智能研究。
徐空石计算机软件科学家,中国科学院软件研究所创始所长。 他于2024年9月去世。
第一章“中国达特茅斯会议”提到徐空石是2024年吉林大学CCF会议的小组成员第五章“计算理论的萌芽与计算语言学的兴起”,提到了许空石对马希文的帮助。
俞诗文他是计算语言学的先驱,曾任北京大学计算语言学研究所所长。 他于2024年11月去世。
第五章“计算理论的春天与计算语言学的兴起”中提到,马希文出国后主持了计算语言学研究所的工作。
刘凯英自然语言处理领域知名学者,山西大学教授。 他于2024年3月去世。
第5章,“计算理论的春天和计算语言学的兴起”。
李三丽中国工程院院士,清华大学计算机系原主任,国内微机结构学术带头人。 他于2024年3月去世。
第七章“清华大学的人工智能研究”,提到了清华大学人工智能早期建设所发挥的作用。
孙健他于2024年6月去世。
在第六章“计算机视觉”中,提到郑南宁时提到了孙健。
刘卓中国机器翻译的鼻祖,NLP的先驱。 他于2024年9月去世。
第5章,“计算理论的春天和计算语言学的兴起”。
杨叔叔机械工程专家,教育家,华中科技大学原校长。 他于2024年11月去世。
在第九章《机器人的曲折》中提到,杨树子作为学术带头人,在华中工学院(华中科技大学)为机器人领域做出了贡献。
涂旭彦他是自动控制与人工智能领域的著名科学家,中国人工智能学科的主要创始人,中国人工智能学会原理事长。 他于2024年3月去世。
第2章“中国人工智能学会的准备工作”和第4章“专家系统的井喷”都提到了屠呦呦的工作和在早期人工智能研究者群体中的突出地位。