由机器之心报告。
编辑:杜薇
从大量数据中学习的能力终于超出了人们的想象。OpenAI推出生成模型SORA已经一周了,热度不减,作者团队不断发布吸睛**。 例如,一群喜欢冒险的小狗探索天空废墟的电影预告片,Sora 一次性生成并自己进行剪辑。
当然,生动逼真的AI**让人好奇,为什么OpenAI是第一个构建SORA并能够运行所有AGI技术栈的公司。 这个问题在社交上引发了热烈的讨论。
其中,在知乎的一篇文章中,加州大学伯克利分校计算机科学博士,作者@siyZ 分析了 OpenAI 的一些成功方块,他认为 OpenAI 的方块是通往 AGI 的途径,而这个方块建立在几个重要的公理之上,包括苦涩的教训、扩展定律和新兴属性。
知乎原文:苦涩的教训来自机器学习先驱里奇·萨顿(Rich Sutton)在2019年的一篇经典文章《苦涩的教训》,通过人工智能近几十年来走过的弯路,他抛出的核心观点是:如果人工智能想要长期改进,使用强大的算力才是王道。 这里的计算能力意味着大量的训练数据和大型模型。
原文链接:因此,作者@siyZ认为,从某种意义上说,以强大的算力支撑的通用AI算法是AGI路径的王者,也是AI技术真正进步的方向。 大模型、大算力、大数据,《苦涩的教训》构成了AGI的必要条件。 结合缩放律的充分条件,该算法可以使大模型、大算力和大数据得到更好的结果。
无独有偶,本周走红的OpenAI研究员Jason Wei,在日常工作日程中也提到了Rich Sutton的《苦涩的一课》。 可以看出,很多业内人士都把《苦涩的一课》当成了指导方针。
与此同时,在另一个关于大型语言模型(LLM)是否可以作为其自身结果的验证器的讨论中,有人认为LLMs根本不够准确,无法验证自己的结果,并且会导致性能更差(以API为代价)。
另一位Twitter用户在20多年前的Rich Sutton的博客文章中对这一观点做出了重要发现。
原文链接:博客是这么说的:
考虑到任何人工智能系统及其所拥有的知识,它可能是一个专家系统,也可能是像CYC这样的大型数据库。 或者它可能是一个熟悉建筑物布局的机器人,或者知道如何在各种情况下做出反应。 在所有这些情况下,我们可以问人工智能系统是否可以验证自己的知识,或者它是否需要人工干预来检测错误和不可预见的交互,并纠正它们。 在后一种情况下,我们将永远无法建立一个真正庞大的知识体系。 它们总是脆弱和不可靠的,规模仅限于人们可以监控和理解的范围。出乎意料的是,里奇·萨顿(Rich Sutton)回复说,这篇写了一半的博文是《苦涩的一课》的原型。
事实上,在OpenAI发布SORA后不久,很多人就意识到《苦涩的教训》发挥了重要作用。
其他人则将《苦涩的一课》与《变形金刚》一起观看**注意力就是你所需要的。
在文章的最后,我们回顾了里奇·萨顿(Rich Sutton)的《苦涩的教训》的全文。
人工智能研究的70年历史告诉我们,利用计算能力的一般方法最终是最有效的。 摩尔定律(Moore's Law)可以解释这一点,摩尔定律对每单位计算成本持续呈指数下降的概括。 许多人工智能研究都是假设智能体可用的计算是恒定的(在这种情况下,利用人类知识是提高性能的唯一方法),但是,我们将不可避免地需要在比典型研究项目稍长的时间尺度上进行大量计算。
为了在短期内进行改进,研究人员需要利用人类知识的专业领域。 但从长远来看,如果你想提高,使用计算能力是王道。 这两者不应该是对立的,但它们经常是对立的。 花时间研究一个,而忽略了另一个。 利用人类知识的方法很容易复杂,因此不太适合利用计算的方法。 有很多例子表明,人工智能研究人员认识到这些教训为时已晚,因此值得回顾一些突出的例子。
在计算机国际象棋中,1997年击败世界冠军卡斯帕罗夫的方法是基于大量的深度搜索。 当时,大多数人工智能计算机国际象棋研究人员都沮丧地发现了这一点,他们的方法是利用对人类物体国际象棋特殊结构的理解。 当这种使用硬件和软件的更简单的、基于搜索的方法被证明更有效时,这些基于人类知识的国际象棋研究人员拒绝承认失败。 他们认为,虽然这种蛮力搜索方法这次获胜,但它不是一种通用的策略,无论如何它都不是人类下棋的方式。 这些研究人员希望基于人类输入的方法能够获胜,但结果令人失望。
仅仅在20年后,计算机围棋的研究进展也有类似的模式。 最初,研究人员试图利用人类知识或游戏的特殊性来避免搜索,但所有的努力都被证明是无用的,因为搜索被有效地大规模应用。 使用自我游戏来学习价值函数也很重要(就像在许多其他游戏甚至国际象棋中一样,尽管它在 1997 年第一次战胜世界冠军时几乎没有起到什么作用)。 通过自我游戏和一般学习来学习有点像搜索,因为它需要大量的计算。 搜索和学习是人工智能研究中利用大量计算的两项最重要的技术。 在计算机围棋中,就像在计算机国际象棋中一样,研究人员最初希望通过人类的理解来实现他们的目标(这样就没有太多的搜索),后来才通过搜索和学习取得了巨大的成功。
在语音识别领域,早在上世纪70年代,DARPA就赞助了一场比赛。 参赛者利用许多特殊的方式来利用人类知识:文字、因素和人类声音等。 另一方面,也有人利用基于隐马尔可夫模型的新方法,这些方法本质上更具统计性,计算量更大。 同样,统计方法胜过基于人类知识的方法。 这导致了自然语言处理领域的重大变化,在过去的几十年里,统计和计算逐渐占据主导地位。 最近语音识别中深度学习的兴起是朝着这个方向迈出的最新一步。
深度学习方法对人类知识的依赖更少,使用更多的计算,并伴随着从大型训练集中学习,从而产生更好的语音识别系统。 就像在游戏中一样,研究人员总是试图让系统按照他们的想法工作——他们试图将知识放入系统中——但事实证明,最终结果往往适得其反,浪费了研究人员的时间。 但是有了摩尔定律,研究人员可以进行大量的计算,并找到一种有效使用它们的方法。
计算机视觉领域也存在类似的模式。 早期的方法认为,视觉是搜索边缘、广义圆柱体或依赖于 SIFT 特征。 但今天,所有这些方法都被放弃了。 现代深度学习神经网络可以仅使用卷积和一些不变性的概念来获得更好的结果。
这是一个非常大的教训。 因为我们仍然在犯同样的错误,所以我们仍然没有对人工智能领域有透彻的了解。 为了看到这一点并有效地避免重蹈覆辙,我们必须了解为什么这些错误会让我们误入歧途。 我们必须吸取惨痛的教训,从长远来看,坚持我们的心态是行不通的。 惨痛的教训基于以下历史观察:
人工智能研究人员经常试图在自己的代理中构建知识,这在短期内通常是有帮助和令人满意的,但从长远来看,它可能会阻碍甚至抑制进一步的发展,而突破最终可能导致相反的方法——基于基于大规模计算的搜索和学习。 最终的成功往往伴随着一丝苦涩,无法完全消化,因为这种成功不是通过讨人喜欢的、以人为本的方法实现的。
我们应该从艰难的经历中学到的一件事是,通用方法非常强大,并且随着计算能力的提高,即使可用的计算变得非常大,它们也会继续扩展。 搜索和学习似乎只是以这种方式随意扩展的两种方式。
Richard S.,强化学习教父萨顿目前是加拿大阿尔伯塔大学的教授。
我们从惨痛的教训中学到的第二个共同点是,意识的实际内容是极其复杂的; 我們不應該嘗試用簡單的方式思考意識的內容,例如思考空間、物體、多個代理或對稱性。 所有这些都是任意的、固有的复杂外部世界的一部分。
它们不应该是固有的,其原因是复杂性是无穷无尽的; 相反,我们应该只构建能够发现和捕获这种任意复杂性的元方法。 这些方法的关键是它们能够找到很好的近似值,但对它们的搜索应该通过我们的方法完成,而不是由我们自己完成。
我们希望人工智能代理能够像我们一样发现新事物,而不是重新发现我们发现的东西。 建立在我们发现的基础上,只会让我们更难看到发现过程的完成程度。