1.1.只有那些学会了如何学习和改变的人才能被称为受过教育的人。
1.1.1.卡尔·罗杰斯。
1.2.如果人工智能只是学习纯粹的理论游戏,从国际象棋和围棋到电脑游戏,结果已经很了不起了。
1.3.让大多数机器人玩堆叠游戏(用积木建造一座塔,慢慢地将积木从塔中拉出,然后在塔顶上建造)会导致混乱。
1.4.尽管机器人可以在模拟世界中使用监督学习进行训练,但现实的复杂性和可变性总是与虚拟环境的复杂性和可变性大不相同。
1.5.训练人工智能理解现实的正常方法是向它展示数百万个移除真实砖块的例子,无论是成功的还是失败的。
1.5.1.在现实世界中,这种方法需要很长时间,因为塔需要重建数百万次。
1.5.2.因为每块砖都有细微的不同,温度和湿度等不可避免的因素会以多种方式影响摩擦,所以机器人第一天学到的东西第二天可能就不适用了。
1.6.自学成才的机器人。
1.6.1.机器人学会分析任务,并对力和反馈做出判断,以决定下一步要采取什么行动。
2.1.在人工智能领域,自学通常被称为无监督学习。
2.1.1.人工智能被输入数据,然后它必须学习如何自己理解这些数据。
2.2.我们不妨把无监督学习看作是数学版的“喜欢聚集起来,人分成群体”。
2.2.1.Kassi Kozelkov,Google Cloud 首席决策工程师(2018 年)。
2.3.麻省理工学院的Nima Fazeri。
2.3.1.机械臂不是使用监督学习来训练人工智能,而是放置在塔前,让它边玩边学习。
2.3.2.只有通过推拉和亲自感受结果,机器人才能了解其行为将如何影响摇晃的塔。
2.3.3.经过大约300次尝试后,它将块分为几种不同的类型。
2.3.3.1.卡住的块(最好不要管它)。
2.3.3.2.松散的砖块(可以移除)。
2.3.4.贝叶斯人工智能实际上已经对问题有了“理解”,然后可以推广到所有未来的行动中。
2.4.用于改进工厂机器人。
2.4.1.使他们能够了解零件未正确卡入到位的感觉。
2.4.2.螺丝感觉没有正确拧紧。
2.5.当我们没有可用于教学的数据时,我们需要无监督学习。
2.5.1.因为访问数据是不可行的。
2.5.1.1.例如,围棋中可能的获胜策略。
2.5.2.因为数据根本不存在。
2.5.2.1.例如,在控制一个新机器人时,我们可能没有一个很好的解决方案先例,但如果机器人能够执行所需的功能,我们就会知道问题已经解决了。
2.6.无监督学习,如聚类,可以帮助我对我观察到的障碍物类型进行分类,但它也不能教我走哪条路。
2.6.1.我无法确定我必须做出的每一个选择的正确性(或我应该得分多少分)。
2.6.2.后一个决定的成功将取决于前一个决定。
2.7.有些可用于查找隐藏在数据中的重要变量或特征。
2.8.有些可用于识别模式或学习聚类。
2.9.有些人甚至可以自学一套行为策略,或自我监控。
2.10.虽然监督学习提供了一个清晰、可衡量的准确性概念,但在无监督学习中,当没有对错的例子可以比较时,人工智能的准确性可能更难提高。
2.11.人类和动物的大部分学习都是无监督学习,如果智力是小菜一碟,那么无监督学习就是蛋糕,监督学习是锦上添花,强化学习是锦上添花。我们知道如何制作糖霜和樱桃,但我们还不知道如何制作蛋糕体。
2.11.1.Likun Yang,Facebook首席人工智能科学家。
2.12.半监督学习。
2.12.1.监督学习和无监督学习的混合体。
3.1.聚类是最常用的无监督学习方法之一。
3.2.推荐系统寻找客户之间的相似之处,以便向他们推荐新产品。
3.3.推荐系统结合了来自数百万消费者的数据,以展示神奇的远见卓识。
3.3.1.协同过滤,并可能使用聚类算法,对个体进行分组。
4.1.它的发明者,芬兰教授Tver Kohonen。
4.1.1.也称为 Korhonen 网络。
4.2.自组织图谱松散地基于人脑处理感觉信息的方式,将“神经元”排列在网格状的图空间中。
4.3.当新数据被输入到自组织图中时,附近神经元的位置(或“权重”)会向网格中每个数据点的位置移动。
4.4.经过反复输入数据和调整神经元的过程后,自组织图会产生一组神经元,这些神经元近似于所有主要数据点的分布。
4.5.还行。
4.5.1.对新数据点进行分类。
4.5.2.它用于可视化现有数据中的不同类别。
5.1.它是由约翰·安德烈(John Andre)和唐纳德·米奇(Donald Mitch)等研究人员在20世纪60年代开创的。
5.2.这种巧妙的人工智能方法就像行为策略的优化器。
5.3.它估计给定情况下每个潜在行动的可能质量,并学习正确的行动链以产生预期的结果。
5.4.强化学习必须在探索(弄清楚该做什么并在此过程中犯很多错误)和应用(执行更多行动以带来更好的结果)之间取得平衡。
5.5.随着大规模计算能力的普及,强化学习的应用越来越多。
5.5.1.Salesforce已经在使用强化学习来对长文本文件进行总结。
5.5.2.摩根大通(JPMorgan Chase & Co.)开发了自己的交易机器人,以更有效地执行交易。
5.6.q 学习。
5.6.1.由克里斯·沃特金斯(Chris Watkins)于1989年发明。
5.6.2.一种流行的强化学习方法。
5.6.3.它的灵感来自动物和人类从经验中学习的过程。
5.6.4.通过正强化改善人工智能的行为。
5.6.5.类似于有限状态机的想法。
5.6.5.1.只不过强化学习算法不是由程序员设计的,而是由AI直接自行学习。
5.6.6.q 函数。
5.6.6.1.奖金价值。
5.6.6.2.它反馈给定情况下潜在行动(以及所有后续行动)的预期奖励,并且行动选择策略通过始终如一地选择一系列行动中的最佳行动来最大化总奖励。
5.6.6.3.引入深度学习:只要有足够的示例,这种 AI 方法就可以学习 q 函数。
5.6.6.4.补充卷积深度神经网络,您将获得一个 AI 系统,该系统可以观察和学习单个动作的奖励值,并选择要采取的最佳动作。
6.1.Jeffrey Hinton被公认为“深度学习教父”。
6.2.1986年,他与David Rumelhardt和Ronald Williams一起发表了一篇关于用于训练多层神经网络的反向传播学习算法的论文。
6.3.他指导过的许多博士生和博士后研究人员,如杨立坤、里奇·泽梅尔和布兰登·弗雷,都已成为机器学习领域的先驱。
6.4.Alex Kryshevsky 和 Ilya Sutskiv 是最早使用 AlexNet 在图像识别方面取得突破的研究人员之一,AlexNet 是一种利用图形处理器的卷积神经网络。
6.4.1.Hinton的博士生。
6.5.创造了许多其他听起来很深刻的技术。
6.5.1.玻尔兹曼机。
6.5.2.分布式表示。
6.5.3.延时神经网络。
6.5.4.混合专家。
6.5.5.亥姆霍兹机器。
6.5.6.专家产品体系。
6.5.7.胶囊神经网络。
7.1.有一种无监督学习,为了跟上不断变化的环境而不断学习,它的名字叫**学习。
7.2.如果你忽略了这些变化,只死板地应用你以前学过的规则,学习就会有问题。
7.3.通过学习算法,机器学习有可能跟踪不断变化的范式。
7.4.一些异常检测系统甚至以人类免疫系统的工作方式为模型。
7.4.1.计算机系统和人体本质上都面临着同样的问题。
7.4.2.每天,我们的免疫系统都必须区分我们自己的细胞(我们由数万亿个细胞组成,我们内脏器官中的细菌数量甚至更多)和试图侵入我们身体的病原体。
7.4.2.1.许多病原体可能是全新的,并且最近从其他病原体突变而来。
7.4.3.我们的免疫系统维持着一组不断变化的免疫细胞和抗体,其目标是只对那些异常的、不同的和可能有害的入侵者触发免疫反应。
7.4.4.应用于欺诈检测和机器人控制。
7.5.例。
7.5.1.Uber 在其移动应用程序中建立了一套规则:当乘车需求增加时,乘车**会自动增加。
7.5.2.2014年12月15-16日,悉尼。
7.5.2.1.悉尼人质危机的那一天。
7.5.2.2.一名枪手在一家咖啡馆劫持了18名人质。
7.5.2.3.在危机期间,几条街道被关闭,该地区对优步乘车的需求急剧增加,由于动态定价系统,触发了自动价格上涨。
7.5.3.该算法不知道额外需求背后的原因,所以它只是盲目地遵循它的规则,结果,它给 Uber 带来了非常负面的消息。
7.5.3.1.看起来他们正在利用一个可怕的事件来赚取黑钱。
7.5.3.2.优步随后退还了超额乘车费。
2月** 动态激励计划