今天分享AI大模型系列深度研究报告:AI大模型专题:2024年AI大模型及应用报告
报告制作人:徐福昌)。
报告总计:51页。
专题报告**:人工智能学院
注意力机制实际上来自于人们处理外部信息的能力。 因为人们在任何时候接收到的信息都是无比庞大和复杂的,远远超过了人脑的处理能力,所以人们在处理信息时,会关注需要注意的信息,并过滤其他无关紧要的外部信息,这就是所谓的注意力机制。
引起注意的方式可以分为两类,一类是非自愿提示,另一类是自愿提示。 其中,非自愿线索是指由客体本身的突出特征引起的注意倾向,自主线索是指先验知识以先验权重干预客体而引起的注意倾向。 换言之,可以理解为非自愿线索来源于客体本身,自主线索来源于主观倾向。 以下是一些示例:
当我们第一次看到上面的图片时,我们首先将注意力集中在兔子身上。 这是因为兔子在整体画面中的特征非常突出,让人一眼就注意到了兔子。 这种吸引注意力的方式被称为非自愿暗示。 当我们看到一只兔子时,我们想知道兔子在做什么,我们注意兔子的行为。 这时,兔子正在吃草,所以我们把注意力集中在兔子周围的草地上。 这种注意力机制被唤起的方式是自主提示,其中"兔子在做什么"这是我们的主观意识。
我们面前有五件物品,分别是报纸、咖啡笔记本和书籍。 首先,我们将关注咖啡,因为只有咖啡是红色的,而其他物体是黑白的。 因此,红咖啡由于其显眼的特征,成为注意力机制的不由自主的线索。
喝完咖啡后,我精神抖动,想看书。 此时,通过"我想读一本书“,我们把注意力集中在书上。 这种通过主观意识吸引注意力的方式称为自主提示。
如果只考虑非自愿线索,只需对所有对象的特征信息(非自愿线索)执行一个全连接层,甚至是平均收敛层或最大收敛层,就可以提取出需要感兴趣的对象。
如果我们想考虑自主提示,我们需要设计一种通过查询、键和值来实现注意力机制的方法。 查询是指自主线索,即主观意识的特征向量,key是指非自愿线索,即客体的显著特征信息向量,value是指代表客体本身的特征向量。
注意力机制是通过查询和键的注意力收敛,实现价值的注意力权重分配,并生成最终的输出结果。
多头注意力机制:
多头注意力机制是在自注意力机制的基础上发展起来的,是自注意力机制的变体,旨在增强模型的表达能力和泛化能力。 它通过使用多个独立的注意力头分别计算注意力权重,并对其结果进行拼接或加权以获得更丰富的表示。
多头注意力是多组自注意力成分的组合,自注意力机制可以帮助建立包含上下文信息的词特征表达,多头注意力可以帮助学习许多不同类型的语境影响,例如"这是一个阳光明媚的日子,非常适合出去跑步",在不同的场景中,今天"与“阳光”相同。"、"运行"相关性不同,尤其是头部越多,越有利于捕获越来越大范围的关联特征,增加模型的表现力。
报告总计:51页。
专题报告**:人工智能学院