突破性技术SE引领大型模型窗口长度扩展新时代

小夏科技更新 2024-02-01

近日，中国学者提出的一种新的大型模型窗口扩展方法“自扩展”（selfextending，SE）引起了广泛关注。该技术可使大型模型的窗口长度增加多达3倍，并实现“即插即用”功能，可适配任何大型模型。目前，该方法已在MISTRAL和LLAMA2上成功测试。

传统的大型模型（LargeLM）在处理长文本时经常面临窗口长度限制，导致某些文本无法完全合并到模型的上下文中。这限制了模型理解和处理长文本的能力。然而，使用自扩展方法，大模型可以很容易地扩展到窗口的长度，从而将其变成一个 longlm。

selfextended 方法的核心思想是在文本中插入特定的标签，以指导模型进行搜索。研究人员在Mistral上进行了实验，其中5位数字被随机插入到长度为24K的文本中，并由SE处理。结果显示，经过处理的模型在测试中显示全绿色（通过）结果，而未处理的版本已经开始显示 6k 长度的错误。

这项技术的突破在于其高效的“即插即用”性质。在传统方法中，窗口长度的调整往往需要对模型进行微调或重新训练，而SE方法可以直接应用于现有的大模型，而无需额外调整。这使得该方法的适用范围更广，更方便。

除了在Mistral上取得实验成功外，SE方法还在LLAMA2上得到了验证。 LLAMA2 是另一个大型模型，它也通过相同的 SE 处理实现了窗口长度的显着扩展。这表明SE方法具有一定的通用性，可以应用于不同的大型模型。

这项开创性的研究为大型模型的开发开辟了新的可能性。窗口长度的增加使大型模型能够更好地理解和处理长文本，从而提高其语义理解和生成的准确性。这对自然语言处理、机器翻译、文本生成等具有重要意义。

然而，SE方法也存在一些挑战和局限性。首先，需要合理选择插入标记的位置和数量，以充分指导模型的搜索。其次，窗口长度的扩展可能会增加模型的计算和存储要求，这对硬件资源提出了一定的要求。此外，SE方法在处理特定类型的文本时可能会遇到一些困难，需要进一步研究和改进。

总体而言，中国学者的自我扩展方法为大模型窗口长度的扩展提供了一种高效、即插即用的解决方案。借助这项技术，大型模型可以轻松增加窗口的长度，从而提高其理解和处理长文本的能力。随着进一步的研究和改进，相信这项技术将为大模型的开发带来更多的创新和突破。