近日,中国学者提出的一种新的大型模型窗口扩展方法“自扩展”(selfextending,SE)引起了广泛关注。 该技术可使大型模型的窗口长度增加多达3倍,并实现“即插即用”功能,可适配任何大型模型。 目前,该方法已在MISTRAL和LLAMA2上成功测试。
传统的大型模型 (LargeLM) 在处理长文本时经常面临窗口长度限制,导致某些文本无法完全合并到模型的上下文中。 这限制了模型理解和处理长文本的能力。 然而,使用自扩展方法,大模型可以很容易地扩展到窗口的长度,从而将其变成一个 longlm。
selfextended 方法的核心思想是在文本中插入特定的标签,以指导模型进行搜索。 研究人员在Mistral上进行了实验,其中5位数字被随机插入到长度为24K的文本中,并由SE处理。 结果显示,经过处理的模型在测试中显示全绿色(通过)结果,而未处理的版本已经开始显示 6k 长度的错误。
这项技术的突破在于其高效的“即插即用”性质。 在传统方法中,窗口长度的调整往往需要对模型进行微调或重新训练,而SE方法可以直接应用于现有的大模型,而无需额外调整。 这使得该方法的适用范围更广,更方便。
除了在Mistral上取得实验成功外,SE方法还在LLAMA2上得到了验证。 LLAMA2 是另一个大型模型,它也通过相同的 SE 处理实现了窗口长度的显着扩展。 这表明SE方法具有一定的通用性,可以应用于不同的大型模型。
这项开创性的研究为大型模型的开发开辟了新的可能性。 窗口长度的增加使大型模型能够更好地理解和处理长文本,从而提高其语义理解和生成的准确性。 这对自然语言处理、机器翻译、文本生成等具有重要意义。
然而,SE方法也存在一些挑战和局限性。 首先,需要合理选择插入标记的位置和数量,以充分指导模型的搜索。 其次,窗口长度的扩展可能会增加模型的计算和存储要求,这对硬件资源提出了一定的要求。 此外,SE方法在处理特定类型的文本时可能会遇到一些困难,需要进一步研究和改进。
总体而言,中国学者的自我扩展方法为大模型窗口长度的扩展提供了一种高效、即插即用的解决方案。 借助这项技术,大型模型可以轻松增加窗口的长度,从而提高其理解和处理长文本的能力。 随着进一步的研究和改进,相信这项技术将为大模型的开发带来更多的创新和突破。