Meta团队开发AI模型以抗衡Transformer

2023-05-30 21:46:23 业界科普

Meta团队近日开发了一款名为Megabyte的AI模型以抗衡Transformer,据称Megabyte解决了Transformer模型所面临的问题,并且在速度上提升了40%。下面是详细解释:

Transformer模型在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢。此外,由于需要在每一步保留历史信息,内存消耗较大。而Megabyte模型将输入和输出序列划分为patch,而不是单个的token。这种架构使得对大多数任务而言字节级别的预测相对容易,例如根据前几个字符预测完成的单词等。Megabyte模型的这种方法解决了当今AI模型所面临的训练速度、可靠性及硬件占用比挑战。

在计算效率方面,相比于等大的Transformer和Linear Transformer,Megabyte模型在固定模型大小和序列长度范围内使用更少的token。因此相对于Transformer,Megabyte模型可以在相同的计算成本下训练内容更丰富、体积更大、性能更好的模型。

Megabyte模型将输入输出序列分割为“补丁(patches)”而不是个别的令牌(tokens)。在每个补丁中,局域AI生成结果,全局模型管理协调所有补丁的最终输出,从而解决了扩展性问题。Megabyte能并行进行计算,相比下传统Transformers是串行计算。测试显示,有15亿参数的Megabyte模型比有3.5亿参数的Transformers模型生成序列快40%。Megabyte模型能支持最多120万个令牌,相比下GPT-4是3.2万个令牌,Anthropic的Claude是10万个令牌。

版权说明: 本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。