MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

2024-01-23 154 其它文章

性能与 Mamba 一样，但所需训练步骤数却少 2.2 倍。

图片来源：由无界 AI生成

状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。

近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的架构，比如机器之心曾报告过《Mamba 可以替代 Transformer，但它们也能组合起来使用》。

近日，波兰一个研究团队发现，如果将 SSM 与混合专家系统（MoE/Mixture of Experts）组合起来，可望让 SSM 实现大规模扩展。MoE 是目前常用于扩展 Transformer 的技术，比如近期的 Mixtral 模型就使用了这一技术，参阅机器之心文章。

这个波兰研究团队给出的研究成果是 MoE-Mamba，即将 Mamba 和混合专家层组合起来的模型。

论文地址：https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同时提升 SSM 和 MoE 的效率。而且该团队还发现，当专家的数量发生变化时，MoE-Mamba 的行为是可预测的。

该团队也进行了实验论证，如图 1 所示，结果表明：相比于 Mamba，MoE-Mamba 达到同等性能时所需的训练步骤数少 2.2 倍，这彰显了新方法相较于 Transformer 和 Transformer-MoE 的潜在优势。这些初步结果也指出了一个颇具潜力的研究方向：SSM 也许可以扩展到数百亿参数！

模型架构

尽管 Mamba 的主要底层机制与 Transformer 中使用的注意力机制大不相同，但 Mamba 保留了 Transformer 模型的高层级、基于模块的结构。使用这一范式，由相同模块构成的一层或多层会彼此堆叠在一起，而每一层的输出都会被添加到残差流（residual stream）中，见图 2。之后，这个残差流的最终值会被用于预测语言建模任务的下一个 token。

MoE-Mamba 利用了这两种架构的兼容能力。如图 2 所示，在 MoE-Mamba 中，每间隔一个 Mamba 层就会被替换成一个基于 Switch 的 MoE 前馈层。

不过该团队也注意到这一设计和《Mamba: Linear-time sequence modeling with selective state spaces》的设计有些相似；后者交替堆叠了 Mamba 层和前馈层，但得到的模型相比于单纯的 Mamba 还略有不及。该设计在图 1 中被记为 Mamba-MLP。

MoE-Mamba 分开了 Mamba 层执行的每个 token 的无条件处理和 MoE 层执行的有条件处理；其中的无条件处理可高效地将序列的整个上下文整合到一个内部表征中，而有条件处理可为每个 token 使用最相关的专家。这种将有条件处理和无条件处理交替起来的思路在一些基于 MoE 的模型中已经得到了应用，不过它们通常是交替基本的和 MoE 的前馈层。

主要结果

训练设置

该团队比较了 5 种不同设置：基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多数 Transformers 中，前馈层包含 8dm² 个参数，而 Mamba 论文中则让 Mamba 更小一些（约 6dm²），这样两个 Mamba 层的参数数量与一个前馈层和一个注意力层加起来差不多。为了让 Mamba 和新模型中每个 token 的活动参数数量大致一样，该团队将每个专家前向层的大小缩小到了 6dm²。除了嵌入层和解除嵌入（unembedding）层，所有模型都是每个 token 使用大约 2600 万参数。训练过程使用了 65 亿个 token，训练步骤数为 100k。

训练使用的数据集是 English C4 数据集，任务是预测下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 给出了超参数的完整列表。

结果

表 1 给出了训练结果。MoE-Mamba 的表现显著优于普通 Mamba 模型。

值得注意的是，MoE-Mamba 只用仅仅 46% 的训练步骤就达到了与普通 Mamba 同等的结果水平。由于学习率是针对普通 Mamba 进行调整的，因此可以预计，如果再针对 MoE-Mamba 对训练流程进行一番优化，MoE-Mamba 的表现还会更好。

消融研究

为了评估 Mamba 是否能随专家数量的增长而很好地扩展，研究者比较了使用不同数量专家的模型。

图 3 展示了使用不同数量的专家时的训练运行步骤情况。

表 2 给出了 100k 步骤后的结果。

这些结果表明新提出的方法能随专家数量而很好地扩展。如果专家的数量为 8 或更多，新模型的最终性能优于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差，可以预见使用少量专家的 MoE-Mamba 的性能表现会比 Mamba 差。当专家数为 32 时，新方法得到了最佳结果。

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇：加密投资指南如何把握牛市的四个阶段

下一篇：为什么Pebble选择在Sui上进行开发？

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥6,103.46亿
2	欧易OKX	¥2,308.31亿
3	火币全球站	¥173.00亿
4	抹茶	¥372.68亿
5	芝麻开门	¥420.59亿
6	库币	¥154.85亿
7	Coinbase Pro	¥174.87亿
8	bitFlyer	¥6.87亿
9	BitMEX	¥0
10	Bitstamp	¥18.39亿

排名	币种	成交额
1	BTC	¥854.54亿
2	ETH	¥705.52亿
3	USDT	¥3,032.23亿
4	BNB	¥110.18亿
5	SOL	¥246.58亿
6	USDC	¥224.58亿
7	XRP	¥165.12亿
8	DOGE	¥250.14亿
9	TON	¥8.74亿
10	ADA	¥55.60亿

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

相关研究

模型架构

主要结果

消融研究