发布时间:2026-05-28
浏览量图标 11次浏览

EverMind开源MSA框架:4B参数模型处理1亿Token上下文,在多项任务上超越235B方案

摘要

1M AI News 监测,AI 记忆基础设施初创公司 EverMind 发布 Memory Sparse Attention(MSA)框架,目标是以线性复杂度将 LLM 上下文扩展至 1 亿 Token,同时论文和代码已开源。

MSA 包含四项核心机制:将 RAG 的检索步骤内化为可端到端训练的双路由注意力模块,以对比损失与生成任务联合优化;为每篇文档独立分配位置编码(Document-wise RoPE),使模型可以从 6.4 万 Token 训练直接外推到 1 亿 Token 推理而不损失精度;将路由键存放在 GPU 显存、将内容 KV 卸载至 CPU 内存,实现仅用两张 A800 GPU 完成 1 亿 Token 推理;以及 Memory Interleave 多轮检索-生成循环,支持多跳推理。

在 RULER 大海捞针基准上,MSA 4B 模型从 3.2 万 Token 扩展到 100 万 Token 时准确率仅从 98.77% 降至 94.84%,下降 3.93 个百分点;同底座的 Qwen3-4B 在 100 万 Token 时崩至 24.69%,Qwen3-Next 80B 也降至 80.78%。在 9 项问答基准上,MSA 4B 平均超出标准 RAG 16%、超出带重排序 RAG 11.5%、超出 HippoRAG2 14.8%;在部分数据集上,4B 模型的得分甚至高于最强检索器 KaLMv2 搭配 Qwen3-235B 的组合(参数量相差 58 倍)。在 MS MARCO 上从 1.6 万扩展到 1 亿 Token,分数下降不足 9%。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部