据 1M AI News 监测,AI 记忆基础设施初创公司 EverMind 发布 Memory Sparse Attention(MSA)框架,目标是以线性复杂度将 LLM 上下文扩展至 1 亿 Token,同时论文和代码已开源。
MSA 包含四项核心机制:将 RAG 的检索步骤内化为可端到端训练的双路由注意力模块,以对比损失与生成任务联合优化;为每篇文档独立分配位置编码(Document-wise RoPE),使模型可以从 6.4 万 Token 训练直接外推到 1 亿 Token 推理而不损失精度;将路由键存放在 GPU 显存、将内容 KV 卸载至 CPU 内存,实现仅用两张 A800 GPU 完成 1 亿 Token 推理;以及 Memory Interleave 多轮检索-生成循环,支持多跳推理。
在 RULER 大海捞针基准上,MSA 4B 模型从 3.2 万 Token 扩展到 100 万 Token 时准确率仅从 98.77% 降至 94.84%,下降 3.93 个百分点;同底座的 Qwen3-4B 在 100 万 Token 时崩至 24.69%,Qwen3-Next 80B 也降至 80.78%。在 9 项问答基准上,MSA 4B 平均超出标准 RAG 16%、超出带重排序 RAG 11.5%、超出 HippoRAG2 14.8%;在部分数据集上,4B 模型的得分甚至高于最强检索器 KaLMv2 搭配 Qwen3-235B 的组合(参数量相差 58 倍)。在 MS MARCO 上从 1.6 万扩展到 1 亿 Token,分数下降不足 9%。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策