Artificial Analysis 推出了 AI 硬體界一直默默等待的東西:一個實際測量晶片在現實世界中處理代理式 AI 工作負載效能的基準測試。這個基準測試名為 AA-AgentPerf,其在 DeepSeek V4 Pro 上的初步結果所揭示的資訊,可能是 AMD 目前並不樂見的。
NVIDIA 的 Blackwell 系統,特別是 B200 和 GB300,在能效代理推理方面持續優於 AMD 的 Instinct MI355X GPU。
這是 Artificial Analysis 專為代理編碼任務的硬體效能設計的首個多供應商開放基準測試。
基準評估系統在滿足特定服務等級目標時所能支援的併發代理數量。這些服務等級目標涵蓋每秒 20 至 300 個輸出標記的速率,以及 3 至 10 秒的首個標記延遲(TTFT)目標。
與依賴合成評估方法不同,此基準測試利用實際的編碼軌跡。結果隨每個加速器和每兆瓦進行標準化,從而建立一個同時考慮原始性能和能耗的比較框架。
此基準測試的核心模型為 DeepSeek V4 Pro,自 2026 年 4 月左右發布以來一直備受矚目。它在 GDPval-AA 基準測試中獲得 1554 分,穩居當今表現最出色的開源權重模型之列。
DeepSeek V4 Pro (Max) 在 Artificial Analysis Intelligence Index 上獲得 52 分,在開放權重推理模型中排名第二。
初始的 AA-AgentPerf 結果清晰地展現了競爭定位。由 B200 和 GB300 系統代表的 NVIDIA Blackwell 架構,在測試的代理工作負載中,每瓦效能優於 AMD 的 MI355X。
每兆瓦的規範化尤其具有說明性。資料中心日益受到的限制不再是機架空間或資本預算,而是電力供應。在每兆瓦電力消耗下能支援更多並行代理的晶片,具有可衡量的實際優勢,並直接反映在最終利潤上。
對於 NVIDIA 而言,這些結果強化了公司圍繞 Blackwell 效率特性的敘事。時機值得注意:性能領先數據是相對於 2026 年 6 月 12 日的爬取日期報告的,這表明 NVIDIA 快速通過其開發者部落格公布有利的結果。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策