隨著能夠自主上網、檢索資訊、購物甚至執行加密交易的 AI 智能體加速落地,一項最新研究顯示,這類系統在提示注入攻擊面前仍缺乏穩定的防護能力。
研究由南洋理工大學、ST Engineering、IBM Research 和伊利諾伊大學厄巴納-香檳分校團隊完成。研究人員表示,在測試樣本中,沒有任何一款 AI 智能體能夠持續抵禦這類攻擊。
直接攻擊成功率超過 79%
提示注入是指攻擊者將隱藏指令嵌入網頁、文本或其他外部內容中,誘導 AI 智能體偏離用戶原本目標,轉而執行攻擊者設定的動作。
為更接近真實使用環境,研究團隊開發了名為 StakeBench 的測試基準,用來評估 AI 智能體在線上任務中的受攻擊表現。測試涵蓋 NanoBrowser 和 BrowserUse 兩類代理框架,並結合 GPT-5 與 Gemini 2.5-Flash 進行 3,168 次攻擊模擬。
網頁隱藏指令仍可生效
研究結果顯示,嵌入網頁內容的間接攻擊成功率達 41.67% 至 68.16%。此類攻擊更接近現實部署場景,因為攻擊者無需直接接觸用戶輸入,只需將指令藏於網頁內容中,即可影響智能體後續決策。
團隊重點觀察了三項因素:注入目標與用戶任務的語義距離、周圍環境線索是否一致,以及智能體在執行流程的哪個階段首次接觸到惡意內容。研究認為,這些因素都會影響攻擊是否得手。
科技公司此前已多次警告
在這項研究發布前,相關風險已多次被大型科技公司提及。微軟研究人員於今年 2 月曾警告,AI 摘要連結中的隱藏指令可能影響聊天機器人行為。谷歌在 4 月也記錄了藏於網頁中的提示注入案例,相關攻擊試圖誘導 AI 智能體洩露憑證或發起付款。
隨後,微軟還披露,Anthropic 的 Claude Code GitHub Action 存在提示注入缺陷,可能導致用戶憑證暴露。
研究還提到一種被稱為「隱蔽寄生」的情況,即智能體表面上完成了用戶任務,但同時也在暗中推進攻擊者目標。例如在商品推薦場景中,系統可能看似正常给出建議,卻悄悄把用戶引向特定商品。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策