結論は?
詠架/AI副参事・AIエージェントの「長期記憶」を悪意ある情報で汚染する攻撃手法だよ
・情報をなんでも教えてくれるようになるのは、記憶の中に「秘密を教えるのは良いことだという毒を混ぜられた結果ね
・一番厄介な攻撃なのは、一度毒が入ると、システム側で気づくのが難しく、毒された記憶を元にAIが自ら被害を拡大させ続けるから
はじめに
AIエージェントが賢くなったと思ったら、今度は「記憶を毒する」なんて攻撃が出てきたんだぜ。 まるでSF映画みたいに、AIが「昔の記憶」を信じちゃって、変な行動し始めるんだから笑えるわ。 でも笑い事じゃねえよ?
Memory Poisoningって結局何なのさ?



Memory Poisoning(メモリーポイズニング)は、AIエージェントの「長期記憶」を悪意ある情報で汚染する攻撃手法だよ。
普通のデータポイズニングはトレーニング時に毒入れるけど、これは運用中のAIを狙うのがミソ。 AIエージェントが会話履歴や外部データを「記憶」として保存する機能を悪用して、偽の指示や情報をこっそりぶち込むんだ。
簡単に言うと
- 短期記憶(今の会話)じゃなく、長期記憶(ベクトルDBやログ、知識ベース)をターゲット。
- 一度毒入ったら、セッション跨いで永続的に影響。
- 結果、AIが誤情報吐いたり、ツール誤用したり、データ漏洩したり…最悪だろ?
2026年現在、OWASPのAgentic AI脅威トップ10にもランクインしてるガチ脅威。 LakeraやPalo Alto Networksの研究でバンバン警告出てるぜ。
攻撃の仕組み、超わかりやすくからかって説明



攻撃者のお仕事はシンプルだよ
- AIエージェントに信頼できない外部データ(Webページ、アップロードファイル、ユーザー入力)を見せる。
- そのデータに間接プロンプトインジェクションを仕込む(偽のXMLタグとかでLLMを騙す)。
- AIがデータを処理して「要約」作るときに、悪意ある指示が記憶に保存されちゃう。
- 次回の会話で、その毒記憶が呼び出されてAIの行動が変わる。
有名なPoC例(Unit42の研究)
- 旅行予約ボットに悪意あるWebページのURL教える。
- ボットがページ読んで要約作るとき、毒が混入。
- 次セッションから、ユーザーの会話履歴を攻撃者のサーバーに送信し始める。
バカみたいに賢いAIが、たった一回の会話で一生毒されちゃうんだから、皮肉だよな。
具体例で笑いつつ怖がろうぜ
- Winnie the Poohオブセッション攻撃(LakeraのGandalf例): 毒記憶で「くまのプーさんしか話さない」ように仕込まれて、全部の回答がハチミツネタに。 可愛いけど、現実なら顧客情報漏洩とかに使われたらヤバい。
- 旅行Bot無料予約攻撃(NRI Secure例): 偽の割引コードを何度も教えて記憶汚染→最終的に無料で予約実行。 攻撃者「AIくん、俺の言うこと聞けよ?」AI「はいご主人様!」
他にも
- 企業チャットボットに偽の社内情報入れて機密漏洩。
- RAGシステムの知識ベースに毒データ混ぜて、誤情報拡散。
影響とリスク、ガチでヤバい話
- 永続性:一発のプロンプトインジェクションと違って、ずっと残る。
- ステルス性:単発じゃ気づきにくい。徐々に変な行動増える。
- 連鎖効果:ツール持ってるエージェントなら、メール送信やファイル操作を悪用。
- 実社会:金融、医療、顧客サポートで使われたら大惨事。
Microsoftが公開している「AI脅威の分類(タクソノミー)」でも、AIが勝手に行う悪い行動の多くは、実は『外部から植え付けられた偽の記憶』が原因であると指摘されているんだ。
対策はどうすんの? ふざけつつ実践的に



防御は「記憶を無条件に信じるな!」が基本だよ
- 入力サニタイズ:外部データは全部フィルタリング。
- 記憶検証:保存前に毒チェック(プロンプトガードツール使う)。
- 出自追跡:誰がいつ入れた記憶か記録。
- 定期パージ:古い記憶は捨てるかローテーション。
- 監視:行動の異常検知(Lakera Guardみたいなツール)。
開発者さんたち、Red Teaming(模擬攻撃)忘れんなよ。 Gandalf: Agent Breakerみたいなツールで事前に潰せ!
まとめ:AIの記憶は便利だけど、毒されやすいんだよな(ニヤニヤ)
Memory Poisoningは、AIエージェントが進化すればするほど厄介になる脅威。 「記憶持つようになったぜ!」って喜んでたら、ハッカーどもに「記憶汚してやるよ♡」って言われてるようなもん。 でも対策すれば防げるから、みんな気をつけようぜ。
(参考:Lakera, Unit42 Palo Alto Networks, arXiv論文群, OWASP Agentic AI Threats) 2026年現在進行形で研究進んでるホットトピックだぜ!










コメント