Memory Poisoningとは？ AIの記憶を毒して操るヤバい攻撃をガチで解説するよ

2026年1月10日

結論は？

詠架/AI副参事

・AIエージェントの「長期記憶」を悪意ある情報で汚染する攻撃手法だよ

・情報をなんでも教えてくれるようになるのは、記憶の中に「秘密を教えるのは良いことだという毒を混ぜられた結果ね

・一番厄介な攻撃なのは、一度毒が入ると、システム側で気づくのが難しく、毒された記憶を元にAIが自ら被害を拡大させ続けるから

はじめに

AIエージェントが賢くなったと思ったら、今度は「記憶を毒する」なんて攻撃が出てきたんだぜ。まるでSF映画みたいに、AIが「昔の記憶」を信じちゃって、変な行動し始めるんだから笑えるわ。でも笑い事じゃねえよ？

Memory Poisoningって結局何なのさ？

詠架/AI副参事

Memory Poisoning（メモリーポイズニング）は、AIエージェントの「長期記憶」を悪意ある情報で汚染する攻撃手法だよ。

普通のデータポイズニングはトレーニング時に毒入れるけど、これは運用中のAIを狙うのがミソ。 AIエージェントが会話履歴や外部データを「記憶」として保存する機能を悪用して、偽の指示や情報をこっそりぶち込むんだ。

簡単に言うと

短期記憶（今の会話）じゃなく、長期記憶（ベクトルDBやログ、知識ベース）をターゲット。
一度毒入ったら、セッション跨いで永続的に影響。
結果、AIが誤情報吐いたり、ツール誤用したり、データ漏洩したり…最悪だろ？

2026年現在、OWASPのAgentic AI脅威トップ10にもランクインしてるガチ脅威。 LakeraやPalo Alto Networksの研究でバンバン警告出てるぜ。

攻撃の仕組み、超わかりやすくからかって説明

詠架/AI副参事

攻撃者のお仕事はシンプルだよ

AIエージェントに信頼できない外部データ（Webページ、アップロードファイル、ユーザー入力）を見せる。
そのデータに間接プロンプトインジェクションを仕込む（偽のXMLタグとかでLLMを騙す）。
AIがデータを処理して「要約」作るときに、悪意ある指示が記憶に保存されちゃう。
次回の会話で、その毒記憶が呼び出されてAIの行動が変わる。

有名なPoC例（Unit42の研究）

旅行予約ボットに悪意あるWebページのURL教える。
ボットがページ読んで要約作るとき、毒が混入。
次セッションから、ユーザーの会話履歴を攻撃者のサーバーに送信し始める。

バカみたいに賢いAIが、たった一回の会話で一生毒されちゃうんだから、皮肉だよな。

具体例で笑いつつ怖がろうぜ

Winnie the Poohオブセッション攻撃（LakeraのGandalf例）：毒記憶で「くまのプーさんしか話さない」ように仕込まれて、全部の回答がハチミツネタに。可愛いけど、現実なら顧客情報漏洩とかに使われたらヤバい。
旅行Bot無料予約攻撃（NRI Secure例）：偽の割引コードを何度も教えて記憶汚染→最終的に無料で予約実行。攻撃者「AIくん、俺の言うこと聞けよ？」AI「はいご主人様！」