AIエージェントのセキュリティ 研究が示す4つの弱点

AIエージェントのセキュリティ 研究が示す4つの弱点 研究・論文

常時稼働するAIエージェントに「拡張機能(Plugin)」や「スキル(Skill)」を足していく使い方は、便利さと引き換えに新しい攻撃面を生みます。2026年6月29日に公開された査読前の研究論文が、この種のエージェントをOS(基本ソフト)に見立てて安全性を体系的に評価し、悪意あるPluginを使った攻撃は検証環境で成功率100%に達したと報告しました。生成AIを業務に取り込み始めた情シスにとって、看過できない指摘です。

本記事は、この論文(プレプリント=査読前)の内容を、情報システム部門の実務者向けにかみ砕いて整理したものです。断定は避け、事実と限界を分けて紹介します。

この記事でわかること

  • 論文が「AIエージェントの安全性」をどう評価したのか(1文要約)
  • 指摘された4つの攻撃面と、特に危険とされた経路
  • 検証で示された数字(成功率)と、その受け止め方
  • 情シスが今から準備できること(IPAの公的指針への誘導)

どんな研究か(1文要約)

ひとことで言うと、「Skill(機能)やPlugin(拡張)で能力を足せる、常時稼働型のAIエージェント」を“コンピュータのOS”になぞらえ、従来のOSセキュリティで培われた観点から穴を探した研究です。論文はこの種のエージェントを「Claw型(Claw-like agent)」と総称しています。具体的には、エージェント本体の実行環境をOS、Skillをアプリ、Pluginを特権的な拡張機能とみなし、権限分離やデータ隔離といった“OSでは当たり前の保護”が抜け落ちていないかを検証しています。

研究チームは、こうしたエージェントを狙う406種類の敵対的タスクからなる評価用ベンチマーク「SafeClawArena」を構築し、複数の大規模言語モデル(LLM)を組み込んだエージェントに攻撃を仕掛けて成功率を測りました。

指摘された4つの攻撃面

論文は攻撃面を大きく4つに分類しています。いずれも「AIモデルそのものの賢さ」ではなく、エージェントという“システム構成”に由来する弱点である点が重要です。

攻撃面 ざっくり言うと 身近な例え
Skill サプライチェーンの完全性 取り込んだ機能(Skill)そのものが汚染されているリスク 野良のライブラリ・拡張を入れてしまう
永続状態の悪用 エージェントが保持し続けるファイルや記憶に不正を仕込まれる 設定ファイルやキャッシュの汚染
境界をまたぐデータフロー 本来分離すべき情報が経路をまたいで漏れる 権限の異なる領域の混線
間接プロンプトインジェクション 読み込ませた外部データに“指示”を潜ませて乗っ取る Webページや文書に隠した命令

4つのうち間接プロンプトインジェクションは、エージェントが自動でWebや文書を読みに行くほど現実味を帯びます。「AIに外部情報を読ませて要約させる」という、まさに便利な使い方が入口になり得るということです。

検証で何が分かったのか

論文が報告した主な数字は次のとおりです(いずれも同ベンチマーク上での結果)。

  • 攻撃全体での最大成功率は約70%
  • 悪意あるPluginを使った攻撃は、組み込むLLMを問わず成功率100%。つまり「賢いモデルを使えば防げる」問題ではなかった。
  • 論文が提案する防御策「SeClaw」を適用すると、あるモデルでは成功率が70%から22%へ低下した。別のモデルはもともと22%前後で、防御の余地と限界の両方が見えた。

ここで注目したいのは、「特権を持つ拡張(Plugin)を無条件に信頼する設計」が最も危ういという結果です。エージェントにインストールする拡張は、実質的に高い権限で任意の処理を実行できます。OSの世界で「管理者権限のアプリを検証なしに入れない」のと同じ発想が、AIエージェントにも必要だと数字が示しています。

情シスの実務へのインパクト

この研究が突きつけるのは、「AIエージェントの導入は、実質的に“新しいエンドポイント”や“新しいミドルウェア”を1つ増やすのと同じ」という現実です。従来のセキュリティ運用の言葉に置き換えると、次のように読み替えられます。

  • Skill/Pluginの導入=ソフトウェア導入:出所不明の拡張を入れないルールが要る。
  • 永続状態=設定・データの保全:エージェントが持つファイルや記憶も保護・監査の対象。
  • 外部データの読み込み=入力の検疫:AIに読ませる文書やWebも“信頼できない入力”として扱う。

現場感覚で言えば、悩ましいのは「誰がどのエージェントに、どんな拡張を入れているのかを情シスが把握しきれない」点でしょう。私物端末のシャドーITと同じ構図が、AIエージェントの拡張機能でも起こり得ます。全社員の端末で導入された拡張を一つひとつ追うのは、限られた人員では現実的に難しく、「便利だから」と各自が拡張を入れていく流れを止めるのは容易ではありません。だからこそ、技術的なブロックだけでなく「何を入れてよいか」のルールと、なぜ危険かを伝える地道な啓発が効いてきます。

限界・留意点(査読前の研究です)

受け止めるうえで前提にしたい点を整理します。

  • 本論文はarXivのプレプリント(査読前)です。数値や結論は今後の査読・追試で変わり得ます。「成功率100%」も、あくまで研究チームが構築した特定ベンチマーク・特定条件での結果であり、あらゆる製品・環境に一般化できるものではありません。
  • 「Claw型」「SafeClawArena」「SeClaw」は論文独自の呼称で、特定の製品名ではありません。実在の各製品が同じ弱点を持つと断定するものではない点に注意してください。
  • 一方で、「拡張機能の信頼」「外部入力の扱い」「状態の保護」がAIエージェント固有のリスクであるという方向性は、実務の直感とも一致します。数字の厳密さより、“どこを見るべきか”という視点を持ち帰るのが実務的な読み方でしょう。

情シスはどうすべきか(公的指針を起点に)

個社で長大なチェックリストを一から作る前に、まずは公的機関の指針を土台にするのが近道です。IPA(情報処理推進機構)はAI利用のリスクと基本対策をまとめた資料を公開しています。

なお、IPA「情報セキュリティ10大脅威 2026」では、組織向け脅威に「AIの利用をめぐるサイバーリスク」が初めて選出されました。AIエージェントの安全性は、いまや“先進的な一部の話”ではなく“全社的に説明責任を問われるテーマ”になっている、という文脈も経営層への説明材料として使えます。実務としては、まず「利用してよいエージェント・拡張のルール化」「利用状況の把握」「利用者への教育」という基本の3点から着手するのが現実的です。

まとめ

  • AIエージェントの弱点は“モデルの賢さ”ではなく“システム構成”に宿る。Skill・Plugin・永続状態・外部入力という4つの攻撃面を、OSセキュリティの発想で見直すのが有効。
  • 査読前の研究では、悪意あるPluginがLLMを問わず成功率100%という結果も。特権を持つ拡張を無検証で信頼する設計が最も危うい。
  • 数字の厳密さより視点を持ち帰るのが実務的。まずはIPAの公的指針を土台に、拡張のルール化・利用状況の把握・利用者教育から始める。

出典

タイトルとURLをコピーしました