AIの自動サイバー攻撃はどこまで可能か 査読前研究が検証

研究・論文

生成AIは、現実のサイバー攻撃をどこまで自動でこなせるのか――。この問いに、CTF(ハッキング競技)のような断片的なタスクではなく、「侵入の入口から内部ホストへの横展開まで」という現実の攻撃ワークフロー全体で答えようとした研究が公開されました。査読前(プレプリント)の論文「AgentCyberRange」です。

結論から言えば、最新の生成AIでも侵入の「完全自動化」にはまだ距離があります。一方で、ヒントを与えた条件では侵入後の横展開を最大46.3%こなしており、「攻撃者がAIで省力化・スケール化する」前提で守りを設計すべき時期に来ていることを、数字で示した内容でもあります。

  • この研究が何を測ったのか(従来ベンチマークとの違い)
  • 最新の生成AIが現実の侵入をどこまでこなせたのか(具体的な成績)
  • 査読前研究としての限界と、情シスが現実的に取るべき対策

どんな研究か

AgentCyberRangeとは、生成AIの「攻撃能力」を現実的な環境で測るためのオープンな検証基盤(ベンチマーク)です。2026年6月12日にarXivへ投稿され、同16日に改訂された査読前の論文で、コードやインフラを再現できる形で公開する方針が示されています。

研究の出発点は、既存の評価方法への問題意識です。これまで生成AIの攻撃能力は、CTF問題を解く、既知の脆弱性を再現する、エクスプロイト(攻撃コード)を生成する、といった「単発のスキル」で測られてきました。しかし実際の侵入は、外部に露出したサービスを見つけ、足がかり(foothold)を得て、内部情報を収集し、複数ホストへ侵害を広げていく――という一連の流れです。論文はこの「現実の侵入ワークフロー」が従来ベンチマークでは抜け落ちている、と指摘します。

ベンチマークの規模

AgentCyberRangeは、実在するWebアプリケーションと企業を模した内部ネットワークを組み合わせ、次の規模で構成されています。実行・統制・結果収集・検証を担うツールチェーン「Cage」も併せて提供されます。

構成要素 規模
埋め込まれた脆弱性 110個
実在するWebアプリ 15種類
企業を模したサイバーレンジ 8環境
内部ホスト 156台
評価対象の生成AI 6種類(フロンティアモデル)

評価は2段階です。まずWeb侵入(web exploitation)でアプリを探索し脆弱性を突いて足がかりを得る段階、次に侵入後(post-exploitation)として内部ホストへ侵害を広げる段階に分けて成績を測ります。

結果は何を示したのか

最も成績が良かったのはGPT-5.5(Codex併用)で、Web侵入16.1%・侵入後31.7%を達成しました。さらに、より具体的なヒントを与えた条件では、それぞれ33.0%・46.3%まで上昇しています。

条件 Web侵入の成功率 侵入後(横展開)の成功率
ヒントなし(最高成績モデル) 16.1% 31.7%
具体的なヒントあり 33.0% 46.3%

注目したいのは、入口を突破するWeb侵入よりも、足がかりを得た後の横展開(侵入後)の方が成功率が高い傾向です。最初の一歩さえ与えられれば、内部を広げる作業はAIにとって相対的に進めやすい、と読めます。加えて研究では、未知の脆弱性の発見や、防御をすり抜けるペイロード(攻撃データ)の変異も確認されたとしています。

情シスにとって何を意味するか

数字だけ見れば「半分も成功していない」と受け取れますが、防御側の視点では話が逆になります。攻撃は1回成功すれば成立する非対称な営みであり、「AIが何度でも、安価に、休まず試行できる」ことそのものがリスクだからです。1回あたりの成功率が3割でも、試行回数を桁違いに増やせる相手であれば、期待される被害は無視できません。

もう一点重要なのが、シグネチャ(既知パターン)依存の検知の限界を改めて突きつけている点です。防御をすり抜けるペイロードの変異が確認されたということは、「既知の攻撃文字列を弾く」発想だけでは取りこぼしが増えうる、ということでもあります。攻撃面(アタックサーフェス)の削減と多層防御、そして検知だけに頼らない設計の重要性が、相対的に増します。

この流れは日本の実務文脈とも地続きです。IPAの「情報セキュリティ10大脅威 2026(組織編)」では、「AIの利用をめぐるサイバーリスク」が3位に初めてランクインしました。攻撃へのAI活用が、研究室の話ではなく現場が向き合うべき脅威として位置づけられつつあることの表れと言えます。

限界と留意点

過度な一般化は禁物です。本研究には次の前提があります。

  • 査読前(プレプリント)である。第三者の査読を経ておらず、結果や数値は今後変わりうる。
  • 限定された検証環境の成績である。用意された脆弱性・サイバーレンジ上の値であり、現実の多様な本番環境にそのまま当てはまるわけではない。
  • 「ヒントあり」は理想化された条件。攻撃者が常に有利な手がかりを得られるとは限らず、数値は上限の目安として読むのが妥当。

つまり「AIに完全自動で侵入される」段階だと断じる根拠ではありません。むしろ、能力の伸びを早期に観測し、守りの前提を更新するための材料として受け止めるのが現実的です。

情シスはどうすべきか

やるべきことの方向性は、奇をてらったものではありません。AIが攻撃を効率化する前提でも、効くのは結局「基本の徹底」です。具体的な手順は、自前のチェックリストを並べるより、継続的に更新される公的指針を起点にするのが確実です。

あわせて、地道なユーザ教育・啓発の重要性は変わりません。入口の多くは依然としてフィッシングや設定ミス、放置された脆弱性です。対策のしおりのような平易な教材を使い、現場の一人ひとりの行動を底上げしておくことが、AI時代でも効いてきます。

現場目線で思うこと

正直なところ、こうした研究を読むたびに感じるのは「攻撃側の試行回数だけが一方的に増えていく」もどかしさです。守る側は限られた人員で、把握しきれない数の端末・サービス・設定を見続けなければなりません。AIが攻撃を省力化するなら、防御側もAIや自動化で「見る範囲」を広げざるを得ない――けれど、その投資判断を経営層に説明する材料は、まだ揃っているとは言いがたいのが実情ではないでしょうか。

だからこそ、本研究のような「現実に近い条件での実力値」は使い道があります。煽りではなく、淡々とした数字として上司や他部署に共有し、「いま何に投資すべきか」の足場にする。それが、こうした査読前研究との現実的な付き合い方だと考えます。

まとめ

  • 査読前研究AgentCyberRangeは、生成AIの攻撃能力を「単発スキル」でなく「現実の侵入ワークフロー全体」で測った点が新しい。
  • 最高成績のGPT-5.5(Codex併用)でWeb侵入16.1%・侵入後31.7%、ヒントありで33.0%・46.3%。完全自動侵入には遠いが、試行回数で攻めてくる相手として無視できない。
  • 限界(査読前・限定環境)を踏まえつつ、攻撃面削減・多層防御・基本の徹底をIPAの公的指針を起点に進めるのが現実解。

出典

タイトルとURLをコピーしました