LLMでAPT攻撃を追跡する研究「Minos」を読む

APT（高度標的型攻撃）を受けたあとの「どこから、どうやって侵入され、何を触られたのか」を再構成する作業は、インシデント対応でもっとも時間と熟練を要する工程です。この地道な追跡（プロヴェナンス／来歴ベースの逆追跡）を、大規模言語モデル（LLM）を使った複数のAIエージェントの協調で自動化しようという査読前の研究「Minos」が2026年7月に公開されました。5つの公開データセット・14の攻撃シナリオで平均リコール0.92・精度0.64、既存手法より攻撃サブグラフを49%コンパクトにできたと報告しています。本記事では、この研究が何を示し、情シスの実務に何の意味があるのかを噛み砕きます。

この記事でわかること

そもそも「プロヴェナンスベースの逆追跡」とは何か、なぜ難しいのか
Minosが提案する多エージェント方式の要点と報告された成果
SOC・インシデント対応の現場にとっての意味と、鵜呑みにできない限界

そもそも何を解こうとしている研究なのか
1. なぜ逆追跡は難しいのか？
Minosは何が新しいのか
1. 報告されている成果
情シスの実務にとって何を意味するか
1. 現場目線の所感
限界と留意点（ここは冷静に）
まとめ
出典

そもそも何を解こうとしている研究なのか

ひとことで言うと、セキュリティアラートを起点に「攻撃の因果関係」をさかのぼって攻撃シナリオを復元する作業を、LLMの推論で賢く・軽くしようという研究です。

プロヴェナンス（provenance）とは「来歴」のこと。OS上のプロセス・ファイル・ネットワーク接続などの操作を、原因と結果の連鎖（誰がどのプロセスを起動し、どのファイルを読み、どこへ通信したか）としてグラフに記録したものを「プロヴェナンスグラフ」と呼びます。EDRやシステム監査ログが集めている情報と考えると、情シスにもイメージしやすいはずです。

インシデントが起きると、私たちは1つのアラート（例：不審な外部通信）を起点に、原因の方向へ枝をたどって「侵入の起点（初期侵入）」までさかのぼります。これが逆追跡（backward tracking）です。

なぜ逆追跡は難しいのか？

答え：枝が指数的に増える「依存爆発（dependency explosion）」が起きるからです。1つのプロセスは無数のファイルやプロセスに依存しているため、単純に因果をたどると関係ないノードまで大量に拾い、グラフが巨大化して人が読めなくなります。従来手法は統計的な特徴量や固定的な探索ルールに頼っていたため、攻撃者の「意図」という高レベルの文脈を捉えにくく、この爆発を抑えきれませんでした。ここが本研究の問題意識です。

Minosは何が新しいのか

Minosは逆追跡を「LLMによる推論プロセス」として定式化し、二層構造で攻撃の筋道を組み立てます。論文が挙げる要素を実務者向けに整理すると次のとおりです。

イベント単位の分析：階層的なコンテキスト管理、引用（根拠）を検証しながらのRAG（検索拡張生成）、そして「対立的な議論（adversarial deliberation）」でAI同士に検討をぶつけ合わせ、推論の質を上げる。
グラフ探索：役割の異なる4つの専門エージェントを有限状態機械（FSM）で制御。総当たり探索をやめ、「仮説を立ててから確かめる」やり方と、まず件数を数えてから絞り込む”count-first”のクエリ手順で、探索空間を効率よく刈り込む。

ポイントは、単にLLMに丸投げするのではなく、根拠の検証・複数エージェントの相互チェック・状態遷移による制御といった「暴走を抑える仕掛け」を組み込んでいる点です。生成AIが苦手とする幻覚（もっともらしい誤り）に対して、引用検証やエージェント間の反証を効かせようという設計思想がうかがえます。

報告されている成果

指標	報告値	意味あい
平均リコール	0.92	本来拾うべき攻撃関連ノードの約9割を取りこぼさず捕捉
平均精度（Precision）	0.64	抽出したもののうち”当たり”は約6割（＝4割は無関係を含む）
サブグラフの縮小	49%コンパクト	復元した攻撃グラフが従来比で約半分の大きさ＝読みやすい
評価規模	5データセット/14シナリオ	公開データセット上での比較評価

加えてMinosは追跡の過程で解釈可能な推論（なぜそのノードを攻撃関連と判断したか）を出力するため、フォレンジックの監査やシステム改善に役立つとしています。ブラックボックスで「これが答え」と出すのではなく、根拠つきで示す点は、証跡が重視されるインシデント対応と相性が良い方向性です。

情シスの実務にとって何を意味するか

直接この研究のコードを明日から使う、という話ではありません。ただ、方向性としては現場の痛点にまっすぐ触れています。

アラートの根本原因分析（RCA）の省力化：EDRやSIEMがアラートを上げても、そこから初期侵入までさかのぼる作業は属人的で時間がかかります。ここをAIが下ごしらえしてくれるなら、少人数運用のチームには大きい。
「読めるグラフ」への圧縮：巨大なプロヴェナンスグラフを人が追うのは非現実的。約半分に絞れるなら、経営層や関係者への説明資料にも落とし込みやすくなります。
説明可能性：判断根拠が言語で残るため、報告書やインシデント記録の裏づけに使いやすい。

現場目線の所感

正直なところ、実務でいちばん重いのは「アラートは鳴るが、そこから先を追う人手と時間がない」という現実です。夜間に上がった1本のアラートを、翌朝から半日かけて手作業でログを突き合わせる——そんな経験は多くの情シスにあるはずです。逆追跡の自動化は、まさにその一番しんどい部分を狙っており、期待したくなります。

一方で、精度0.64という数字は現場感覚として「まだ人の目が要る」レベルです。4割ほど無関係なものが混じるなら、最終判断は必ず人が担保する必要があります。むしろ「AIが叩き台を作り、人が確定させる」半自動の使い方が現実的でしょう。EDRやログ基盤（プロヴェナンスを取れる仕組み）が整っていることが大前提である点も、導入以前のハードルとして押さえておきたいところです。

限界と留意点（ここは冷静に）

査読前のプレプリントです。arXivで2026年7月1日に公開されたばかりで、第三者による査読を経ていません。結果は今後変わりうるものとして読む必要があります。
公開データセット上の評価であり、実運用環境（ノイズの多い本番ログ、未知の攻撃手口）での再現性は別問題です。ベンチマークの好成績がそのまま自社環境で出るとは限りません。
精度0.64は誤検知（無関係ノードの混入）が一定量あることを意味します。自動化の結果を無検証で報告書に載せるのは危険です。
LLM依存ゆえのコスト・幻覚・プライバシー：ログを外部LLMに渡す構成なら、機密性・データ持ち出しの検討が必須。1本の論文の結果を過度に一般化しないよう注意します。

APT対応そのものの基本や、インシデント対応体制の整え方については、公的機関の指針が土台になります。まずはIPAのセキュリティインシデント対応机上演習教材や、日頃からの対策のしおりによるユーザ啓発など、地道な足場固めを優先したいところです。新しい研究は、その足場の上で「どこを自動化で楽にできるか」を考える材料として捉えるのが健全です。

まとめ

Minosは、APT攻撃の逆追跡（プロヴェナンスベースの因果追跡）をLLMの多エージェント協調で自動化する査読前の研究。リコール0.92・精度0.64、攻撃グラフを49%コンパクト化と報告。
狙いは情シスの痛点そのもの——アラートから初期侵入までの根本原因分析の省力化と、読めるサイズへの圧縮、根拠の説明可能性。
ただし精度は「人の目が要る」水準で、査読前・ベンチ評価という前提つき。過度に期待せず、「AIが叩き台、人が確定」という半自動の発想で読むのが現実的。

出典

Jiahui Wang, Zhenyuan Li, Zhengkai Wang, Xiangmin Shen, Fan Zhang. “Minos: A Multi-Agent Collaborative Framework for Provenance-Based Backward Tracking.” arXiv:2607.00440（2026年7月1日投稿・査読前プレプリント）. https://arxiv.org/abs/2607.00440
IPA セキュリティインシデント対応机上演習教材：https://www.ipa.go.jp/security/sec-tools/ttx.html