AI生成PowerShellマルウェア、実物と酷似する研究

結論から。公開されている「オープンウェイト」の大規模言語モデル(LLM)を使うと、実在のPowerShellマルウェアとOSレベルの挙動が中央値84.5%一致する不正スクリプトを生成できた——そんな査読前(プレプリント)の研究がarXivで公開されました。特定製品の脆弱性ではありませんが、「AIで攻撃の敷居が下がる」という漠然とした不安を、具体的な数字で裏づける内容です。情シスとして今すぐ何かを入れ替える話ではありませんが、PowerShellの監視・ログ設計を見直す良いきっかけになります。

この記事でわかること

この研究が何を示したのか(1文＋数字)
なぜPowerShell×生成AIが実務者にとって厄介なのか
査読前研究として、どこまで真に受けるべきか(限界)
情シスが今から見直せる、地に足のついた備え

どんな研究か(1文で)
何が新しく、何が分かったのか
なぜPowerShell×生成AIが厄介なのか
現場目線の所感
査読前研究としての限界
情シスはどうすべきか(公的指針への誘導)
中長期の視点
まとめ
出典

どんな研究か(1文で)

「オープンウェイトのLLMをPowerShellマルウェア生成向けに調整し、生成物が実在マルウェアとどれだけ似た挙動をするかを、専用サンドボックスで動的解析して定量評価した」研究です。著者はLuciano Pianese氏らで、2026年6月29日にarXivへ投稿されました(arXiv:2606.30819、分類はcs.CR / cs.AI)。査読前のプレプリントであり、結果は今後の検証で変わりうる点を最初にお断りしておきます。

何が新しく、何が分かったのか

従来「LLMでマルウェアが作れてしまう」という話は、生成されたコードの見た目(文字列としての類似)で語られがちでした。この研究の特徴は、生成物を実際に動かして「OS上でどんな悪性イベントを起こすか」という挙動レベルで比較した点にあります。攻撃者にとって重要なのはコードの美しさではなく「実環境で何をするか」なので、挙動での比較は実態に近い評価と言えます。

主な数値は次のとおりです。

観点	結果	読み方
悪性OSイベントのJaccard係数(中央値)	84.5%	実在マルウェアと生成物の「起こす挙動の集合」が中央値で約8割重なる
挙動が完全一致した割合	48.4%	約半数のケースで、実物と挙動が丸ごと重なった
使用モデル	オープンウェイトのLLM(利用条件が緩いもの)	誰でも入手・改変できるモデルが対象

Jaccard係数は「2つの集合がどれだけ重なるか」を0〜1で表す指標です。ここでは「実在マルウェアが起こす悪性イベントの集合」と「AI生成物が起こす集合」の重なりを示し、中央値84.5%は半数以上のケースで挙動が8割超一致したことを意味します。研究の付加価値として、実在のPowerShellマルウェアを自然言語で注釈づけした手作りのデータセットと、AI生成マルウェアを安全に動かして解析する専用サンドボックスも提案されています。

なぜPowerShell×生成AIが厄介なのか

PowerShellはWindowsに標準搭載され、正規の運用でも日常的に使われます。だからこそ攻撃者に好まれ、「正規ツールを悪用する(Living off the Land)」典型例として長く問題視されてきました。ファイルを落とさずメモリ上で完結させたり、難読化で検知を逃れたりと、もともと守りにくい相手です。

そこに生成AIが加わると、実務者目線では次の3点が気になります。

作成の敷居が下がる：高度な知識がなくても、それらしく動くスクリプトを量産しやすくなる。
亜種が増えやすい：同じ狙いのコードを少しずつ変えて大量生成できれば、シグネチャ(既知パターン)ベースの検知はさらに追いつきにくくなる。
オープンウェイトゆえ制御が効きにくい：商用サービスと違い、手元で自由に改変できるモデルは、提供側のガードレールを外して悪用されうる。

この研究は「挙動が実物並みに悪性」という点を示したので、上の懸念が単なる杞憂ではないことの一つの根拠になります。

現場目線の所感

正直なところ、「AIがマルウェアを作る」というニュース自体は目新しくありません。むしろ現場でこたえるのは、亜種が増えたときにログとアラートをさばききれるのかという運用の問題です。PowerShellのスクリプトブロックログを有効にしても、正規運用のノイズに埋もれて「怪しい1件」を拾えなければ意味がありません。限られた人員で、正規のPowerShell利用と悪性利用をどう線引きするか——この地味で終わりのない調整こそが実務の肝で、AIで攻撃側の生成量が増えるほど、その負担は静かに重くなります。派手な新技術より、まず「自分たちのPowerShellログが、いざという時に読める状態か」を点検したくなる研究でした。

査読前研究としての限界

過度に恐れる前に、次の点は冷静に押さえておくべきです。

査読前である：第三者による検証を経ていません。手法や数値は今後変わる可能性があります。
「挙動が似る」＝「実戦で通用する」ではない：サンドボックス内で悪性イベントを起こすことと、実際の防御をかいくぐって被害を出すことは別問題です。EDRやアンチウイルスによる検知・遮断はこの評価の外にあります。
対象はオープンウェイトの一部モデル：すべてのLLMに一般化はできません。
攻撃手法の詳細は追いかけない：この記事も、悪用に使える具体的手順には踏み込みません。狙いは「守りの優先度を考える材料」を提供することです。

要するに「AIで実物並みに悪性なPowerShellコードが作られうる」という警鐘であって、「明日から攻撃が激増する」と断定する話ではありません。

情シスはどうすべきか(公的指針への誘導)

この研究を受けても、やるべきことの本質は変わりません。PowerShellの可視化と、基本の徹底です。新しいツールを慌てて買うより、まず足元のログ設計を見直しましょう。

PowerShellのログを「後から読める」状態にする：どのコマンド実行時にどのログが残るかは、JPCERT/CCの「高度サイバー攻撃への対処におけるログの活用と分析方法」や、攻撃ツールの実行痕跡をまとめた「インシデント調査のための攻撃ツール等の実行痕跡調査に関する報告書」が具体的です。まずは自社のログ取得設定が十分か点検を。
基本対策の底上げ：中小規模なら、IPAの「中小企業の情報セキュリティ対策ガイドライン」で自組織の抜けを確認するのが近道です。
人への啓発を忘れない：AI製であっても、多くの攻撃の入口は結局メールや不用意な実行です。IPAの「対策のしおり」など、現場の啓発資料を地道に使い続けることが効きます。

中長期の視点

生成AIは攻撃側だけのものではありません。ログの相関分析やトリアージ支援など、守る側の省力化にも同じ技術が使えます。攻撃側の生成量が増える前提に立つなら、「増えるアラートを人手だけでさばく」から「仕組みで絞り込む」への移行を、中期の課題として意識しておくと良いでしょう。今回の研究は、その移行を先送りにしにくくする一つの材料です。

まとめ

オープンウェイトLLMが生成したPowerShellマルウェアが、実在マルウェアとOS挙動で中央値84.5%一致・約半数が完全一致、という査読前研究が出た。
「AIで攻撃の敷居が下がり、亜種が増える」懸念を具体的数字で裏づける内容だが、検知・防御の突破までを示したわけではない(限界に留意)。
情シスの打ち手は不変。PowerShellのログを読める状態にし、基本対策とユーザ啓発を底上げするのが先決。

出典

Luciano Pianese, Vittorio Orbinato, Pietro Liguori, Roberto Natella「AI-Generated PowerShell Malware: An Experimental Framework and Dataset」arXiv:2606.30819(2026年6月29日投稿、cs.CR/cs.AI、査読前) https://arxiv.org/abs/2606.30819
JPCERT/CC「高度サイバー攻撃への対処におけるログの活用と分析方法」 https://www.jpcert.or.jp/research/apt-loganalysis.html
JPCERT/CC「インシデント調査のための攻撃ツール等の実行痕跡調査に関する報告書」 https://www.jpcert.or.jp/research/ir_research.html
IPA「中小企業の情報セキュリティ対策ガイドライン」 https://www.ipa.go.jp/security/guide/sme/index.html