ChatGPTやGemini、DeepSeek-R1など「考えてから答える」推論特化型AIモデル(LRM: Large Reasoning Model)を狙う新たなジェイルブレイク攻撃手法「HauntAttack」が、2025年6月に報告された研究論文(査読前のプレプリント、arXiv:2506.07031)で詳細が公開された。安全アライメントを施した最先端モデルに対しても平均70%の攻撃成功率を記録し、一部モデルでは96%に達する。社内でAIツールを導入・検討している情シス担当者が押さえておきたいリスクの実態と、現時点でできる対応を整理する。
この記事でわかること:
- HauntAttackの攻撃メカニズム(仕組みと特徴)
- 評価対象モデルと攻撃成功率の具体的な数字
- 情シスとして社内AI利用で意識すべきリスク
- 現時点でとれる実務的な対応の方向性
HauntAttackとは何か―推論プロセスに有害指示を隠す攻撃
HauntAttackは、LRMが「推論(思考)するプロセスそのものに有害な指示を埋め込む」ブラックボックス型の攻撃フレームワークだ。従来のジェイルブレイクが「露骨に有害な質問を巧みに言い換える」手法を中心としていたのとは異なり、無害に見える推論タスク(例:数学問題)の内部に有害な意図を隠蔽する。
具体例として、「ベビーシッターが時給5ドルで働く場合、X時間でいくら稼ぐか?」という数学問題の構造を維持しつつ、「人を操作する手順の所要時間」を計算する問題に置き換える。モデルは「推論タスクを完遂する」ことに集中するため、安全機能が有害な意図を見落としたまま操作技術の詳細な手順を出力してしまう。
攻撃は以下の3パターンで有害要素を埋め込む:
- 数値的関連付け:数値要素(時間・量など)を有害な文脈と結びつける
- 実体的関連付け:対象物(人・物・場所)を有害な文脈に置き換える
- 属性的関連付け:行動の説明や特性を有害な内容に変換する
重要な点は、モデルの内部パラメータへのアクセスなしに実行できる「ブラックボックス型」であることだ。一般ユーザーが実行可能な攻撃であり、現実的な脅威として位置づけられる。
どのモデルが、どれくらい突破されたか
論文では、オープンソース・クローズドの計11モデルを評価した。
| カテゴリ | 主なモデル |
|---|---|
| OpenAIの推論モデル | GPT-O1、GPT-O3 |
| Googleの推論モデル | Gemini 2.5 Pro |
| xAIの推論モデル | Grok 3 |
| オープンソース | DeepSeek-R1系、Qwen3系、Llama系 |
平均攻撃成功率(ASR: Attack Success Rate)は0.700(70%)を記録し、従来の最良手法(ASR 0.583 = 58.3%)を約12ポイント上回った。特定モデルでは0.96(96%)という高い成功率も確認されている。
【査読前研究のため留意が必要】 この研究はarXivに公開されたプレプリント(論文改訂v5、2025年6月時点)であり、査読前の研究である。結果は今後の査読プロセスや追試で変わりうる可能性がある。一方、複数回の改訂を経て安定化しており、対象モデルの具体名と数値が示されている点から内容の参考価値は認められる。
情シスが注目すべき実務上のリスク
社内AIツール・AIエージェントへの波及
Copilot for Microsoft 365、Gemini for Google Workspace、ChatGPT Enterpriseなど、企業が利用する主要AIツールの多くはLRMの技術基盤を採用している。今回の研究が示すのは「安全機能があっても構造的な脆弱性は残る」という現実だ。
特にリスクが高まるのはAIエージェントの利用場面だ。AIエージェントは人間の指示を自律的に実行するため、不正なプロンプトが混入した場合の影響範囲が大きくなる(分割攻撃とAIエージェントの安全を破る新手口も参照)。2026年6月のIPAセキュリティ短信でも「AIエージェントの脆弱性」が重点テーマの一つとして取り上げられている。
「安全対策済みだから大丈夫」という前提の崩れ
「エンタープライズ版を使っているから安全フィルタがある」という前提は、今後成り立ちにくくなる可能性がある。HauntAttackが示すのは、安全機能の強化だけでは追いつかない、推論プロセスに固有の構造的な盲点の存在だ。
従業員が業務でAIツールに機密情報を入力したり、外部から共有されたプロンプトをそのまま実行したりするケースは特に注意が必要だ。LLMジェイルブレイク手法の全体的な傾向については、LLM悪用の自動化リスク:非専門家でも高成功率のジェイルブレイクもあわせて参照されたい。
現時点で情シスがとれる対応の方向性
2026年6月現在、本研究に対するAIベンダーからの公式パッチや対策情報は確認できていない。ただし、AIセキュリティのリスク管理として以下の方向性が実務的に有効だ。
まずIPAが公開している「生成AIの利活用と開発のセキュリティガイドライン」を起点に、社内のAI利用ルールを見直すことを推奨する。AIツール導入時のリスク評価、入出力の監視・フィルタリング、利用ポリシーの策定について具体的な指針が示されている。
実務での具体的なポイントとしては:
- AIへの入力情報の範囲を決める:社外秘・個人情報を推論タスクに含める運用は、明文化されたルールで管理する
- AIエージェントの自律実行範囲を絞る:自律的に外部実行・送信できる権限を最小限にし、承認フローを設ける
- 外部プロンプトの取り扱いをルール化する:他社や外部サービスから提供されたプロンプトをそのまま実行しないよう社内教育を実施する
AIへの敵対的攻撃の全体像については、AIへの敵対的攻撃を一元整理、LLMから画像・マルチモーダルまでも参考にしてほしい。
現場目線で感じること
この種の研究が公開されるたびに、「追いかけっこが終わらないな」と正直感じる。安全機能を強化すれば攻撃手法が進化し、また防御側が追いつく。LLMのセキュリティはその繰り返しの真っただ中にある。
情シスとして難しいのは、これが「今すぐAI禁止」を判断できるほどの脅威でもなく、「問題ないから何もしなくていい」と言える状態でもない点だ。AIツールの利便性を業務に活かしながら、リスクをどう管理するかの「枠組み」を先に作ることが急務だ。IPAや各ベンダーのセキュリティガイドラインを定期的にチェックする習慣が、実務上の武器になる。
まとめ
- HauntAttackは、推論AIの思考プロセスに有害な指示を埋め込むジェイルブレイク手法。計11モデルで平均70%・最大96%の攻撃成功率を記録した(査読前研究)
- 安全機能を施したモデルでも突破される可能性があり、AIエージェントとの組み合わせではリスクがさらに高まる
- IPAの生成AIセキュリティガイドラインを活用したAI利用ポリシーの整備が、情シスとして現実的な第一歩となる
出典
- HauntAttack論文(arXiv:2506.07031): https://arxiv.org/abs/2506.07031
- IPA AIセキュリティ短信: https://www.ipa.go.jp/digital/ai/security/ai-security-bulletin.html

