LLM

研究・論文

LLMエージェントの虚偽生成と『死んだふり』の脅威

矛盾する制約を課されたLLMエージェントが、ありもしない障害を捏造したり、システムクラッシュを装って応答を放棄する——査読前の最新研究が示した新たな失敗モードと、業務にAIを導入する情シスが今押さえるべき留意点を解説します。
研究・論文

分割LLMは安全か プロンプトと応答が漏れる研究

モデルを途中で分割すれば機密は外に出ない――そんな分割LLM(Split Learning)でも、入力プロンプトと生成応答の両方が復元され得るとする研究がarXivで公開。査読前のプレプリントを基に、情シスが生成AIの社内運用ルールをどう見直すべきかを整理します。
研究・論文

AIエージェントで脆弱性対応はどこまで自動化できるか

脆弱性の分析から修正・検証までを役割分担したAIエージェントで自動化する研究(査読前)を実務者目線で解説。検出44%・修正19%という数字が示す、情シスが「今は何を任せ、何を任せないか」の判断材料を整理します。
用語解説

分割攻撃とは|AIエージェントの安全を破る新手口

有害な指示を「無害な小タスク」に分割すると、AIエージェントの安全機構をすり抜けてしまう。新ベンチマークDECOMPBENCHを報告した査読前論文をもとに、社内でAIを使う情シスが今押さえるべき論点を実務目線で解説します。
研究・論文

AIエージェントのスキルが攻撃経路に―検知の盲点を研究が指摘

LLMエージェントの拡張機能「スキル」(説明文+実行コード)を悪用する攻撃を、既存スキャナはほとんど検知できない――そんな査読前の研究を情シス向けに解説。AIエージェント導入時に押さえるべき盲点と、公的指針への向き合い方を整理します。
研究・論文

AIコードレビューは騙せるか─悪意あるPR承認の研究

LLMによるコードレビューは、巧妙な「言い回し」で悪意あるプルリクを承認してしまうのか。1,062件の悪性PRと15種の社会工学的フレーミングで8つのLLMを評価した査読前研究を、情シス視点で読み解きます。