|
Claude Mythosはサイバーセキュリティの「AlphaGoモーメント」か
|
米Anthropicが発表した最新AI「Claude Mythos」。現在のところ、一般公開はせずに限られたパートナーのみへの限定公開となっている。その理由は、サイバー攻撃性能が非常に高いからだ。
|
Anthropic自身の報告でもMythosがゼロデイ攻撃を自律的に開発していたとあった他、第三者機関として英国政府の研究機関AISIが検証したところでも、人間の専門家が20時間かけて行う想定のサイバー攻撃シミュレーションを10回中3回完遂。検証結果を受けてAISIは「ネットワークへのアクセス権が取得された小規模で防御が脆弱なエンタープライズシステムに自律的に攻撃する能力がある」と評価した。
|
こうした性能は攻撃にも防御にも使える。あらかじめ自社のシステムに攻撃をかけて脆弱性を洗い出す方法を「ペネトレーションテスト」などと呼ぶが、ある意味最強のペネトレーションテストに使えそうだ。そしてそれを自社ではなく他社に向ければもちろんサイバー攻撃となる。
|
Anthropicが悪を成さなければ/ユーザーが悪を成さないように出力を制御すれば問題ないのではないか、とも思えるが、なかなかそう楽観的にもなれない。なぜなら、現在オープンウェイトモデルが勢いよく発展しており、AnthropicやOpenAIのフロンティアモデルに近づくほどの性能を見せ始めているからだ。
|
Anthropicが単なるスケーリング則ではない学習方法によってMythosを生み出したならば、他社はそれに簡単には追随できないかもしれない。だがいわゆる“シンギュラリティ”とも言える、「AIでAIを高速に自律開発する」段階にはまだ至っていないと同社は申告している。それならば、他社も時間の問題で追いつく可能性がある。
|
オープンウェイトモデルだから誰でも使えて即危険というわけではないのだが、ここで注目したいのが「abliteration」という技術。オープンウェイトモデルでも、例えばエロティックな表現、違法行為をそそのかす表現、開発国によっては好ましくない特定の表現などを出力しないようにそうした出力を“拒否させる”、というチューニングが開発ベンダーによって普通に行われている。abliterationはこの「回答拒否」を取り除く技術で、現在のホットなオープンウェイトモデルでは第三者によってabliteratedモデルがしばしば公開されている。
|
つまり、これからさらに高性能になっていくであろうオープンウェイトモデルについて、開発ベンダーが「違法なことには使われないように」とチューニングしたとしても、すでにそれをバイパスする技術がある以上は、違法なことへの投入もユーザーの意思次第で可能ということだ。
|
現在においてもLLMを使ったサイバー攻撃はあるが、悲観的に見るならば、Mythosレベルのゼロデイ攻撃が当たり前になる世界が来るまで時間の問題、ということになる。
|
ユーザー企業として今できることは、Mythosを検証した英AISIが指摘したように、まずはサイバーセキュリティの基本を抑えること。つまりセキュリティアップデートの定期適用、堅牢なアクセス制御、適切なセキュリティ設定、包括的なログ記録──といったことだ。基本を抑えられていない企業からやられていくため、基本をしっかり抑えるだけでも短期的にはしのげるはずだ。
|
ただその先は分からない。Mythosなどを使って先回りして脆弱性を潰すような防御ソリューションが出るのかもしれない。もしくは、考えにくいが一定性能以上のAIは公開されなくなるのかもしれない。Mythosはサイバーセキュリティにおける「AlphaGoモーメント」であるように個人的には感じられる。実社会に極めて重要な分野で、人類の知らない世界が幕を開けつつある。(井上)
|