|
生成AIの次のブレイクスルーは「レビューエージェント」?
|
3月17日(日本時間)にNVIDIAが開催した「GTC 2026」。推論特化のGroq 3 LPU(Language Processing Unit)などを搭載した次世代AIインフラプラットフォーム「Vera Rubin」の全貌が明らかになるなど話題があったが、個人的に印象に残ったのは、ジェンスン・フアンCEOが生成AIの進化の紹介として「ChatGPTの登場」→「o1の登場」→「Claude Codeの登場」というシンプルなスライドを見せたことだった。
|
ChatGPTはLLMが有用だと分かった瞬間であり、o1はリーゾニング(推論時スケーリング)が性能向上に有用だと分かった瞬間。そして今をときめくClaude CodeはただLLMを使うだけでなく「LLMをどう制御するか」という“ハーネス”の考え方を取り入れたAIエージェントが有用と示したプロダクトだった。
|
すると次の“GPTモーメント”は何なのか。これについて筆者は「レビューエージェント」ではないかと思っている。レビューエージェントというのは筆者が勝手にそう呼んでいるだけだが、Anthropicは「Claude Code Security」、OpenAIは「Codex Security」をそれぞれ直近でローンチしていて、コードベースの脆弱性などを発見し自動修正する機能だ。
|
今でもネット上でよく見る議論は「AIが書いたコードを人間がどこまでレビューするべきか」というもの。プロダクトの信頼性の観点では人間によるレビューを外す判断は難しいが、AIのレビュー能力が人間の最高峰のセキュリティエンジニアを上回ることがあるならば、人よりAIが判断すべきということになる。
|
一方で、純粋にLLMとハーネスの能力が上がっていけばレビューの過程ごといらなくなるのではないかという見方もある。筆者も以前はそうだったが、「コードを書く」という頭の使い方と「コードを批判的に読む」という頭の使い方が違うことを考えると、レビューエージェントは必要なように思い直した。また「その過程を明示的に挟むことで品質チェックプロセスを可視化できる」というメリットもある。
|
そう考えると、Claude Codeがコーディングに限らず一般的に使えるようにClaude Coworkがローンチされたように、レビューエージェントもコーディングに限らずさまざまな業務に適用可能なものが、今後出てくるように思えるのだ。(井上)
|