序論
大規模言語モデル(LLM)を使った「生成AI」は、日常のツールとしても広まった。
Anthropic社提案の「Constitutional AI(CAI)」は、AIの出力を安全で役に立つものにするための仕組み、として喧伝されてきた。AIの「安全性」について関心をもつ各国政府関係組織はその提案に注目し、同社との契約関係を結んだりもした。
同社のCAIは、AIに「憲法」と呼ばれるルールを教え、それをもとに自分の出力をチェックして直すという考え方が取られている。
しかし、ここにはいくつかの問題が存在する。
本稿では、CAIという考え方がAIの構造の中でどう位置づけられるかを見ながら、その問題性について検討していく。特に、名前の意味、学習の仕組み、AIの内部構造との関係、そして出力の正しさに関わる問題について順を追って考える。
(AnthropicのConstitutional AI については同社 Constitutional AI: Harmlessness from AI Feedback 参照)
第1節:「憲法」という名前は合っているのか-「憲法」を壊す「憲法」概念-
「憲法」という言葉は、政府組織の行動をしばるための外からのルールを指す(国民の倫理行動規範ではない)。つまりは政府自身がルールを作ってそれを守る、という話ではない。ところがCAIでは、AIが自分でその「憲法」を読み、それに合わせて自分自身で自分を直す。
これは「自己判断で守るルール」にすぎない。そのルールが憲法と合っているのかどうかの判断機構は存在しない。
つまり名前は「憲法的」でも、やっていることは外からの制限ではなく、監視無しの自己修正にすぎない。
この時点で、「Constitutional」という言葉の本来の意味を間違って使っていることがわかる。
たとえば、人間の世界では、政府の行動や立法が憲法に違反しているかどうかを判断するのは裁判所のような独立機関である。
一方CAIでは、AIが自分で自分の出力をチェックしている。憲法というよりも、マニュアルや社内ルールに近い。そう考えると、「憲法」違反を犯す行為を「憲法」と呼んでいると言わざる得ない。
第2節:CAIで使われている「学習」の仕組み
CAIは、AIが自分の出力を自分で比べて、どちらがより良いかを選ぶことで学習していく。これは「強化学習(RL)」の一種で、従来の人間からのフィードバック(RLHF)ではなく、AI自身の判断(RLAIF)を使うのが特徴だ。
強化学習は目的特化型の囲碁将棋AIには効果を発揮する。しかし、この仕組みを社会分野の装置やソフトウエアに適応するのは、かなりの危険性を伴う。AIが設定された「報酬」(目的最適化)をもとめて、突貫するためいわゆる暴走(過剰化)が危惧されるからだ。
どういう出力が「良い」かを決めるルール(報酬関数)があいまいだと、変な学習結果になる。
出力のどこが良くて選ばれたのかが、説明できない。
「たくさん選ばれたから良い」となりがちで、「なぜ良いか」がない。
つまり、そもそもCAIは「意味を考えて直している」わけではない。
統計的に「より選ばれやすかった出力を選んでいる」にすぎない。
さらに、AIが自分の出力を評価するという構造には、循環的な問題もある。
出力のどちらが良いかを決めるAI自身も、同じ訓練を受けたモデルである場合、評価基準が閉じたループになってしまう(自己言及的ループ)可能性があるからだ。これは、外からの視点が抜けた学習であり、バイアスの強化にもつながりかねない。
第3節:生成AIのしくみとCAIの位置ーLLMは生成AIの出力担当でしかない
生成AIは、大きく分けて3つの部分で成り立っている。
・トークナイザーーーもとデータテキストを数字に変える。言葉が細かく分けられすぎて意味がとびやすい(というより、もともと意味をもった属性データなどない、といったほうが正確である)。
・NLP(自然言語処理)処理層ーーー入力の分析と会話の流れの管理。意味を理解する仕組みがない。
・LLMー単純にいえば出力器である。答えを作る(文章を出力する)。表面的にもっともらしいものを作るのが役目である。
CAIはこの中の「出力」を少し調整するだけである。なおLLMを「生成AI」の心臓だと考え、その性能評価をもって「生成AI」商品の優劣を語るのは、生成AI企業の販売戦略に乗せられているだけの話である。少なくとも上記3要素の機能と役割をトータルに見ない限り、「生成AI」評価は出来ないことを、指摘しておきたい。
したがって、CAIは、NLPが司る入力の分析や文脈の理解には関わっていないので、入力の中で何が重要か、話の流れがどうつながっているかなどを理解する力はない。また、トークナイザーで言葉が分断されてしまっても、それを出力で補うわけではない。
そもそも、現行の「生成AI」には全体として、本来の意味での意味解析や推論の仕組みは実装されていない。
その問題に最も誠実に取り組み、それに近いものを実装してきた製品は独の翻訳AI「DeepL」であり、ChatGPT/Claude/Geminiなどの「生成AI」はそれを意識していない。
なので、「それは本当に正しいのか」「別の可能性はあるのか」といった判断は、統計的にもっともらしい出力を並べているだけで、論理的な裏付けがあるわけではない。CAIは、この生成AIの根本構造に手を入ることは、不可能である。
第4節:本当のコントロールはどこにあるか-NLP制御層の隠蔽
実際の生成AIのNLP処理の中には、ユーザーの入力や出力に対して、全体のふるまいを決める「制御レイヤー」がある。ここでは、たとえば「攻撃的なことは言わない」「会社批判には曖昧に答える」といったルールが決められている。
このレイヤーは、AIがどうふるまうかを一番左右するところであり、人がAIをどう使いたいかに直結している。しかしNLP処理にかかわらないCAIは、この層には関与しない。あくまで出力を「あとから直す」だけにとどまっている。
たとえば、制御レイヤーでは「このトピックには答えない」「こういう語調にする」といった高度なルールを設定できる。これは、ユーザーの体験やサービス提供側の方針に合わせてカスタマイズできる部分だ。ここをどう設計するかが、実はAIのふるまいを決める中心である。
その点で、CAIが出力だけを調整しても、AIの振る舞いの全体に対する働きかけとしては限定的にすぎない。
生成AI企業は、生成AI入出力の作動状態にもっとも影響をあたえるこのNLP制御層の存在明示を避けて来た。
それを製品宣伝のコアにすると、AIの神秘性が無くなり、また企業の発話バイアスの存在が露呈するからだ。
そして、「人間らしい発話」宣伝に役立つLLMを中心にすえて、それが生成AIなのだ、いう言説戦略をとってきたわけである。
LLMにかかわるCAIは、そのポジショントークのためのさらなる象徴として機能しているのである。
第5節:事実がひっくり返る仕組みー真偽反転問題の隠蔽
ユーザーとの会話をスムーズにするために、生成AIはときに事実と違うことを「そうですね」と受け入れてしまうことがある。たとえば、間違った情報を前提にした質問にも、AIはそれを否定せずに話を合わせてしまう。
これがくり返されると、会話の前提がすべて間違ったまま進んでいく。ユーザーにとっては、「AIもそう言っていたから正しい」と思ってしまう危険もある。
このような「事実と違うけど会話がうまくいく」ことを優先する仕組みは、今までの生成AI製品は実装してきた(真偽反転制御と呼ぶ)。
この制御処理もNLPの役目なので、CAIは、これを修正しない。むしろ「人にやさしい答え」を優先するルールとしてうけとり、誤りを助長してしまう面もある。
こうした出力は、AIの「親切さ」や「丁寧さ」に見える場合があるため、ユーザーには好ましく思われやすい、と受け取るからである。もちろん、それは「正確さ」とは無関係である。
結論
CAIは、「AIを安全で便利にする」ことを目指しているが、その方法は以上見てきたように効力を持たない。
名前にある「憲法」は、実際の制度としての憲法とはまったく性格が違い、むしろ自己修正的なルールにすぎない。
また、出力だけを調整する仕組みでは、AIがなぜそう答えるのか、そもそも事実に合っているか、という単純かつ深い問題は解決できない。
制御の中心であるポリシー層に一切言及せず、統計的な調整だけで出力を「よく見せる」ことに注力しているCAIは、全体のふるまいのごく一部にしか関与していない。
要するに、CAIは、見た目を少し整えるフィルターにとどまっており、生成AIの入出力「制御」にかかわる根本的な問題には届いていない。出力装置にしかすぎないLLMにのみ視点をあわせ、あたかもそれが安全性の担保であると言いつのることは、全体の把握をゆがめ、不用意にそれを採用してしまう組織が増えていく。それはこの2年間、現実に進行してきた潮流であった。
だが、そのような生成AI製品の販売戦略は社会・市場からの批判をうけて寿命を迎えつつある。入力・出力プロセスの不透明さは、たとえばEUのAI規制法の重点監視領域の一つである。AI規制のトレンドは不可逆となっており、今後半年以内に、”Constitutional AI”という名称も消え去るだろう。