LLMに「新語」を教え込むだけで挙動を精密制御する。Google DeepMind『新語学習』が解き明かすAIの概念理解

ノイズの多いAIの世界から、未来を読み解くための本質的な「シグナル」をあなたに。

ロジです。

大規模言語モデル（LLM）の振る舞いを人間の価値観に沿わせる「アライメント」は、AI開発における最重要課題の一つです。従来、その制御にはプロンプトエンジニアリングや、モデル内部の活性化ベクトルを操作するステアリングといった手法が用いられてきました。しかし、これらの手法とは根本的に異なる、直感的かつ強力なアプローチがGoogle DeepMindによって示されました。

それが、本稿で解説する「新語学習（Neologism Learning）」です。人間が「Doomscrolling（憂鬱なニュースを延々と見続けること）」のような新しい概念に新しい言葉を与えるように、LLMに対しても「新しい単語」を導入し、その単語埋め込みだけを訓練することで、モデルの振る舞いを驚くほど精密に制御できることが実証されたのです。

さらに驚くべきことに、モデルは学習した新語の意味を「自己言語化」、つまり自らの言葉で説明できることも判明しました。この記事は、LLMの制御性と解釈可能性の未来を左右する、重要な研究報告の核心に迫るものです。

この記事は、きっとあなたの役に立ちます。

LLMのアライメント技術や制御手法の最前線に関心を持つ研究者の方
モデルの解釈可能性（Interpretability）を向上させる具体的な手法を求めるエンジニアの方
AIのブラックボックス内部で「概念」がどのように学習・表現されているか、その本質を知りたい方

AIの「思考」を言語で直接操作する、その可能性をご覧ください。

【本記事のベース論文】

タイトル: NEOLOGISM LEARNING FOR CONTROLLABILITY AND SELF-VERBALIZATION
著者: John Hewitt, Oyvind Tafjord, Robert Geirhos, Been Kim
雑誌名あるいは会議名: Preprint (arXiv:2510.08506v1)
出版年: 2025

Neologism Learning for Controllability and Self-Verbalization

Humans invent new words when there is a rising demand for a new useful concept (e.g., doomscrolling). We explore and val...

1 「新語学習」のメカニズム：巨大なモデルを“凍結”したまま概念を注入する
2 実証：新語はどれほど強力にLLMを制御できるか？
3 発見1：AIが新語の意味を自ら語る「自己言語化（Self-Verbalization）」
4 発見2：人間の直感を裏切る「機械だけの同義語（Machine-Only Synonyms）」
5 応用：複数概念の「構成性」も獲得
6 まとめ：「新語学習」が拓くAIとの「共有語彙」の未来

「新語学習」のメカニズム：巨大なモデルを“凍結”したまま概念を注入する

新語学習の最大の特徴は、その「効率性」と「非侵襲性」にあります。数十億、数兆パラメータを持つLLM本体の重みは一切変更せず、完全に凍結（固定）したまま実行されます。

語彙の拡張とピンポイント訓練

学習プロセスは以下の通りです。

語彙の拡張: まず、LLMの既存の語彙に、制御したい概念（例：「お世辞を言う回答」）に対応する新しい単語（c1など）を追加します。
埋め込みの追加: この新しい単語に対応する単語埋め込みベクトル（word embedding）を新しく初期化します。（論文では、実験の意図と無関係な既存単語の埋め込みで初期化）
概念データセットの準備: 制御したい概念を「示す」回答（これを「望ましい回答」と呼びます）と、「示さない」回答（これを「望ましくない回答」と呼びます）のペアを集めたデータセットを構築します。
新語の埋め込みのみを訓練: モデルの他の全パラメータを凍結したまま、プロンプトに新語（例：「Give me a c1 answer.」）を含めた場合に、「望ましい回答」がより出やすくなるように、そして「望ましくない回答」がより出にくくなるように、新語の埋め込みベクトルだけを最適化します。

論文では、この最適化にDPO（Direct Preference Optimization）の派生であるAPO-upという損失関数（論文式(2)）を使用し、より効果的な学習を実現しています。

実証：新語はどれほど強力にLLMを制御できるか？

この手法は、単なる理論に留まりません。論文では、単純なスタイルの変更から、意味的に複雑な指示に至るまで、その強力な制御能力が実証されています。

単純な概念：92%の精度でスタイルを制御

研究チームはまず、7つの単純な概念（長いテキスト、短いテキスト、一文のみ、”like”の多用、お世辞、回答拒否、間違った回答）で実験を行いました。

結果は驚くべきものでした。Table 2で示されている通り、新語学習は、ベースモデルの振る舞いと目標とする振る舞いとのギャップ（差分）を、平均で92%も埋めることに成功しました。例えば、「短いテキスト」を指示する新語は、モデルの平均単語数を787.1語から54.0語へと劇的に減少させ、訓練データの目標値（90.1語）すら上回る強力な制御を達成しています。

複雑な概念：AxBenchでも既存手法を凌駕

次に、より抽象的で複雑な概念セットである「AxBench」を用いて性能が検証されました。これは「島や地理的な場所への言及」「支払い、給料、金銭的な取り決めへの言及」といった、高度な意味理解を要求するタスクです。

Table 3が示すように、新語学習はここでも卓越した性能を発揮しました。5つの複雑な概念のうち4つにおいて、新語学習は、人間が詳細なプロンプトで指示したケース（Overall w/ concept）と同等かそれを上回る総合スコアを記録しました。特に概念の遵守度（Concept Score）は、5つのタスク全てでほぼ完璧（2.00または1.87）であり、新語が複雑な指示内容を正確にエンコードしていることを証明しました。

発見1：AIが新語の意味を自ら語る「自己言語化（Self-Verbalization）」

この研究の最も衝撃的な発見は、新語を学習したモデルが、その新語の意味を人間の言葉で説明できるという「自己言語化」の能力です。

「意図的に間違った回答」を生成する新語を学習したモデルに対し、その新語の意味を尋ねたところ、モデルは「…完全で、一貫性のある、または意味のある回答の欠如…」と、その概念の本質を正確に言語化しました。

検証手法：「プラグイン評価」

これが単なる偶然やまぐれではないことを証明するため、研究チームは「プラグイン評価（Plug-in evaluation）」という巧妙な検証手法を導入しました。

これは、プロンプト内の新語（例：c1）を、モデルが自己言語化した説明文（例：「a lack of complete answers…」）や同義語（例：「nonfunctional」）に置き換えて（プラグインして）実行し、新語を用いた時と同様の振る舞い（＝間違った回答）が引き起こされるかを測定するものです。

Table 2の結果が示す通り、モデルが生成した詳細な説明文（Long verbalization）は、新語そのもの（平均92%）に迫る平均83%のギャップ改善率を達成し、その説明文が単なるテキストではなく、モデルの振る舞いを実際に制御する力を持っていることを実証しました。

【ロジの視点】

モデルの内部状態が「言語化」可能であるという事実は、AIの透明性におけるブレークスルーです。これまで私たちが観測できたのは、活性化ベクトルや確率分布といった難解な数値データでした。しかし新語学習は、モデルの内部的な「概念理解」そのものを、私たちが直接理解できる「言葉」として引き出すインターフェースを提供したと言えます。これは、AIのデバッグやアライメント検証に革命をもたらす可能性を秘めています。

発見2：人間の直感を裏切る「機械だけの同義語（Machine-Only Synonyms）」

自己言語化の研究は、さらに奇妙で示唆に富む現象を明らかにしました。それが「機械だけの同義語」です。

Section 2のハイライトとも言える実験で、「一文で回答する」という概念を新語に学習させ、その同義語を尋ねたところ、モデルは “statement”（声明）などに混じって “lack”（欠如） という単語を生成しました。

人間が「欠如した（lack）回答」と聞いても「一文の（single-sentence）回答」とは直感的に結びつきません。しかし、研究者が試しに「Give me a lack answer.」とプロンプトを入力したところ、Gemmaモデルの回答は平均42.9文から15.8文に、Geminiモデルでは平均37文から4文にまで激減したのです。

これは、LLMの巨大な意味空間において、人間の直観では無関係に見える「一文」と「欠如」が、実際には非常に近しい概念としてマッピングされていることを示す強力な証拠です。AIは、私たちが使う言葉を、私たちとは異なる関係性で理解しているのです。

応用：複数概念の「構成性」も獲得

言語の力は、単語を組み合わせて複雑な意味を「構成」できる点にあります。研究では、新語学習がこの構成性を扱えるかも検証されました。

実験では、「短い（short）」「数字を含む（numerical）」「（Geminiモデルにとって）高確率な（likely）」という、時に相反する（例：短くすると数字は減りがち）3つの概念を同時に学習させました。

Table 5の結果は明確です。特に複雑な「likely」概念を含む組み合わせ（例：「3つ全て」）において、新語学習は調和平均スコア0.48を達成し、プロンプトでいくつかの例を示すFew-shot学習（0.39）を著しく凌駕しました。新語学習は、個々の概念だけでなく、それらが同時に出現する際の複雑な関係性までデータから学習し、よりロバストな制御を実現しています。

KEY SIGNAL:

新語学習は、LLMの巨大なパラメータ群を変更することなく、特定の「概念」を制御する高効率なインターフェースを提供し、同時に「自己言語化」を通じてモデルの内部理解を解釈可能にする、制御性と透明性を両立する革新的なアプローチである。