Transformerと大規模言語モデル

生成AIパスポート試験対策

Transformerアーキテクチャ

Transformer は、2017年にGoogleの研究チームが論文「Attention Is All You Need」で発表したニューラルネットワークアーキテクチャです。この論文のタイトルが示すとおり、Transformerの核心は Self-Attention（自己注意機構） という仕組みにあります。Transformerの登場は自然言語処理の分野に革命をもたらし、BERT、GPT、ChatGPTをはじめとする現在のAI技術の基盤となっています。

Transformer以前、自然言語処理では RNN（Recurrent Neural Network: 再帰型ニューラルネットワーク） やその改良版である LSTM（Long Short-Term Memory） が主流でした。RNN/LSTMは文章を先頭から1単語ずつ順番に処理していく「逐次処理」方式です。「私は昨日東京で友人と食事をした」という文を処理する場合、「私は」→「昨日」→「東京で」→ ... と1語ずつ処理します。

この逐次処理には2つの大きな問題がありました。第一に、並列処理ができない ため学習に時間がかかること。第二に、文が長くなると 先頭の情報が後方に伝わりにくくなる（長距離依存問題）ことです。

Transformer の処理フロー

Self-Attention（自己注意機構）

Self-Attention は、文中のすべての単語間の関係性を 一度に直接計算 する仕組みです。RNNのように順番に処理するのではなく、文全体を見渡して「どの単語がどの単語に関連しているか」を同時に把握します。

例えば、「そのプログラマーはバグを修正した。彼はコーヒーを飲んだ」という文において、「彼」が「プログラマー」を指すことを理解するには、離れた位置にある単語同士の関連を把握する必要があります。Self-Attentionでは、「彼」という単語から文中のすべての単語に対して「注意（Attention）」のスコアを計算し、「プログラマー」との関連が高いことを直接学習します。

Self-Attentionの処理は以下のステップで行われます。

各単語から Query（問い合わせ）、Key（鍵）、Value（値） の3つのベクトルを生成
Queryと全単語のKeyの内積を計算して Attentionスコア（関連度） を求める
スコアをSoftmax関数で正規化して Attention重み に変換
Attention重みでValueを加重平均し、文脈を反映した表現を得る

このQ・K・V（Query・Key・Value）の仕組みは、試験でも頻出の概念です。

RNN/LSTM vs Transformer の比較

比較項目	RNN/LSTM	Transformer
処理方式	逐次処理（1単語ずつ順番に）	並列処理（文全体を同時に）
学習速度	遅い（並列化が困難）	速い（GPU並列化に適する）
長距離依存	苦手（文が長いと先頭の情報が薄れる）	得意（Self-Attentionで直接参照）
文脈理解	近くの単語の文脈に偏りやすい	文全体の文脈を均等に把握できる
スケーラビリティ	大規模化が困難	大規模化に適する（LLMの基盤）
代表モデル	機械翻訳（Seq2Seq）	BERT、GPT、ChatGPT

Transformerの並列処理能力は、現代のGPU（画像処理装置）の大規模並列計算能力と非常に相性がよく、これがモデルの大規模化を可能にしました。数千億パラメータを持つLLMが実現できたのは、Transformerの並列処理能力あってこそです。

エンコーダ・デコーダ構造

Transformerは エンコーダ と デコーダ の2つの部分で構成されています。

エンコーダ: 入力テキストを読み取り、文脈を反映した内部表現に変換する部分。Self-Attentionによって、各単語が文全体の文脈を含んだベクトルに変換される
デコーダ: エンコーダの出力を参照しながら、出力テキストを1単語ずつ生成する部分。生成済みの単語も参照して次の単語を予測する

後に登場するBERTはエンコーダのみ、GPTはデコーダのみを使用するモデルです。用途に応じてTransformerの構造を取捨選択しています。

位置エンコーディング（Positional Encoding）

Self-Attentionは文中の全単語を同時に処理するため、そのままでは 単語の順序情報 が失われてしまいます。「犬が猫を追いかけた」と「猫が犬を追いかけた」が同じ表現になってしまうのです。

この問題を解決するのが 位置エンコーディング です。各単語の埋め込みベクトルに「何番目の位置にあるか」を示す信号を加算することで、語順の情報をモデルに伝えます。Transformerでは三角関数（sinとcos）を使った位置エンコーディングが提案されましたが、後のモデルでは学習可能な位置エンコーディングなど、さまざまな改良が行われています。

マルチヘッドAttention

Transformerでは、Self-Attentionを 複数（マルチヘッド） 同時に実行します。各ヘッドが異なる観点（構文的な関係、意味的な関係など）から単語間の関連を捉えることで、より豊かな文脈理解が可能になります。

ポイント

Transformerは2017年の論文「Attention Is All You Need」で発表。Self-Attention（自己注意機構）により文中の全単語間の関係を同時に計算する。RNN/LSTMの逐次処理と異なり並列処理が可能で、長距離依存問題を解決。Query・Key・Valueの3ベクトルでAttentionスコアを計算する。位置エンコーディングで語順情報を補完し、マルチヘッドAttentionで多面的な文脈理解を実現する。

用語

Transformer: Self-Attentionを中核とするニューラルネットワークアーキテクチャ。2017年にGoogleが発表
Self-Attention: 自己注意機構。文中の全単語間の関連度を同時に計算する仕組み
RNN: Recurrent Neural Network（再帰型ニューラルネットワーク）。逐次処理で時系列データを扱うモデル
LSTM: Long Short-Term Memory。RNNの改良版。長期記憶と短期記憶を使い分ける
Query・Key・Value: Self-Attentionで使う3つのベクトル。QとKで関連度を計算し、Vで情報を集約する
位置エンコーディング: Positional Encoding。単語の順序情報をモデルに伝えるための仕組み
マルチヘッドAttention: 複数のAttentionを同時に実行し、異なる観点から文脈を捉える仕組み

BERTと双方向モデル

BERT（Bidirectional Encoder Representations from Transformers） は、2018年にGoogleが発表した自然言語処理モデルです。BERTの最大の特徴は 双方向（Bidirectional） の文脈理解にあります。

BERTはTransformerの エンコーダ部分のみ を使用するモデルです。文章全体を入力として受け取り、各単語に対して前後両方の文脈を考慮した表現を生成します。

従来のモデルは文を左から右（または右から左）の一方向に読んでいました。例えば、「彼はバスケの___で有名だ」という文で空欄を予測する場合、左から右のモデルは「彼はバスケの」までの情報しか使えません。しかしBERTは 前後両方向 の文脈を同時に見るため、「で有名だ」という後続の文脈も考慮して「選手」「才能」「スキル」などの適切な単語を予測できます。

方式	参照する文脈	例: 「Bank」の意味判定
左→右モデル	左側のみ	「I went to the bank」→ 銀行？川岸？（後続文脈なし）
右→左モデル	右側のみ	「to deposit money」→ 銀行だろう（先行文脈なし）
BERT（双方向）	両方向	「I went to the bank to deposit money」→ 確実に銀行

マスク言語モデル（MLM: Masked Language Model）

BERTの学習方法で最も重要なのが マスク言語モデル（MLM） です。入力テキストの一部の単語をランダムに [MASK] トークンで隠し、前後の文脈から隠された単語を予測する課題で学習します。

例えば、「東京は日本の [MASK] である」という入力に対して、BERTは前後の文脈から「首都」を予測するように学習します。このように穴埋め問題を解くことで、BERTは自然と双方向の文脈理解能力を獲得します。

BERTのもう一つの事前学習タスクとして NSP（Next Sentence Prediction: 次文予測） があります。2つの文が連続した文かどうかを判定する課題です。例えば「今日は天気がいい」「公園に散歩に行こう」は連続文、「今日は天気がいい」「株価が下落した」は非連続文と判定します。NSPによって、文単位の関係性理解も学習します。

事前学習とファインチューニング

BERTの学習は 2段階 で行われます。

段階	名称	内容	データ
第1段階	事前学習（Pre-training）	MLMとNSPで汎用的な言語理解を獲得	大量のテキスト（Wikipedia等）
第2段階	ファインチューニング（Fine-tuning）	特定タスクに合わせてモデルを微調整	タスク固有の少量データ

ファインチューニングの応用タスク

BERTの画期的な点は、事前学習済みのモデルに少量のタスク固有データでファインチューニングを行うだけで、さまざまなタスクで高い性能を発揮できることです。

タスク	説明	応用例
テキスト分類	文章をカテゴリに分類	感情分析（ポジティブ/ネガティブ）、トピック分類
質問応答（QA）	文章中から質問の答えを抽出	FAQシステム、カスタマーサポート
固有表現認識（NER）	テキストから人名・地名・組織名等を抽出	情報抽出、ニュース分析
文の類似度判定	2つの文の意味的な類似度を計算	重複質問の検出、文書検索

ファインチューニング方式の利点は、タスクごとにゼロからモデルを学習する必要がないことです。事前学習で獲得した汎用的な言語知識を 転移学習（Transfer Learning） として活用し、少量のデータで高精度を実現します。

BERTは文の「理解」に特化しているため、文章を新たに生成するタスクには向いていません。文章生成が得意なのは、次のセクションで解説するGPTシリーズです。

BERTの派生モデル

BERTの成功を受けて、さまざまな派生・改良モデルが開発されました。

モデル	開発元	特徴
RoBERTa	Meta（Facebook）	BERTの学習手法を最適化。NSPタスクを除去し、より大量のデータで学習
ALBERT	Google	BERTのパラメータを効率的に共有し、モデルサイズを大幅に削減
DistilBERT	Hugging Face	BERTの知識蒸留版。サイズ40%削減で性能97%維持
日本語BERT	各研究機関	日本語テキストで事前学習。東北大学BERTなどが有名

BERTとその派生モデルは、企業の検索エンジン改善、チャットボットの意図理解、文書分類システムなど、言語理解が必要な多くの実用場面で活用されています。Googleの検索エンジンにもBERTが組み込まれており、検索クエリの意図をより正確に理解するために使われています。

ポイント

BERTはTransformerのエンコーダのみを使用し、双方向の文脈理解を行う。事前学習ではMLM（マスク言語モデル: 穴埋め問題）とNSP（次文予測）で汎用的な言語理解を獲得する。ファインチューニングにより、分類・質問応答・固有表現認識など多様なタスクに少量データで適応可能。BERTは文の「理解」に特化しており、文章「生成」にはGPTが適する。

用語

BERT: Bidirectional Encoder Representations from Transformers。双方向の文脈理解を行うGoogleの言語モデル
MLM: Masked Language Model（マスク言語モデル）。テキストの一部を隠して予測する事前学習タスク
NSP: Next Sentence Prediction（次文予測）。2文が連続するかを判定する事前学習タスク
ファインチューニング: Fine-tuning。事前学習済みモデルを特定タスク向けに少量データで微調整する手法
転移学習: Transfer Learning。事前に学習した知識を別のタスクに活用する学習方法
固有表現認識: NER（Named Entity Recognition）。テキストから人名・地名・組織名等を自動抽出する技術
知識蒸留: 大きなモデルの知識を小さなモデルに移す手法。DistilBERTなどで使用

GPTシリーズとChatGPT

GPT（Generative Pre-trained Transformer） は、OpenAIが開発したテキスト生成に特化した言語モデルのシリーズです。GPTはTransformerの デコーダ部分のみ を使用し、自己回帰型（Autoregressive） の文章生成を行います。

自己回帰型とは、「直前までに生成した単語列を参照して、次の1単語を予測する」という処理を繰り返す方式です。「今日の」→「天気は」→「晴れ」→「です」のように、1単語ずつ順番に生成していきます。

BERTが「文を理解する」ことに特化しているのに対し、GPTは 「文を生成する」 ことに特化しています。この違いは、使用するTransformerの構成部分の違いに直結しています。

項目	BERT	GPT
Transformerの構成	エンコーダのみ	デコーダのみ
文脈の方向	双方向（前後両方を参照）	一方向（左→右のみ参照）
得意タスク	文の理解（分類・質問応答）	文の生成（文章作成・対話）
事前学習方法	マスク言語モデル（穴埋め）	次の単語予測（自己回帰）
代表的な用途	検索エンジン、感情分析	チャットボット、文章生成

GPTシリーズの進化

GPTシリーズはバージョンを重ねるごとにパラメータ数（モデルの規模）を大幅に増加させ、性能を飛躍的に向上させてきました。

モデル	発表年	パラメータ数	主な特徴
GPT-1	2018年	1.17億	Transformerデコーダによる言語生成の概念実証
GPT-2	2019年	15億	高品質な文章生成。あまりに自然な文章を生成するため一部非公開
GPT-3	2020年	1,750億	Few-shot学習が可能に。API提供開始
GPT-4	2023年	非公開（推定数兆）	マルチモーダル対応（テキスト+画像入力）。推論能力の大幅向上

GPT-2からGPT-3で パラメータ数が約100倍 に増加したことは特筆すべき点です。この大規模化により、GPT-3は明示的に学習していないタスクでも、少数の例示（Few-shot）だけで高い性能を発揮する能力を獲得しました。

GPT-4は マルチモーダル 対応が大きな進歩です。テキストだけでなく画像も入力として受け付け、画像の内容について質問に答えたり、画像に基づいてテキストを生成したりできます。例えば、グラフの画像を入力して「このグラフから読み取れる傾向を説明して」と指示することが可能です。

ChatGPTの登場とRLHF

ChatGPT は、2022年11月にOpenAIがリリースした対話型AIサービスです。GPT-3.5をベースに、人間との自然な対話に特化した調整が行われています。リリースからわずか2か月で1億ユーザーを突破し、生成AIブームの火付け役となりました。

ChatGPTの成功の鍵となったのが RLHF（Reinforcement Learning from Human Feedback: 人間のフィードバックによる強化学習） です。RLHFの学習プロセスは3段階で構成されます。

段階	名称	内容
第1段階	教師あり学習	人間が作成した理想的な応答例でモデルを微調整
第2段階	報酬モデルの学習	複数の応答を人間が順位付けし、「良い応答」を判定するモデルを学習
第3段階	強化学習	報酬モデルのスコアを報酬としてモデルを最適化（PPOアルゴリズム）

RLHFにより、モデルは「正確だが読みにくい回答」よりも「人間にとってわかりやすく有用な回答」を優先するようになります。これが、ChatGPTが「AIと自然に会話できる」と感じさせる理由です。

RLHFは安全性の向上にも貢献しています。有害なコンテンツの生成を抑制し、不適切な質問に対して回答を拒否する振る舞いも、人間のフィードバックを通じて学習されています。

BERT vs GPT のまとめ比較

試験では、BERTとGPTの違いが頻繁に問われます。以下の比較表で整理しましょう。

比較項目	BERT	GPT
開発元	OpenAI
Transformer構成	エンコーダ	デコーダ
文脈参照方向	双方向	一方向（左→右）
主な目的	言語理解	言語生成
事前学習タスク	MLM（穴埋め）+NSP	次の単語予測
代表的用途	分類、検索、質問応答	文章生成、対話、翻訳
対話AI	―	ChatGPT

なお、最近のLLMでは「理解」と「生成」の境界が曖昧になっています。GPT-4は文章生成だけでなく、読解力や推論力でも高い性能を示しており、単純に「BERTは理解、GPTは生成」と区切れない側面もあります。ただし、アーキテクチャの基本的な違い（エンコーダ vs デコーダ、双方向 vs 一方向）は試験対策として確実に理解しておく必要があります。

OpenAI以外にも、Google（Gemini）、Anthropic（Claude）、Meta（LLaMA）、Mistral AI（Mistral）など多くの企業・組織がLLMを開発しており、競争が激化しています。

GPT最新モデルとOpenAIの新サービス

OpenAIはGPT-4o以降も精力的に新モデル・新サービスを展開しています。

GPT-oシリーズ（推論特化モデル） は、回答前に内部で段階的に思考する Chain of Thought（CoT） を行う推論特化型モデルです。

モデル	特徴
o1	内部CoTで多段階推論を実行。STEM分野（科学・数学）で大幅な性能向上
o3	o1の後継。推論速度と精度がさらに向上
o4	マルチモーダル推論に対応した最新の推論モデル

その他の最新モデル・サービス:

名称	種類	概要
GPT-4.1	LLM	API向けモデル。コーディング性能と指示追従能力に特化
GPT-5	LLM	次世代フラッグシップモデル。推論・マルチモーダル能力を統合
Operator	サービス	AIが自律的にWebブラウザを操作するエージェントサービス
Codex	サービス	ソフトウェアエンジニアリングに特化したAIエージェント
Image Generation	機能	ChatGPTの画像生成機能（GPT-4oベース）。テキスト描画にも対応

GPT-oシリーズは「速く直感的に答える」従来のGPTと異なり、「時間をかけて考えてから答える」モデルです。数学の証明やコードのデバッグなど、論理的な推論が必要なタスクで特に威力を発揮します。

ポイント

GPTはTransformerのデコーダのみを使用する自己回帰型の文章生成モデル。GPT-1→2→3→4とパラメータ数の大幅増加で性能が飛躍。GPT-4はマルチモーダル対応。ChatGPT（2022年11月）はRLHF（人間のフィードバックによる強化学習）で対話品質を向上させた。GPT-oシリーズ（o1/o3/o4）は内部CoTによる推論特化モデル。Operatorは自律的なWebブラウザ操作エージェント。BERTとGPTの違いは「エンコーダ vs デコーダ」「双方向 vs 一方向」「理解 vs 生成」が基本。

用語

GPT: Generative Pre-trained Transformer。OpenAIが開発した自己回帰型の言語生成モデル
自己回帰型: Autoregressive。直前までの出力を参照して次の1単語を順に予測する生成方式
ChatGPT: OpenAIが2022年11月にリリースした対話型AIサービス。GPTベースにRLHFで最適化
RLHF: Reinforcement Learning from Human Feedback。人間の評価を報酬として使う強化学習手法
Few-shot学習: 少数の例示だけでタスクを遂行する能力。GPT-3の大規模化で発現
マルチモーダル: テキスト・画像など複数の種類のデータを扱えること。GPT-4が対応
GPT-oシリーズ（o1/o3/o4）: 内部Chain of Thoughtで多段階推論を行う推論特化型GPTモデル
Operator: OpenAIが提供するAIエージェントサービス。AIが自律的にWebブラウザを操作してタスクを遂行する

大規模言語モデルの特徴

LLM（Large Language Model: 大規模言語モデル） とは、大量のテキストデータで事前学習された、パラメータ数が数十億以上のTransformerベースの言語モデルの総称です。GPT-4、Gemini、Claude、LLaMAなどが代表的なLLMです。

LLMの学習は 事前学習（Pre-training） と ファインチューニング（Fine-tuning） の2段階で行われます。

段階	目的	データ	計算コスト
事前学習	汎用的な言語知識を獲得	インターネット上の大量テキスト（数兆トークン）	非常に高い（数か月・数億円規模）
ファインチューニング	特定の用途に最適化	タスク固有の比較的少量のデータ	比較的低い

事前学習の本質は「次の単語を予測する」という課題を大量のテキストで繰り返すことです。この単純な課題を膨大なデータと巨大なモデルで行うことで、文法・事実知識・推論能力・常識など、多様な言語能力が獲得されます。

創発的能力（Emergent Abilities）とスケーリング則

LLMの研究で注目されている現象が 創発的能力（Emergent Abilities） です。モデルの規模（パラメータ数）が一定の閾値を超えると、学習時には明示的に教えていない能力が突然現れる現象を指します。

例えば、小規模なモデルでは全くできなかった「多段階推論」や「暗黙の指示理解」が、モデルを大規模化した途端に可能になることがあります。この性質は、単にモデルを大きくすれば性能が線形に向上するのではなく、ある規模を超えると質的に新しい能力が出現する ことを意味します。

スケーリング則（Scaling Law） は、モデルの性能がパラメータ数・学習データ量・計算量の3要素に対して べき乗則 に従って向上するという経験則です。OpenAIの研究（2020年）により定式化されました。

要素	増加させた場合の効果
パラメータ数	モデルの表現力が向上。より複雑なパターンを学習可能
学習データ量	より多様な知識・表現を獲得
計算量	学習が十分に進み、性能が収束に近づく

スケーリング則が示唆するのは、現在のLLMの性能向上は主に「規模の拡大」によって実現されているという事実です。ただし、計算コスト・エネルギー消費・学習データの枯渇といった問題から、単純な大規模化の限界も議論されています。

文脈内学習（In-Context Learning）

文脈内学習（In-Context Learning: ICL） は、LLMの重要な特性の一つです。モデルのパラメータを更新（ファインチューニング）せずに、プロンプト内に例を示すだけ でタスクを遂行する能力です。

方式	説明	例
Zero-shot	例示なしでタスクを実行	「次の文を英語に翻訳してください: 猫が寝ている」
One-shot	1つの例を提示してタスクを実行	「犬 → Dog、猫 → ?」
Few-shot	数個の例を提示してタスクを実行	「犬 → Dog、鳥 → Bird、猫 → ?」

文脈内学習は、モデルの重みを変えることなく新しいタスクに対応できる点で画期的です。ユーザーはプロンプトの書き方を工夫するだけで、翻訳・要約・分類・コード生成などさまざまなタスクをLLMに実行させることができます。このプロンプトの設計技術が プロンプトエンジニアリング です。

トークンとトークナイザー

LLMがテキストを処理する際の基本単位が トークン です。トークンへの分割を行うプログラムを トークナイザー（Tokenizer） と呼びます。

英語では1単語が概ね1〜2トークン、日本語では1文字が1〜3トークンに相当することが多いです。LLMには コンテキストウィンドウ（文脈窓） と呼ばれるトークン数の上限があり、入力と出力の合計がこの上限を超えることはできません。GPT-4では最大128,000トークンのコンテキストウィンドウが利用可能です。

ハルシネーション（幻覚）問題

ハルシネーション（Hallucination: 幻覚） は、LLMが 事実と異なる情報をもっともらしく生成する 現象で、現在のLLMが抱える最大の課題の一つです。

ハルシネーションが発生する主な原因は以下のとおりです。

原因	説明
学習データの限界	学習データに含まれない情報や、学習後に発生した事実については正確に回答できない
確率的生成の性質	LLMは「最もそれらしい次の単語」を予測しているだけで、事実の正しさを検証していない
過度の一般化	学習データのパターンを過度に一般化して、事実にない情報を「補完」してしまう

ハルシネーション対策として注目されているのが RAG（Retrieval-Augmented Generation: 検索拡張生成） です。LLMの回答生成時に外部のデータベースや文書を検索し、その情報を参照しながら回答を生成することで、事実に基づいた正確な回答を得やすくします。

温度パラメータ（Temperature）

LLMの出力の「ランダム性」を制御するのが 温度パラメータ（Temperature） です。

温度	出力の特性	適した用途
低い（0に近い）	最も確率の高い単語を選びやすい。一貫性が高く保守的	事実に基づく回答、要約、翻訳
高い（1以上）	確率の低い単語も選ばれやすい。多様性が高く創造的	創作、ブレインストーミング

温度が0に設定されると、毎回同じ（最も確率の高い）出力が得られます。温度を上げるほど出力にランダム性が加わり、予想外の表現や創造的なアイデアが生まれやすくなりますが、同時にハルシネーションのリスクも高まります。用途に応じた適切な温度設定が重要です。

ポイント

LLMはパラメータ数が数十億以上のTransformerベース言語モデル。事前学習とファインチューニングの2段階で学習する。創発的能力はモデル規模が閾値を超えると突然現れる能力。文脈内学習（ICL）はプロンプト内の例示だけでタスクを遂行する能力で、Zero-shot/One-shot/Few-shotがある。ハルシネーションはLLMが事実と異なる情報を生成する問題で、RAGが主な対策。温度パラメータは出力のランダム性を制御する。

用語

LLM: Large Language Model（大規模言語モデル）。数十億以上のパラメータを持つTransformerベースの言語モデル
創発的能力: Emergent Abilities。モデル規模が閾値を超えると突然現れる、明示的に学習していない能力
スケーリング則: Scaling Law。モデル性能がパラメータ数・データ量・計算量のべき乗に従い向上する経験則
文脈内学習: In-Context Learning。プロンプト内の例示のみでタスクを遂行する能力。パラメータ更新不要
ハルシネーション: Hallucination（幻覚）。LLMが事実と異なる情報をもっともらしく生成する現象
コンテキストウィンドウ: LLMが一度に処理できるトークン数の上限。入力と出力の合計に適用される
温度パラメータ: Temperature。LLMの出力のランダム性を制御する値。低いと保守的、高いと創造的になる
RAG: Retrieval-Augmented Generation（検索拡張生成）。外部情報を検索・参照して回答精度を高める手法

問題演習 + 自動復習で、合格力を効率的に

教科書で学んだ内容を問題演習でアウトプット。SRS が自動で復習スケジュールを管理します。

問題演習は ¥980（買い切り）で全問利用可能