現在の生成AIサービス

生成AIパスポート試験対策

ChatGPTとOpenAIエコシステム

ChatGPT は、OpenAI社が2022年11月に公開した対話型の生成AIサービスです。大規模言語モデル（LLM）を基盤とし、ユーザーが自然言語で入力した質問や指示に対して、人間のような自然な文章で応答します。公開からわずか2か月でユーザー数が1億人を突破し、生成AIブームの火付け役となりました。

ChatGPTの基盤となるモデルは世代を重ねるごとに進化しています。

モデル	特徴	リリース時期
GPT-3.5	ChatGPTの初期モデル。高速だがやや精度に限界	2022年11月
GPT-4	大幅な精度向上。司法試験で上位10%のスコア	2023年3月
GPT-4o	マルチモーダル対応（テキスト・画像・音声）。高速化	2024年5月
GPT-5	推論・マルチモーダル能力を統合した次世代フラッグシップ	2025年8月
GPT-5.2	コーディング・エージェント能力がさらに向上。256Kコンテキスト	2025年12月

GPT-5は推論能力・コーディング・マルチモーダル理解のすべてで大幅に性能が向上し、GPT-5.2ではエージェント用途への最適化がさらに進みました。特にマルチモーダル 対応により、画像を入力として受け取り、その内容を説明したり分析したりすることが可能になっています。

ChatGPTの料金プラン

ChatGPTは個人からエンタープライズまで、複数の料金プランを提供しています。

プラン	月額	主な特徴
Free	無料	GPT-5.2 Instantへの基本アクセス
Plus	$20	GPT-5.2 Thinkingモード。高い利用上限、画像生成
Pro	$200	GPT-5.2 Pro無制限。最大推論能力、Sora 2 Pro
Business	$25〜/人	チーム向け共有ワークスペース。管理機能、SOC-2準拠
Enterprise	要問合せ	セキュリティ強化。SLA保証。無制限アクセス

ChatGPT Plus ではGPT-5.2やDALL-E 4による画像生成、高度なデータ分析機能などが利用でき、ビジネス用途に適した機能が揃っています。ChatGPT Pro は最大の推論能力と最大コンテキストウィンドウを持ち、大規模データ処理に適しています。Enterprise版では企業のデータがモデルの学習に使用されないことが保証されており、機密情報を扱う企業でも導入しやすい設計になっています。

GPTs（カスタムChatGPT）とプラグイン

GPTs は、プログラミング不要でカスタムChatGPTを作成できる機能です。2023年11月に発表され、ユーザーは特定の用途に特化したChatGPTを自由に作成・共有できるようになりました。たとえば「英語の文法チェック専用GPT」や「レシピ提案GPT」など、目的に応じたアシスタントを構築できます。

ChatGPTプラグイン は、ChatGPTに外部サービスとの連携機能を追加する仕組みです。Webブラウジング、コード実行、外部APIとの接続など、LLM単体ではできなかった機能を拡張します。これにより、リアルタイム情報の取得やデータベースへのアクセスなどが可能になります。

GPTsとプラグインは、ChatGPTを「汎用的な対話AI」から「特定業務に最適化されたツール」へと進化させる重要な仕組みです。企業がノーコードで自社業務に合ったAIアシスタントを作成できる点は、AIの民主化を象徴する動きといえます。

OpenAIの関連サービス

OpenAIはChatGPT以外にも複数のAIサービス・モデルを提供しています。

サービス名	種類	概要
Codex	コード生成	ソフトウェアエンジニアリングに特化したAIエージェント
GitHub Copilot	コード補完	AIによるプログラミング支援ツール（GitHubとMicrosoftが提供）
DALL-E 4	画像生成	テキストの説明文から画像を生成。テキスト描画にも対応
Whisper	音声認識	高精度な音声認識（Speech-to-Text）モデル。多言語対応
Sora 2	動画生成	テキストから高品質な動画を生成するモデル
Operator	エージェント	AIが自律的にWebブラウザを操作してタスクを遂行

GitHub Copilot は、プログラマーのコーディングをリアルタイムで支援するツールです。コードエディタ上で次に書くべきコードを予測・提案し、開発効率を大幅に向上させます。

Whisper は、98の言語に対応したオープンソースの音声認識モデルです。会議の文字起こしや字幕生成などに活用されています。Operator は2025年に登場したAIエージェントサービスで、AIが自律的にWebブラウザを操作してタスクを遂行します。

ポイント

ChatGPTは2022年11月にOpenAIが公開した対話型生成AIで、GPT-3.5からGPT-5.2へと進化を続けている。GPTsはプログラミング不要でカスタムChatGPTを作成できる機能。OpenAIエコシステムにはChatGPTの他にCodex（コード生成エージェント）、DALL-E 4（画像生成）、Whisper（音声認識）、Sora 2（動画生成）、Operator（Webブラウザ操作エージェント）が含まれる。試験ではGPTモデルの世代ごとの特徴や、各サービスの用途の違いが問われやすい。

用語

ChatGPT: OpenAIが開発した対話型生成AIサービス。GPTシリーズのLLMを基盤とする
GPT-5 / GPT-5.2: OpenAIの最新フラッグシップモデル。推論・コーディング・マルチモーダル能力を統合
GPTs: ユーザーがノーコードでカスタムChatGPTを作成・共有できる機能
GitHub Copilot: Codexを基盤としたAIコーディング支援ツール。コードの自動補完・提案を行う
DALL-E 4: OpenAIが開発したテキストから画像を生成するAIモデル。テキスト描画にも対応
Whisper: OpenAIが開発した多言語対応の音声認識モデル。オープンソースで公開
Sora 2: OpenAIが開発したテキストから動画を生成するAIモデル
Operator: OpenAIが提供するAIエージェントサービス。AIが自律的にWebブラウザを操作してタスクを遂行する

Google GeminiとMicrosoftの取り組み

Google Gemini は、Google DeepMindが開発したマルチモーダルAIモデルです。2023年12月に発表され、当初「Bard」として提供されていたGoogle製チャットAIの基盤モデルが、2024年2月にGeminiへとリブランドされました。Geminiは設計段階からテキスト・画像・音声・動画・コードなど複数のモダリティを扱えるように構築されている点が特徴です。

Geminiモデルは急速に世代交代が進んでいます。

モデル	特徴	主な用途
Gemini 3 Pro	最新世代。高度な数学・コーディング・推論に優れる	高度な研究・分析
Gemini 3 Flash	高速かつ高性能。コスト効率に優れる	一般的なビジネス用途
Gemini 2.5 Pro	思考（Thinking）機能を持つ推論特化モデル。100万トークンのコンテキスト	長文解析・エージェント
Gemini Nano	軽量・省電力。デバイス上で動作可能	スマートフォン・エッジデバイス

Gemini Nano はスマートフォン上で直接動作できるほど軽量であり、Google Pixelシリーズに搭載されています。オフライン環境でもAI機能を利用できるため、プライバシーの観点からも注目されています。Gemini 2.5以降のモデルは 思考（Thinking）機能 を備え、回答前に内部で段階的に推論することで精度を大幅に向上させています。

GoogleのAI統合戦略

GoogleはGeminiをGoogle Workspaceの各種サービスに統合する戦略を進めています。

Google ドキュメント — 文章の自動生成・要約・校正をAIが支援
Google スプレッドシート — データ分析や数式の自動提案
Gmail — メール文面の下書き生成・返信候補の提案
Google スライド — プレゼンテーション用の画像生成やレイアウト提案
Google Meet — 会議の自動要約・議事録作成

これらのAI機能は Duet AI（現在はGemini for Google Workspaceに改称） として統合的に提供されています。日常的な業務ツールにAIが組み込まれることで、専門知識がなくてもAIの恩恵を受けられるようになります。

また、Googleは Vertex AI というクラウドプラットフォームを通じて、企業が独自のAIモデルを構築・運用できる環境も提供しています。

Microsoft CopilotとAzure OpenAI Service

Microsoft Copilot（旧Bing Chat） は、MicrosoftがOpenAIとの提携により展開するAIアシスタントです。Windows、Microsoft 365（Word、Excel、PowerPoint、Outlook、Teams）、Bingなどに統合されています。

Microsoft Copilotの特徴は以下のとおりです。

Bing検索との連携 — リアルタイムのWeb情報を活用した回答が可能
Microsoft 365統合 — Word文書の要約、Excel関数の提案、PowerPointスライドの自動生成
ビジネス向け機能 — Microsoft 365 Copilotとして、企業データ（SharePoint、OneDrive、メール）を安全に活用

Azure OpenAI Service は、MicrosoftのクラウドプラットフォームAzure上でOpenAIのモデル（GPT-4、DALL-E、Whisperなど）を利用できるサービスです。企業はAzureのセキュリティ基盤の上でAIモデルをAPIとして利用でき、自社のアプリケーションにAI機能を組み込めます。データがOpenAIのモデル学習に使われないことが保証されているため、金融や医療などセキュリティ要件の厳しい業界でも採用が進んでいます。

主要サービス比較

以下は、ChatGPT、Gemini、Microsoft Copilotの主要な違いを比較した表です。

比較項目	ChatGPT	Google Gemini	Microsoft Copilot
開発元	OpenAI	Google DeepMind	Microsoft（OpenAI技術）
基盤モデル	GPT-5.2	Gemini 3 Pro/Flash	GPT-5
Web検索	標準搭載	Google検索統合	Bing検索統合
ビジネス統合	API / Enterprise版	Google Workspace	Microsoft 365
マルチモーダル	テキスト・画像・音声	テキスト・画像・音声・動画	テキスト・画像
特徴	カスタマイズ性（GPTs）、エージェント	検索との深い統合、思考機能	Officeツールとの連携

これら3つのサービスは、それぞれの母体企業が持つエコシステムの強みを活かして差別化を図っています。ChatGPTはカスタマイズ性と開発者向けAPI、Geminiは検索エンジンとの統合、CopilotはOfficeスイートとの連携が最大の強みです。

ポイント

Google Geminiは設計段階からマルチモーダル対応で、Gemini 3 Pro/FlashやGemini 2.5 Proなど用途別にモデルを展開。2.5以降は思考（Thinking）機能を搭載し推論精度が向上。Google Workspaceへの統合により日常業務でAIを活用できる。Microsoft CopilotはOpenAI技術を基盤にMicrosoft 365に統合されたAIアシスタント。Azure OpenAI Serviceは企業向けにセキュリティを担保したAPIサービスを提供する。試験では各サービスの提供元・基盤モデル・特徴の違いが問われやすい。

用語

Google Gemini: Google DeepMindが開発したマルチモーダルAIモデル。3 Pro/Flash、2.5 Proなどを展開
Gemini Nano: スマートフォン上で動作する軽量版Gemini。エッジAIとして注目される
Microsoft Copilot: MicrosoftのAIアシスタント。Bing検索やMicrosoft 365と統合
Azure OpenAI Service: Azure上でOpenAIのモデルを企業向けに提供するクラウドサービス
マルチモーダル: テキスト・画像・音声・動画など複数の入出力形式を扱えるAIの特性
Vertex AI: GoogleのクラウドAIプラットフォーム。企業独自のAIモデルの構築・運用を支援

Claude・その他のAIサービス

Claude は、Anthropic社が開発した対話型AIアシスタントです。Anthropicは、OpenAIの元研究者であるダリオ・アモデイとダニエラ・アモデイらによって2021年に設立されました。ClaudeはAIの安全性を重視した設計が最大の特徴であり、Constitutional AI（憲法AI） と呼ばれる独自のアプローチを採用しています。

Constitutional AIとは、AIの行動を「憲法」のようなルールセットに基づいて制御する手法です。人間のフィードバックだけでなく、AIが自らの出力を原則に照らして自己修正するプロセスを含みます。これにより、有害な出力を減らしつつ有用な応答を維持することを目指しています。

Claudeは急速に進化しており、2026年2月時点ではClaude 4.6世代が最新です。

モデル	特徴	位置づけ
Claude Opus 4.6	最高性能。コーディング・エージェント・複雑な推論に優れる	フラグシップモデル
Claude Sonnet 4.6	Opus級の性能をより低コストで提供	標準モデル
Claude Haiku 4.5	高速・低コスト。簡潔なタスク向け	軽量モデル

Claude 3からClaude 4.6まで、Opus / Sonnet / Haiku の3モデル構成は一貫して維持されています。各世代でコーディング性能とエージェント能力が大幅に向上しています。

Meta社のLlama

Llama（Large Language Model Meta AI） は、Meta社（旧Facebook）が開発した大規模言語モデルです。最大の特徴は オープンソース（正確にはオープンウェイト） として公開されていることです。企業や研究者が自由にダウンロードし、自社の用途に合わせてファインチューニングできます。

Llamaシリーズは急速に進化しています。

Llama 2（2023年7月）— 商用利用可能なライセンスで公開。最大700億パラメータ
Llama 3（2024年4月）— 性能が大幅に向上。多言語対応を強化
Llama 4（2025年4月）— MoE（Mixture of Experts） アーキテクチャを採用。Scout（17B×16エキスパート）、Maverick（17B×128エキスパート）、Behemoth（288B×16エキスパート、約2兆パラメータ）の3モデル構成。マルチモーダル対応

Llama 4ではアーキテクチャが従来の密なモデルからMoEに変更され、計算効率が大幅に向上しました。オープンソースLLMの登場は、AI開発の民主化において非常に重要な意味を持ちます。大企業だけでなく、スタートアップや研究機関でも高性能なLLMを基盤としたサービスを構築できるようになりました。

Mistral AIと国産LLM

Mistral AI は、フランスのスタートアップ企業が開発したオープンソースLLMです。2025年12月には Mistral Large 3（41B active / 675B total、MoE）を発表し、オープンウェイトのマルチモーダル・多言語モデルとして高い評価を得ています。推論特化の Magistral シリーズやコーディング特化の Devstral も展開し、ヨーロッパ発のAI企業としてEU のAI規制に対応した安全なAI開発を推進しています。

日本でも独自のLLM開発が進んでいます。

企業・組織	モデル名	特徴
ELYZA	ELYZA LLM	Llamaベースの日本語特化LLM。東大発スタートアップ
rinna	rinna GPT	日本語に強い対話型AI。旧マイクロソフト系
Preferred Networks（PFN）	PLaMo	独自アーキテクチャの日本語LLM
NTT	tsuzumi	軽量で高精度な日本語LLM

国産LLMの意義は、日本語の処理精度の向上だけでなく、データ主権（自国のデータを自国で管理すること） や、日本固有の文化・制度に対応したAIを実現できる点にあります。

オープンソースLLM vs クローズドLLMの比較

生成AIモデルは大きく「オープンソース（公開型）」と「クローズド（非公開型）」に分類できます。

比較項目	オープンソースLLM	クローズドLLM
代表例	Llama、Mistral	GPT-4、Gemini Ultra、Claude
モデル公開	重み（パラメータ）を公開	APIのみ提供
カスタマイズ	ファインチューニングが自由	API経由でのプロンプト調整が中心
運用コスト	自社でインフラ構築が必要	従量課金（APIコスト）
データ管理	自社サーバーで完結	外部サーバーにデータを送信
性能	急速に向上中だが最先端はクローズドに劣る傾向	一般に最先端の性能を持つ
透明性	モデルの仕組みを検証可能	ブラックボックス

オープンソースLLMとクローズドLLMは対立するものではなく、用途に応じて使い分けるのが現実的です。セキュリティやカスタマイズが重要な場面ではオープンソース、最先端の性能や導入の手軽さを重視する場面ではクローズドLLMが選ばれます。

ポイント

Anthropic社のClaudeはConstitutional AI（憲法AI）による安全性重視の設計が特徴で、Opus/Sonnet/Haikuの3モデル構成（最新はClaude 4.6世代）。MetaのLlamaはオープンソースLLMの代表格で、Llama 4ではMoEアーキテクチャを採用。MistralはMistral Large 3でオープンウェイトのフロンティアモデルを提供。国産LLMにはELYZA、rinna、PLaMo、tsuzumiなどがある。試験ではオープンソースLLMとクローズドLLMの違い、各サービスの提供元と特徴が問われやすい。

用語

Claude: Anthropic社が開発した対話型AI。Constitutional AIで安全性を重視した設計。最新はClaude 4.6世代
Constitutional AI: AIの行動を原則（憲法）に基づいて制御し、自己修正させる手法。Anthropic社が提唱
Llama: Meta社が開発したオープンソースLLM。Llama 4ではMoEアーキテクチャを採用しマルチモーダルに対応
Mistral AI: フランス発のオープンソースLLM開発企業。Mistral Large 3やMagistral（推論特化）を展開
オープンソースLLM: モデルの重み（パラメータ）が公開され、自由にダウンロード・改変できるLLM
クローズドLLM: モデルが非公開でAPI経由でのみ利用可能なLLM。GPT-5やGemini、Claudeが代表例
データ主権: 自国や自組織のデータを自らの管理下に置き、外部に依存しないという考え方

画像・動画・音声の生成AI

生成AIはテキストだけでなく、画像・動画・音声・音楽など多様なメディアを生成できるようになっています。ここでは各分野の代表的なサービスとその技術的背景を学びます。

画像生成AI

画像生成AIは、テキストの説明文（プロンプト）から画像を生成する Text-to-Image 技術が中心です。代表的なサービスを比較します。

サービス名	開発元	特徴
Stable Diffusion	Stability AI	オープンソース。ローカル環境で実行可能。拡張性が高い
Midjourney	Midjourney社	アート性の高い画像生成に優れる。Discordで利用
DALL-E 3	OpenAI	ChatGPTと統合。プロンプトの意図を正確に反映
Adobe Firefly	Adobe	商用利用を前提とした著作権クリアな画像生成

Stable Diffusion は 拡散モデル（Diffusion Model） という技術を採用しています。ノイズの多い画像からノイズを段階的に除去することで、目的の画像を生成する手法です。オープンソースのため、世界中の開発者がモデルを改良し、多様な派生モデルが生まれています。

画像生成の主な手法

画像生成AIには、入力と出力の組み合わせによっていくつかの手法があります。

手法	入力	出力	具体例
Text-to-Image	テキスト	画像	「夕焼けの海」と入力して風景画を生成
Image-to-Image	画像＋テキスト	画像	ラフスケッチを精密なイラストに変換
Inpainting	画像＋マスク	画像	画像の一部を指定して別の内容に書き換え
Outpainting	画像	拡張画像	画像の外側の領域を自動的に補完

これらの技術は、デザイン、広告、ゲーム開発、建築設計など幅広い分野で活用されています。たとえば、広告業界ではText-to-Imageで複数のクリエイティブ案を短時間で生成し、A/Bテストに活用する事例が増えています。

Image-to-Imageでは、手描きのスケッチを入力としてフォトリアリスティックな画像に変換したり、既存の写真のスタイルを変換（例: 写真を油絵風に変換）したりすることができます。

動画生成AI

動画生成AIは急速に進化している分野です。テキストの説明文から動画を生成する Text-to-Video 技術が注目を集めています。

サービス名	開発元	特徴
Sora	OpenAI	最大1分間の高品質動画を生成。物理法則の理解に優れる
Runway Gen-2	Runway	テキスト・画像から動画を生成。映像制作のプロも利用
Pika	Pika Labs	手軽に短い動画クリップを生成。直感的な操作性
Veo3	Google DeepMind	テキストから音声付き動画を直接生成。高い映像品質

Sora は2024年にOpenAIが発表した動画生成モデルで、テキストの指示だけで最大1分間のリアリスティックな動画を生成できます。物理世界のシミュレーション能力に優れ、光の反射や物体の動きが自然に表現される点が画期的です。

Runway Gen-2 は、ハリウッドの映画制作でも使用された実績があり、「Everything Everywhere All at Once」のVFXにRunwayの技術が使われました。プロフェッショナルな映像制作ワークフローへのAI統合を先導しています。

Veo3 はGoogle DeepMindが開発した動画生成AIで、テキストの指示から音声（会話・効果音・BGM）付きの動画を直接生成できる点が画期的です。音声と映像を同時に生成することで、後から音声を合成する手間が不要になります。

音声・音楽生成AI

音声と音楽の生成AIも急速に発展しています。

サービス名	開発元	種類	特徴
ElevenLabs	ElevenLabs	音声合成	高品質な音声クローン。多言語対応
VALL-E	Microsoft	音声合成	わずか3秒の音声サンプルから声を再現
Suno AI	Suno	音楽生成	テキストから歌詞付きの楽曲を生成
Udio	Udio	音楽生成	高品質な楽曲生成。ジャンルの幅が広い

ElevenLabs は、声の特徴を学習して自然な音声を合成するText-to-Speech（TTS）サービスです。ナレーション、オーディオブック、ポッドキャストの制作に活用されています。VALL-E はMicrosoftが開発した音声合成モデルで、たった3秒の音声サンプルから話者の声を再現できるという驚異的な能力を持ちます。

マルチモーダルAI

マルチモーダルAI とは、テキスト・画像・音声・動画など複数の入出力形式（モダリティ）を横断的に処理できるAIのことです。GPT-4oやGeminiがその代表例です。従来は各メディアに特化した個別のモデルが必要でしたが、マルチモーダルAIの登場により、1つのモデルで複数のメディアを統合的に扱えるようになりました。

サービス	テキスト	画像	音声	動画	音楽
ChatGPT（GPT-5.2）	○	○	○	×	×
Gemini 3 Pro	○	○	○	○	×
Stable Diffusion	○（入力）	○	×	×	×
Sora	○（入力）	×	×	○	×
Suno AI	○（入力）	×	×	×	○

ポイント

画像生成AIではStable Diffusion（オープンソース）、Midjourney（アート性）、DALL-E 4（ChatGPT統合）が3大サービス。Text-to-ImageとImage-to-Imageの違いを理解する。動画生成ではSora 2、Runway Gen-2、Veo3（Google DeepMind、音声付き動画生成）が代表的。音声生成ではElevenLabsとVALL-Eが注目される。マルチモーダルAIは複数の入出力形式を1つのモデルで扱える技術で、GPT-5.2やGemini 3 Proが代表例。

用語

Stable Diffusion: Stability AIが開発したオープンソースの画像生成AI。拡散モデルを採用
Text-to-Image: テキストの説明文を入力として画像を生成する技術
Image-to-Image: 既存の画像とテキスト指示を入力として、新たな画像を生成・変換する技術
拡散モデル: Diffusion Model。ノイズを段階的に除去して画像を生成する深層学習手法
Sora: OpenAIが開発したText-to-Video（テキストから動画を生成する）モデル
ElevenLabs: 高品質な音声合成・音声クローンを提供するText-to-Speechサービス
マルチモーダルAI: テキスト・画像・音声・動画など複数のモダリティを統合的に処理できるAI
Veo3: Google DeepMindが開発した動画生成AI。テキストから音声付き動画を直接生成する

問題演習 + 自動復習で、合格力を効率的に

教科書で学んだ内容を問題演習でアウトプット。SRS が自動で復習スケジュールを管理します。

問題演習は ¥980（買い切り）で全問利用可能