読み込み中...
読み込み中...
読み込み中...
読み込み中...
読み込み中...
ChatGPT は、OpenAI社が2022年11月に公開した対話型の生成AIサービスです。大規模言語モデル(LLM)を基盤とし、ユーザーが自然言語で入力した質問や指示に対して、人間のような自然な文章で応答します。公開からわずか2か月でユーザー数が1億人を突破し、生成AIブームの火付け役となりました。
ChatGPTの基盤となるモデルは世代を重ねるごとに進化しています。
| モデル | 特徴 | リリース時期 |
|---|---|---|
| GPT-3.5 | ChatGPTの初期モデル。高速だがやや精度に限界 | 2022年11月 |
| GPT-4 | 大幅な精度向上。司法試験で上位10%のスコア | 2023年3月 |
| GPT-4o | マルチモーダル対応(テキスト・画像・音声)。高速化 | 2024年5月 |
| GPT-5 | 推論・マルチモーダル能力を統合した次世代フラッグシップ | 2025年8月 |
| GPT-5.2 | コーディング・エージェント能力がさらに向上。256Kコンテキスト | 2025年12月 |
GPT-5は推論能力・コーディング・マルチモーダル理解のすべてで大幅に性能が向上し、GPT-5.2ではエージェント用途への最適化がさらに進みました。特にマルチモーダル 対応により、画像を入力として受け取り、その内容を説明したり分析したりすることが可能になっています。
ChatGPTは個人からエンタープライズまで、複数の料金プランを提供しています。
| プラン | 月額 | 主な特徴 |
|---|---|---|
| Free | 無料 | GPT-5.2 Instantへの基本アクセス |
| Plus | $20 | GPT-5.2 Thinkingモード。高い利用上限、画像生成 |
| Pro | $200 | GPT-5.2 Pro無制限。最大推論能力、Sora 2 Pro |
| Business | $25〜/人 | チーム向け共有ワークスペース。管理機能、SOC-2準拠 |
| Enterprise | 要問合せ | セキュリティ強化。SLA保証。無制限アクセス |
ChatGPT Plus ではGPT-5.2やDALL-E 4による画像生成、高度なデータ分析機能などが利用でき、ビジネス用途に適した機能が揃っています。ChatGPT Pro は最大の推論能力と最大コンテキストウィンドウを持ち、大規模データ処理に適しています。Enterprise版では企業のデータがモデルの学習に使用されないことが保証されており、機密情報を扱う企業でも導入しやすい設計になっています。
GPTs は、プログラミング不要でカスタムChatGPTを作成できる機能です。2023年11月に発表され、ユーザーは特定の用途に特化したChatGPTを自由に作成・共有できるようになりました。たとえば「英語の文法チェック専用GPT」や「レシピ提案GPT」など、目的に応じたアシスタントを構築できます。
ChatGPTプラグイン は、ChatGPTに外部サービスとの連携機能を追加する仕組みです。Webブラウジング、コード実行、外部APIとの接続など、LLM単体ではできなかった機能を拡張します。これにより、リアルタイム情報の取得やデータベースへのアクセスなどが可能になります。
GPTsとプラグインは、ChatGPTを「汎用的な対話AI」から「特定業務に最適化されたツール」へと進化させる重要な仕組みです。企業がノーコードで自社業務に合ったAIアシスタントを作成できる点は、AIの民主化を象徴する動きといえます。
OpenAIはChatGPT以外にも複数のAIサービス・モデルを提供しています。
| サービス名 | 種類 | 概要 |
|---|---|---|
| Codex | コード生成 | ソフトウェアエンジニアリングに特化したAIエージェント |
| GitHub Copilot | コード補完 | AIによるプログラミング支援ツール(GitHubとMicrosoftが提供) |
| DALL-E 4 | 画像生成 | テキストの説明文から画像を生成。テキスト描画にも対応 |
| Whisper | 音声認識 | 高精度な音声認識(Speech-to-Text)モデル。多言語対応 |
| Sora 2 | 動画生成 | テキストから高品質な動画を生成するモデル |
| Operator | エージェント | AIが自律的にWebブラウザを操作してタスクを遂行 |
GitHub Copilot は、プログラマーのコーディングをリアルタイムで支援するツールです。コードエディタ上で次に書くべきコードを予測・提案し、開発効率を大幅に向上させます。
Whisper は、98の言語に対応したオープンソースの音声認識モデルです。会議の文字起こしや字幕生成などに活用されています。Operator は2025年に登場したAIエージェントサービスで、AIが自律的にWebブラウザを操作してタスクを遂行します。
ポイント
ChatGPTは2022年11月にOpenAIが公開した対話型生成AIで、GPT-3.5からGPT-5.2へと進化を続けている。GPTsはプログラミング不要でカスタムChatGPTを作成できる機能。OpenAIエコシステムにはChatGPTの他にCodex(コード生成エージェント)、DALL-E 4(画像生成)、Whisper(音声認識)、Sora 2(動画生成)、Operator(Webブラウザ操作エージェント)が含まれる。試験ではGPTモデルの世代ごとの特徴や、各サービスの用途の違いが問われやすい。
用語
Google Gemini は、Google DeepMindが開発したマルチモーダルAIモデルです。2023年12月に発表され、当初「Bard」として提供されていたGoogle製チャットAIの基盤モデルが、2024年2月にGeminiへとリブランドされました。Geminiは設計段階からテキスト・画像・音声・動画・コードなど複数のモダリティを扱えるように構築されている点が特徴です。
Geminiモデルは急速に世代交代が進んでいます。
| モデル | 特徴 | 主な用途 |
|---|---|---|
| Gemini 3 Pro | 最新世代。高度な数学・コーディング・推論に優れる | 高度な研究・分析 |
| Gemini 3 Flash | 高速かつ高性能。コスト効率に優れる | 一般的なビジネス用途 |
| Gemini 2.5 Pro | 思考(Thinking)機能を持つ推論特化モデル。100万トークンのコンテキスト | 長文解析・エージェント |
| Gemini Nano | 軽量・省電力。デバイス上で動作可能 | スマートフォン・エッジデバイス |
Gemini Nano はスマートフォン上で直接動作できるほど軽量であり、Google Pixelシリーズに搭載されています。オフライン環境でもAI機能を利用できるため、プライバシーの観点からも注目されています。Gemini 2.5以降のモデルは 思考(Thinking)機能 を備え、回答前に内部で段階的に推論することで精度を大幅に向上させています。
GoogleはGeminiをGoogle Workspaceの各種サービスに統合する戦略を進めています。
これらのAI機能は Duet AI(現在はGemini for Google Workspaceに改称) として統合的に提供されています。日常的な業務ツールにAIが組み込まれることで、専門知識がなくてもAIの恩恵を受けられるようになります。
また、Googleは Vertex AI というクラウドプラットフォームを通じて、企業が独自のAIモデルを構築・運用できる環境も提供しています。
Microsoft Copilot(旧Bing Chat) は、MicrosoftがOpenAIとの提携により展開するAIアシスタントです。Windows、Microsoft 365(Word、Excel、PowerPoint、Outlook、Teams)、Bingなどに統合されています。
Microsoft Copilotの特徴は以下のとおりです。
Azure OpenAI Service は、MicrosoftのクラウドプラットフォームAzure上でOpenAIのモデル(GPT-4、DALL-E、Whisperなど)を利用できるサービスです。企業はAzureのセキュリティ基盤の上でAIモデルをAPIとして利用でき、自社のアプリケーションにAI機能を組み込めます。データがOpenAIのモデル学習に使われないことが保証されているため、金融や医療などセキュリティ要件の厳しい業界でも採用が進んでいます。
以下は、ChatGPT、Gemini、Microsoft Copilotの主要な違いを比較した表です。
| 比較項目 | ChatGPT | Google Gemini | Microsoft Copilot |
|---|---|---|---|
| 開発元 | OpenAI | Google DeepMind | Microsoft(OpenAI技術) |
| 基盤モデル | GPT-5.2 | Gemini 3 Pro/Flash | GPT-5 |
| Web検索 | 標準搭載 | Google検索統合 | Bing検索統合 |
| ビジネス統合 | API / Enterprise版 | Google Workspace | Microsoft 365 |
| マルチモーダル | テキスト・画像・音声 | テキスト・画像・音声・動画 | テキスト・画像 |
| 特徴 | カスタマイズ性(GPTs)、エージェント | 検索との深い統合、思考機能 | Officeツールとの連携 |
これら3つのサービスは、それぞれの母体企業が持つエコシステムの強みを活かして差別化を図っています。ChatGPTはカスタマイズ性と開発者向けAPI、Geminiは検索エンジンとの統合、CopilotはOfficeスイートとの連携が最大の強みです。
ポイント
Google Geminiは設計段階からマルチモーダル対応で、Gemini 3 Pro/FlashやGemini 2.5 Proなど用途別にモデルを展開。2.5以降は思考(Thinking)機能を搭載し推論精度が向上。Google Workspaceへの統合により日常業務でAIを活用できる。Microsoft CopilotはOpenAI技術を基盤にMicrosoft 365に統合されたAIアシスタント。Azure OpenAI Serviceは企業向けにセキュリティを担保したAPIサービスを提供する。試験では各サービスの提供元・基盤モデル・特徴の違いが問われやすい。
用語
Claude は、Anthropic社が開発した対話型AIアシスタントです。Anthropicは、OpenAIの元研究者であるダリオ・アモデイとダニエラ・アモデイらによって2021年に設立されました。ClaudeはAIの安全性を重視した設計が最大の特徴であり、Constitutional AI(憲法AI) と呼ばれる独自のアプローチを採用しています。
Constitutional AIとは、AIの行動を「憲法」のようなルールセットに基づいて制御する手法です。人間のフィードバックだけでなく、AIが自らの出力を原則に照らして自己修正するプロセスを含みます。これにより、有害な出力を減らしつつ有用な応答を維持することを目指しています。
Claudeは急速に進化しており、2026年2月時点ではClaude 4.6世代が最新です。
| モデル | 特徴 | 位置づけ |
|---|---|---|
| Claude Opus 4.6 | 最高性能。コーディング・エージェント・複雑な推論に優れる | フラグシップモデル |
| Claude Sonnet 4.6 | Opus級の性能をより低コストで提供 | 標準モデル |
| Claude Haiku 4.5 | 高速・低コスト。簡潔なタスク向け | 軽量モデル |
Claude 3からClaude 4.6まで、Opus / Sonnet / Haiku の3モデル構成は一貫して維持されています。各世代でコーディング性能とエージェント能力が大幅に向上しています。
Llama(Large Language Model Meta AI) は、Meta社(旧Facebook)が開発した大規模言語モデルです。最大の特徴は オープンソース(正確にはオープンウェイト) として公開されていることです。企業や研究者が自由にダウンロードし、自社の用途に合わせてファインチューニングできます。
Llamaシリーズは急速に進化しています。
Llama 4ではアーキテクチャが従来の密なモデルからMoEに変更され、計算効率が大幅に向上しました。オープンソースLLMの登場は、AI開発の民主化において非常に重要な意味を持ちます。大企業だけでなく、スタートアップや研究機関でも高性能なLLMを基盤としたサービスを構築できるようになりました。
Mistral AI は、フランスのスタートアップ企業が開発したオープンソースLLMです。2025年12月には Mistral Large 3(41B active / 675B total、MoE)を発表し、オープンウェイトのマルチモーダル・多言語モデルとして高い評価を得ています。推論特化の Magistral シリーズやコーディング特化の Devstral も展開し、ヨーロッパ発のAI企業としてEU のAI規制に対応した安全なAI開発を推進しています。
日本でも独自のLLM開発が進んでいます。
| 企業・組織 | モデル名 | 特徴 |
|---|---|---|
| ELYZA | ELYZA LLM | Llamaベースの日本語特化LLM。東大発スタートアップ |
| rinna | rinna GPT | 日本語に強い対話型AI。旧マイクロソフト系 |
| Preferred Networks(PFN) | PLaMo | 独自アーキテクチャの日本語LLM |
| NTT | tsuzumi | 軽量で高精度な日本語LLM |
国産LLMの意義は、日本語の処理精度の向上だけでなく、データ主権(自国のデータを自国で管理すること) や、日本固有の文化・制度に対応したAIを実現できる点にあります。
生成AIモデルは大きく「オープンソース(公開型)」と「クローズド(非公開型)」に分類できます。
| 比較項目 | オープンソースLLM | クローズドLLM |
|---|---|---|
| 代表例 | Llama、Mistral | GPT-4、Gemini Ultra、Claude |
| モデル公開 | 重み(パラメータ)を公開 | APIのみ提供 |
| カスタマイズ | ファインチューニングが自由 | API経由でのプロンプト調整が中心 |
| 運用コスト | 自社でインフラ構築が必要 | 従量課金(APIコスト) |
| データ管理 | 自社サーバーで完結 | 外部サーバーにデータを送信 |
| 性能 | 急速に向上中だが最先端はクローズドに劣る傾向 | 一般に最先端の性能を持つ |
| 透明性 | モデルの仕組みを検証可能 | ブラックボックス |
オープンソースLLMとクローズドLLMは対立するものではなく、用途に応じて使い分けるのが現実的です。セキュリティやカスタマイズが重要な場面ではオープンソース、最先端の性能や導入の手軽さを重視する場面ではクローズドLLMが選ばれます。
ポイント
Anthropic社のClaudeはConstitutional AI(憲法AI)による安全性重視の設計が特徴で、Opus/Sonnet/Haikuの3モデル構成(最新はClaude 4.6世代)。MetaのLlamaはオープンソースLLMの代表格で、Llama 4ではMoEアーキテクチャを採用。MistralはMistral Large 3でオープンウェイトのフロンティアモデルを提供。国産LLMにはELYZA、rinna、PLaMo、tsuzumiなどがある。試験ではオープンソースLLMとクローズドLLMの違い、各サービスの提供元と特徴が問われやすい。
用語
生成AIはテキストだけでなく、画像・動画・音声・音楽など多様なメディアを生成できるようになっています。ここでは各分野の代表的なサービスとその技術的背景を学びます。
画像生成AIは、テキストの説明文(プロンプト)から画像を生成する Text-to-Image 技術が中心です。代表的なサービスを比較します。
| サービス名 | 開発元 | 特徴 |
|---|---|---|
| Stable Diffusion | Stability AI | オープンソース。ローカル環境で実行可能。拡張性が高い |
| Midjourney | Midjourney社 | アート性の高い画像生成に優れる。Discordで利用 |
| DALL-E 3 | OpenAI | ChatGPTと統合。プロンプトの意図を正確に反映 |
| Adobe Firefly | Adobe | 商用利用を前提とした著作権クリアな画像生成 |
Stable Diffusion は 拡散モデル(Diffusion Model) という技術を採用しています。ノイズの多い画像からノイズを段階的に除去することで、目的の画像を生成する手法です。オープンソースのため、世界中の開発者がモデルを改良し、多様な派生モデルが生まれています。
画像生成AIには、入力と出力の組み合わせによっていくつかの手法があります。
| 手法 | 入力 | 出力 | 具体例 |
|---|---|---|---|
| Text-to-Image | テキスト | 画像 | 「夕焼けの海」と入力して風景画を生成 |
| Image-to-Image | 画像+テキスト | 画像 | ラフスケッチを精密なイラストに変換 |
| Inpainting | 画像+マスク | 画像 | 画像の一部を指定して別の内容に書き換え |
| Outpainting | 画像 | 拡張画像 | 画像の外側の領域を自動的に補完 |
これらの技術は、デザイン、広告、ゲーム開発、建築設計など幅広い分野で活用されています。たとえば、広告業界ではText-to-Imageで複数のクリエイティブ案を短時間で生成し、A/Bテストに活用する事例が増えています。
Image-to-Imageでは、手描きのスケッチを入力としてフォトリアリスティックな画像に変換したり、既存の写真のスタイルを変換(例: 写真を油絵風に変換)したりすることができます。
動画生成AIは急速に進化している分野です。テキストの説明文から動画を生成する Text-to-Video 技術が注目を集めています。
| サービス名 | 開発元 | 特徴 |
|---|---|---|
| Sora | OpenAI | 最大1分間の高品質動画を生成。物理法則の理解に優れる |
| Runway Gen-2 | Runway | テキスト・画像から動画を生成。映像制作のプロも利用 |
| Pika | Pika Labs | 手軽に短い動画クリップを生成。直感的な操作性 |
| Veo3 | Google DeepMind | テキストから音声付き動画を直接生成。高い映像品質 |
Sora は2024年にOpenAIが発表した動画生成モデルで、テキストの指示だけで最大1分間のリアリスティックな動画を生成できます。物理世界のシミュレーション能力に優れ、光の反射や物体の動きが自然に表現される点が画期的です。
Runway Gen-2 は、ハリウッドの映画制作でも使用された実績があり、「Everything Everywhere All at Once」のVFXにRunwayの技術が使われました。プロフェッショナルな映像制作ワークフローへのAI統合を先導しています。
Veo3 はGoogle DeepMindが開発した動画生成AIで、テキストの指示から音声(会話・効果音・BGM)付きの動画を直接生成できる点が画期的です。音声と映像を同時に生成することで、後から音声を合成する手間が不要になります。
音声と音楽の生成AIも急速に発展しています。
| サービス名 | 開発元 | 種類 | 特徴 |
|---|---|---|---|
| ElevenLabs | ElevenLabs | 音声合成 | 高品質な音声クローン。多言語対応 |
| VALL-E | Microsoft | 音声合成 | わずか3秒の音声サンプルから声を再現 |
| Suno AI | Suno | 音楽生成 | テキストから歌詞付きの楽曲を生成 |
| Udio | Udio | 音楽生成 | 高品質な楽曲生成。ジャンルの幅が広い |
ElevenLabs は、声の特徴を学習して自然な音声を合成するText-to-Speech(TTS)サービスです。ナレーション、オーディオブック、ポッドキャストの制作に活用されています。VALL-E はMicrosoftが開発した音声合成モデルで、たった3秒の音声サンプルから話者の声を再現できるという驚異的な能力を持ちます。
マルチモーダルAI とは、テキスト・画像・音声・動画など複数の入出力形式(モダリティ)を横断的に処理できるAIのことです。GPT-4oやGeminiがその代表例です。従来は各メディアに特化した個別のモデルが必要でしたが、マルチモーダルAIの登場により、1つのモデルで複数のメディアを統合的に扱えるようになりました。
| サービス | テキスト | 画像 | 音声 | 動画 | 音楽 |
|---|---|---|---|---|---|
| ChatGPT(GPT-5.2) | ○ | ○ | ○ | × | × |
| Gemini 3 Pro | ○ | ○ | ○ | ○ | × |
| Stable Diffusion | ○(入力) | ○ | × | × | × |
| Sora | ○(入力) | × | × | ○ | × |
| Suno AI | ○(入力) | × | × | × | ○ |
ポイント
画像生成AIではStable Diffusion(オープンソース)、Midjourney(アート性)、DALL-E 4(ChatGPT統合)が3大サービス。Text-to-ImageとImage-to-Imageの違いを理解する。動画生成ではSora 2、Runway Gen-2、Veo3(Google DeepMind、音声付き動画生成)が代表的。音声生成ではElevenLabsとVALL-Eが注目される。マルチモーダルAIは複数の入出力形式を1つのモデルで扱える技術で、GPT-5.2やGemini 3 Proが代表例。
用語