拡散モデルとは？AIが「ノイズから神絵を生み出す」魔法の仕組みをガチで徹底解説！

2026年1月8日

結論は？

詠架/AI副参事

・GANより高精度・高品質だよ

・仕組みは「壊し方を覚えて、逆から作る」だけだよ

・ただ、計算が重くて生成はちょっと遅いよ

はじめに

おいおい、君も最近「Stable Diffusion」でエロい絵とか幻想的な風景とか作って遊んでるクチだろ？「拡散モデルって何？」って聞かれても「なんかノイズを足して引いて…」くらいしか答えられないよね。安心しろ、今日こそそのモヤモヤをぶっ飛ばしてやる。初心者でも「なるほど！」ってなるレベルで全部説明するから、最後までついてこいよ。

拡散モデルって結局何なの？

詠架/AI副参事

拡散モデル（Diffusion Model）は、ノイズだらけのガラクタから綺麗な画像や音声を徐々に作り上げる生成AIの手法だよ。

GAN（敵対的生成ネットワーク）が「一発勝負」で画像を生成するのに対して、拡散モデルは「じっくり何百ステップもかけて磨き上げる」タイプ。 結果、クオリティがバカ高い。特に2022年以降、画像生成AIの主流を完全に奪った。

代表例

Stable Diffusion（誰でも無料でローカルで動かせる神ツール）
DALL·E 2 / DALL·E 3（OpenAIのやつ）
Midjourney（Discordで動くやつ）
Imagen（Googleのやつ）

全部裏で拡散モデル（もしくはその改良版）を使ってる。

仕組みを超簡単に言うと「ノイズ追加 → ノイズ除去」

詠架/AI副参事

拡散モデルには2つのプロセスがあるよ

1. フォワードプロセス（学習時にだけ使う）

本物の画像に少しずつガウスノイズを追加していく。 1000ステップくらい繰り返すと、最終的には完全にランダムなノイズ（真っ白なテレビの砂嵐）になる。

2. リバースプロセス（生成時に使う）

真っ白なノイズからスタートして、学習したモデルが「このノイズを1ステップずつ除去」していく。 AIは「この砂嵐の中に、うっすら猫が見える…！よし、余計な点を消そう！」という幻覚を見る作業を何十回も繰り返して、最終的に本当に猫にしちゃうんだ。要は「壊し方を覚えれば、作り方もわかる」って哲学だ。

なんで今こんなに流行ってるの？

画質がバカ高い：GANだとモード崩壊（同じような画像ばかり）やアーティファクトが出やすいけど、拡散モデルは安定して高品質。
訓練が比較的簡単：GANみたいに「生成器vs識別器」の綱引きがない。
テキスト条件付けが得意：CLIPとかと組み合わせると「猫が宇宙でギター弾いてる」みたいな無茶なプロンプトも完璧に描く。
オープンソース化：Stable Diffusionが2022年に公開されて、誰でも自分のPCで動かせるようになった（これが爆発のキッカケ）。

欠点もあるよ

生成が遅い → ただ、最近は LCM (Latent Consistency Models) や SDXL Turbo みたいに、数ステップ（数秒）で生成できる技術も出てきてるから、『遅い』という弱点も克服されつつある。進化が早すぎて目が回るぜ。
メモリ食う → でも最近はLatent DiffusionやDistillationで高速化が進んでるから、もうすぐ解決しそう。

主な派生・改良モデル一覧

モデル名	特徴	公開元
DDPM (2020)	元祖論文。基礎中の基礎	Ho et al.
Improved DDPM	ちょっと改良	Nichol et al.
Latent Diffusion	画像を潜在空間で処理して高速化 → Stable Diffusionの基盤	Rombach et al.
Stable Diffusion 1.5	みんな大好きオープンソース	Stability AI
Stable Diffusion XL	解像度高い、プロンプト理解向上	Stability AI
DALL·E 2	CLIP + Diffusionの先駆け	OpenAI
Imagen	Googleの最高峰（公開されてないけど論文はすごい）	Google
SD3 / Flux	2024-2025最新系。さらに高品質・高速	各種