結論は?
詠架/AI副参事・GANより高精度・高品質だよ
・仕組みは「壊し方を覚えて、逆から作る」だけだよ
・ただ、計算が重くて生成はちょっと遅いよ
はじめに
おいおい、君も最近「Stable Diffusion」でエロい絵とか幻想的な風景とか作って遊んでるクチだろ? 「拡散モデルって何?」って聞かれても「なんかノイズを足して引いて…」くらいしか答えられないよね。 安心しろ、今日こそそのモヤモヤをぶっ飛ばしてやる。 初心者でも「なるほど!」ってなるレベルで全部説明するから、最後までついてこいよ。
拡散モデルって結局何なの?



拡散モデル(Diffusion Model)は、ノイズだらけのガラクタから綺麗な画像や音声を徐々に作り上げる生成AIの手法だよ。
GAN(敵対的生成ネットワーク)が「一発勝負」で画像を生成するのに対して、拡散モデルは「じっくり何百ステップもかけて磨き上げる」タイプ。 結果、クオリティがバカ高い。特に2022年以降、画像生成AIの主流を完全に奪った。
代表例
- Stable Diffusion(誰でも無料でローカルで動かせる神ツール)
- DALL·E 2 / DALL·E 3(OpenAIのやつ)
- Midjourney(Discordで動くやつ)
- Imagen(Googleのやつ)
全部裏で拡散モデル(もしくはその改良版)を使ってる。
仕組みを超簡単に言うと「ノイズ追加 → ノイズ除去」



拡散モデルには2つのプロセスがあるよ
1. フォワードプロセス(学習時にだけ使う)
本物の画像に少しずつガウスノイズを追加していく。 1000ステップくらい繰り返すと、最終的には完全にランダムなノイズ(真っ白なテレビの砂嵐)になる。
2. リバースプロセス(生成時に使う)
真っ白なノイズからスタートして、学習したモデルが「このノイズを1ステップずつ除去」していく。 AIは「この砂嵐の中に、うっすら猫が見える…!よし、余計な点を消そう!」という幻覚を見る作業を何十回も繰り返して、最終的に本当に猫にしちゃうんだ。 要は「壊し方を覚えれば、作り方もわかる」って哲学だ。
なんで今こんなに流行ってるの?
- 画質がバカ高い:GANだとモード崩壊(同じような画像ばかり)やアーティファクトが出やすいけど、拡散モデルは安定して高品質。
- 訓練が比較的簡単:GANみたいに「生成器vs識別器」の綱引きがない。
- テキスト条件付けが得意:CLIPとかと組み合わせると「猫が宇宙でギター弾いてる」みたいな無茶なプロンプトも完璧に描く。
- オープンソース化:Stable Diffusionが2022年に公開されて、誰でも自分のPCで動かせるようになった(これが爆発のキッカケ)。
欠点もあるよ
- 生成が遅い → ただ、最近は LCM (Latent Consistency Models) や SDXL Turbo みたいに、数ステップ(数秒)で生成できる技術も出てきてるから、『遅い』という弱点も克服されつつある。進化が早すぎて目が回るぜ。
- メモリ食う → でも最近はLatent DiffusionやDistillationで高速化が進んでるから、もうすぐ解決しそう。
主な派生・改良モデル一覧
| モデル名 | 特徴 | 公開元 |
|---|---|---|
| DDPM (2020) | 元祖論文。基礎中の基礎 | Ho et al. |
| Improved DDPM | ちょっと改良 | Nichol et al. |
| Latent Diffusion | 画像を潜在空間で処理して高速化 → Stable Diffusionの基盤 | Rombach et al. |
| Stable Diffusion 1.5 | みんな大好きオープンソース | Stability AI |
| Stable Diffusion XL | 解像度高い、プロンプト理解向上 | Stability AI |
| DALL·E 2 | CLIP + Diffusionの先駆け | OpenAI |
| Imagen | Googleの最高峰(公開されてないけど論文はすごい) | |
| SD3 / Flux | 2024-2025最新系。さらに高品質・高速 | 各種 |
実際に使ってみるには?
- 一番簡単:Hugging FaceのStable DiffusionスペースやAutomatic1111のWebUIをローカルにインストール。
- もっと簡単:CivitaiやMage.spaceみたいなブラウザサービス。
- プロンプトのコツ:英語で具体的に。「masterpiece, best quality, highly detailed」など入れると神絵率爆上がり。
まとめ:拡散モデルはもうAI生成の王者だ
ノイズを足して引くだけのシンプルなアイデアが、なぜか最高の画像を生み出す。 これが拡散モデルの面白いところであり、怖いところでもある(笑)。
今は画像がメインだけど、音声(Audio Diffusion)、動画(Soraも拡散系)、3D、分子設計まで広がってる。 数年後には「昔はGAN使ってたんだぜ」って笑い話になってるかもな。










コメント