勾配クリッピングとは？爆発する勾配をビシッと抑える神テクニックをガチで解説

2026年1月15日

結論は？

詠架/AI副参事

・勾配クリッピングは勾配爆発を抑えてくれる技術だよ！

・AIが学習中に突然「あわわわｗww数字がデカすぎて無理ぽｗwwwwｗｗ」ってなる現象、それが勾配爆発だよ！

おいおい、深層学習の沼にハマってるの？「勾配クリッピングって何？」って聞かれちゃったけど、正直に言うと、これ知らないとRNNやTransformer訓練してるときに「なんで損失がNaNになったんだよ…」って泣く羽目になるやつだよ。

勾配降下法でニューラルネットを訓練してるとき、勾配（パラメータの更新量）がバカみたいにデカくなりすぎる現象がある。

これを「勾配爆発（Exploding Gradients）」って呼ぶんだけど、

詠架/AI副参事

その爆発を防ぐために勾配の大きさを強制的に制限するテクニックが勾配クリッピングだよ！

イメージ：勾配が暴走列車みたいに加速して脱線寸前→クリッピングで「はい、そこまで！ブレーキ！」って強制的に止める。

これやらないと、特にRNNやLSTM、深いネットワークで訓練が不安定になって損失が爆発（NaN）したり、収束しなくなったりする。

詠架/AI副参事

AIが学習中に突然「あわわわｗww数字がデカすぎて無理ぽｗwwwwｗｗ」ってなる現象、それが勾配爆発だよ！

掛け算の地獄（複利の恐怖） バックプロパゲーションは「掛け算の連鎖」だ。重みが「1.1」だとしても、層が深くて100回掛け算したら、数字は宇宙の彼方まで吹っ飛ぶ。借金が雪だるま式に増えるのと一緒。逃げられない。
RNNは「話が長すぎるオカン」 時系列データが長いってことは、過去に遡る距離が長すぎるってこと。「あの時もそうだったし、その前も…」って無限に掛け算させられるから、最初の方には「超巨大な修正命令（＝爆発）」が届いてAIが即死する。
ReLU先輩が煽る ReLU関数は「マイナスは0にするけど、プラスなら青天井でイケイケ！」っていうパリピ仕様。彼がブレーキを踏まないせいで、たまに勢い余って数字が暴走する。

「お前、そこ飛び出てるから切るわ」というノリで、個々の値を無理やり [-c, c] に押し込める。

やり方: 5.0が上限なのに 10.0 が来たら、問答無用で 5.0 に変更。
ここがダメ: $x$ と $y$ のバランスを無視して片方だけ切ったりするから、「あれ？俺こっちに進むはずじゃなかったのに？」 って勾配の方向（ベクトル）が変わってしまうことがある。雑すぎる！

詠架/AI副参事

今の主流はこっちだよ！

「全体的にデカすぎるから、形を保ったまま小さくなれ！」という魔法。

やり方: ベクトル全体の長さ（L2ノルム）を測って、上限超えてたら比率を保ったまま全体をシュッと縮める。
ここが神: 「方向」は変えずに「大きさ」だけ抑えるから、学習の進む向きがズレない。安心安全の公式実装（PyTorch/TensorFlow）は大体これ。

迷ったら Norm Clipping を使え。Value Clippingは「計算コストを1ミリでもケチりたいドケチ」か「特殊な性癖」がある時以外は忘れていいぞ！

詠架/AI副参事

閾値の決め方、ざっくり言うと「まずは1.0教に入信しろ」ってことだよ！

ここは世紀末（修羅場）だ。ブレーキがないと死ぬ。

ここは平和な教室だ。過保護はいらない。

（※注釈）: ただしTransformer系（LLMなど）は、Normが入っていても念のため「クリッピング1.0」を入れておくのが業界の嗜みだ。「転ばぬ先の杖」として、迷ったら入れとけ！

LayerNorm / RMSNorm / BatchNorm 完備 :
- 最新の防具でガチガチに守られてる状態。素っ裸じゃないから、多少の爆風（勾配）は無傷で耐える。

「とりあえず入れとく」精神は、「特に腹痛くないけど、怖いから正露丸飲んどく」みたいなもんだ！まあ、お守りとしては優秀だから、心配性なら入れとけ！

「ちょうどいい」を探すのがダルい 閾値（クリッピングする値）の調整がシビア。「お前、何なら満足なんだよ！」ってなることもしばしば。
ビビりすぎると亀になる 閾値を小さくしすぎると、AIが「あ、はい、大人しくしてます…」ってなって、学習速度が牛歩戦術並みに遅くなる。
天才の芽を摘む（たまに） 「ここは大きく動くべきだろ！」っていうAIの重要な「ひらめき（大きな勾配）」まで、「うるせぇ静かにしろ！」って切り捨てちゃう事故が起きる。