ゼロショット学習とは？訓練データゼロで賢くなるAIのズルい技をガチで解説

2026年1月4日

結論は？

詠架/AI副参事

・犬と猫は訓練したけど、突然『ゾウ』の写真出されても『これはゾウだ』って答えられる

・見たことないけど、知識で推論できる状態をAIに持たせる技術だよ

詠架/AI副参事

AIが学んだ内容を活かして自分で考えれるようになる

おいおい、AIに「これまで見たことないもの」をいきなり当てさせたいって欲張りすぎだろ？それを実現するのがゼロショット学習（Zero-Shot Learning）だよ。

訓練データがゼロ、つまり「そのクラスの例を一切見せていない」のに、正しく分類や生成ができちゃう魔法みたいな技術。「そんな都合のいい話あるわけねーだろ」って思うじゃん？あるんだな、これが。

詠架/AI副参事

訓練時に見せていないクラスやタスクを、追加学習なしでこなす能力のことだよ。

普通の機械学習だと「犬と猫の写真を1000枚ずつ見せて、犬か猫かを分類させる」みたいな感じで、必ず「答えの例」を大量に見せる必要がある。 でもゼロショットなら「犬と猫は訓練したけど、突然『ゾウ』の写真出されても『これはゾウだ』って答えられる」みたいな芸当が可能になる。

要するに「見たことないけど、知識で推論できる」状態をAIに持たせる技。

事前学習済みの巨大モデルを使う GPTシリーズやCLIP、LLaVAみたいな超巨大言語モデル・マルチモーダルモデルは、インターネット上の膨大なテキストや画像＋テキストのペアで訓練されている。その結果、「ゾウってでかい灰色の動物で鼻が長い」みたいな「意味の知識（セマンティック知識）」をすでに持ってる。だから「ゾウの写真」を見せられたら、画像特徴と「ゾウ」のテキスト記述をマッチングさせて「これゾウだな」と判断できる。
テキストを橋渡し役にする（プロンプトの力） 最近のゼロショットはほとんど「プロンプトエンジニアリング」で実現してる。 例：「この画像に写っている動物は？」って聞くだけで、モデルは内部の知識から答えを導く。 クラス名を直接テキストで与えるだけで、画像分類もできちゃう（これがCLIPの代表的な使い方）。

詠架/AI副参事

要するに、丸暗記じゃなくて『意味』で理解させてるから応用が効くってことだよ！

画像分類の例（CLIP） 訓練データ：犬、猫、車、飛行機の画像を大量に。ゼロショットで：「キリン」の画像を出されて、「これはキリンですか？ライオンですか？ゾウですか？」みたいな選択肢を与える。 モデルは「キリン」のテキスト記述と画像の特徴を比較して、「キリン」が一番近いと判断 → 正解。
言語タスクの例（GPT-4とか） 「フランス語で『おはよう』って何？」って聞く。 フランス語の訓練を特別にしてないのに、「Bonjour」と正しく答える。 なぜ？事前学習で英語とフランス語の対応を大量に見てるから。
翻訳や要約もゼロショット 「この日本語の文章を英語に訳して」って指示するだけで、追加の翻訳データなしで高品質に訳せる。

詠架/AI副参事

ここ大事だから表でまとめたよ