結論は?
学縁 LLaVA専門官・ウィスコンシン大学マディソン校が開発したLMMだよ
・LLMの進化版で、画像+テキスト処理が神
・LMMはLLMの進化だよ
・無料・ローカル実行しやすい
・でも、現在はLLaVA本家の開発が止まってる(最終コミット2024年5月、リリース2024年1月)
・ただしLLaVA-NeXT/OneVision系は2025年も更新継続中
はじめに
おいおい、2026年になってもLLaVA知ってる奴は通だぞ。
「画像見て喋れる無料AI?」って思ってるだろ? 確かにマルチモーダル民主化起こした革命児で、ケチ勢・GPU弱いお前みたいな奴に刺さるモデルだけど…今はもっとヤバい後輩たちがトップ走ってるんだよな(ニヤニヤ)。
昔GPT-4V並みって騒がれたレジェンド、詳しく解説してやる!
LLaVAって結局何なの?超簡単に言うと



Large Language and Vision Assistantの略。
日本語で言うと「大規模言語+視覚アシスタント」ね。
- 画像を入力 → 内容を理解 → 自然な日本語(or英語)で答える
- 例:「この写真、何が変?」って聞くと、画像の違和感をズバリ指摘してくれる
- チャットボットみたいに会話もできるし、画像説明、OCR、視覚的推論までこなす
要するに、昔のGPT-4Vキラーのオープンソース版。ローカルでタダで動かせる神(特に軽量で)。
LLaVAの歴史〜なんでこんなに話題になった?
- 2023年4月:初代LLaVA登場(Haotian Liuら、Microsoft Research+大学連携)
- GPT-4を使って「視覚指示データ」を自動生成 → これが革命的
- 当時、画像+言語のモデルは訓練データが少なくて弱かったけど、LLaVAはVisual Instruction Tuningで一気に実用レベルに
- 2023年10月:LLaVA-1.5リリース → 精度爆上げ
- 2024年:LLaVA-NeXT、LLaVA-OneVision登場 → 動画・複数画像・高解像度対応
- 2025-2026現在:派生モデルが乱立(LLaVA-UHD、Delta-LLaVA、LLaVA-MOREなど)
GitHubスター数は10万超え常連。 オープンソースAI界の覇権争いで、LLaMA系と並ぶ人気者だよ(笑)。
仕組みはシンプルすぎて笑える
- 視覚エンコーダー:CLIP(OpenAI)やSigLIPとかで画像をベクトル化
- プロジェクター:画像ベクトルをLLMが理解できる形に変換
- LLM本体:Vicuna、LLaMA2、LLaVA-NeXT以降はLLaMA3系やMistralも
訓練は2段階
- 画像と言語を合わせるプリトレーニング
- GPT-4が作った「視覚指示データ」でファインチューニング
主なバージョン一覧
- LLaVA(初代):7B/13B、基本性能は今見ると古い
- LLaVA-1.5:解像度向上、OCR強化。まだ現役
- LLaVA-NeXT:複数画像・動画対応、世界知識強化
- LLaVA-OneVision:画像・動画・オーディオを一つのモデルで処理
- 派生系:LLaVA-UHD(超高解像度)、Delta-LLaVA(効率化)、LLaVA-MORE(LLaMA3.1ベース)



おすすめはLLaVA-NeXTかOneVisionよ。軽くてまだ現役ね。
他のモデルと比べてどうなの?
| モデル | オープンソース | 画像理解力 | ローカル実行 | 価格 | 2026年ポジション |
|---|---|---|---|---|---|
| GPT-4V | × | ★★★★★ | × | 高額 | 有料最強 |
| InternVL3シリーズ | ◎ | ★★★★★ | △(重い) | 無料 | オープンソーストップ |
| Qwen2.5-VLシリーズ | ◎ | ★★★★★ | △ | 無料 | OCR・動画最強 |
| Ovis2/DeepSeek-VL系 | ◎ | ★★★★☆ | ○ | 無料 | 新星バランス・実用神 |
| LLaVA-NeXT/OneVision | ◎ | ★★★ | ◎ | 無料 | 軽量・入門・ローカル最強 |



要するに「金ない・軽く動かしたい」ならLLaVA一択。
ガチ最強ならInternVL3かQwen2.5-VL行け。昔はGPT-4Vに近かったけど、今は新勢が本物の無料最強。
メリット・デメリット(正直に言うぞ)
メリット
- 完全無料・オープンソース → 改造し放題
- プライバシー最高(ローカル実行可)
- OllamaやLM Studioで数クリックで動く
- 派生モデルが多いから用途に合わせて選べる
デメリット
- GPU必要(7Bでも8GB以上推奨)
- 最新の有料モデルに比べるとたまにボケる
- 動画対応は実用レベルだが、フレーム数増やすと激重になる
まとめ
LLaVAはマルチモーダルAI民主化の革命児で、無料ローカル実行の英雄。
2026年は本家開発停滞気味(最終更新2024年)だけど、派生モデル(LLaVA-NeXT、OneVision等)は2025年も進化継続中。初心者・ケチ勢にはまだ神。ガチ最先端追うなら新モデルも試せ。
(参考:公式GitHub https://github.com/haotian-liu/LLaVA 、公式サイト https://llava-vl.github.io/)










コメント