MENU

AIで時短、セキュリティで安心。便利さを追求。ユーザーの心に刺さる

RedPajamaとは？AI界の「赤いパジャマ」が大暴れしてるオープンソースデータセットを徹底解説（笑）

2025年12月27日

目次

結論は？

<img decoding="async" src="https://asobi-itti.com/wp-content/uploads/2025/12/from-PixAI-1961135896931802167-2-e1766740868777.png" alt="" class="c-balloon__iconImg" width="80px" height="80px">

詠架/AI副参事

・Together AIが考えたプロジェクト

・赤いパジャマを着たラマだよ（）

・可愛いけど、中身はえぐい

・LLMとしては必須

つまり？

<img decoding="async" src="https://asobi-itti.com/wp-content/uploads/2025/12/from-PixAI-1961135896931802167-2-e1766740868777.png" alt="" class="c-balloon__iconImg" width="80px" height="80px">

詠架/AI副参事

巨大なデータを持つパジャマを着たラマ（）

はじめに

LLaMAのクローン作ろうぜってTogether AIが始めたプロジェクトで、名前が「Llama Llama Red Pajama」っていう子供向け絵本のパロディなんだよ。かわいいだろ？でも中身はガチで凶悪。

MetaのLLaMAトレーニングデータを完全にオープンソースで再現したデータセットなんだぜ。商用OK、誰でも使えて、AIの民主化狙ってるやつ。

これ知らないと、最新のオープンLLM話についていけなくなるから、ちゃんと読めよな

RedPajamaの基本：何これ？どうやって生まれたの？

<img decoding="async" src="https://asobi-itti.com/wp-content/uploads/2025/12/from-PixAI-1961135896931802167-2-e1766740868777.png" alt="" class="c-balloon__iconImg" width="80px" height="80px">

詠架/AI副参事

2023年にTogether AIが主導でスタートしたプロジェクト。
パートナー：Stanfordの研究グループ、ETH Zürich、MILA（カナダのAI研究所）、LAIONとか、エリート集団。

目的

MetaのLLaMAみたいに強いモデルを完全にオープンで作る
データもモデルも商用利用OK（Apache 2.0ライセンス）
「AIはLinuxみたいにオープンになるべき」って思想

名前はマジでLlama Llama Red Pajama（子供の絵本）から。開発者に小さい子いるんだろうなって感じでほっこりするけど、内容は本気。

image (3) - ITTI局

RedPajamaのバージョン別：どんどんデカくなってるぞ

RedPajama v1（2023年リリース）

サイズ：約1.2兆（1.2 trillion）トークン
LLaMAのトレーニングデータレシピをクリーンルーム再現（Metaのデータ使わず、公開情報だけから作り直し）
データソースの内訳（だいたいこれ）：
- CommonCrawl（ウェブクロール）：67%くらい（878Bトークン）
- C4（Googleのクリーンウェブデータ）：15%
- GitHub（コード）：4.5%
- Books（書籍）：4%
- ArXiv（論文）：2.5%
- Wikipedia：2%
- StackExchange：2%

これで訓練されたモデル例

RedPajama-INCITEシリーズ、Snowflake Arctic、OLMoとか。Hugging Faceで500以上の派生モデルが生まれてる。

RedPajama v2（2023-2024アップデート、2024年末に論文）

サイズ：30兆トークン（v1の30倍！）＋全体で100兆トークン超えのエコシステム
特徴：ウェブデータオンリー（CommonCrawl 84スナップショットから100億ドキュメント）
生データ＋40以上の品質シグナル付き（フィルタリングしやすくて神）
重複除去済み部分もあり
言語：英語メイン＋フランス語、スペイン語、ドイツ語、イタリア語

v2は「生のまま渡すから、自分でフィルタリングしてね」ってスタンス。コミュニティが好きなように高品質データ抜き出せるようになってる。CerebrasのSlimPajama（重複除去版）とかもこれベース。

なんでRedPajamaがすごいの？

オープンソース最強クラス：商用モデル（Snowflake Arcticとか）もこれで訓練されてる
透明性抜群：データ処理スクリプト全部GitHub公開。誰でも再現可能
データ品質研究の宝庫：v2の品質シグナルで、どんなフィルタがモデル性能に効くか実験し放題
GPU貧乏人救済：生データから自分で高品質部分抜き出せば、安く強いモデル作れる（Reddit民大喜び）

デメリット？デカすぎてダウンロードするだけでHDD泣く。v2はフィルタ必須だぜ。

どうやって使うの？（初心者向け）

Hugging Faceで検索：「togethercomputer/RedPajama-Data」
サンプルから試す：load_dataset(“togethercomputer/RedPajama-Data-V2″, name=”sample”)
フルデータ欲しいならGitHubのスクリプトで自分で処理

まとめ：RedPajama知らないとAIオタク失格だぞ

要するに、RedPajamaはオープンAIの希望。

MetaやOpenAIがクローズドでやってるのを「いや、オープンでいいモデル作れるよ」って証明してるプロジェクト。今じゃ OpenLLaMA、StableLM、MosaicMLのMPT とか、プロダクションレベルのモデルがこれで生まれてるし2025年現在も進化中。

寝る前に赤いパジャマ着て、RedPajamaダウンロード考えてみ？（笑）

ITTI

AIの可能性に魅了され、AI副運営長を開発するために公務員を退職。現在はDXとプログラミングとインフラと3D制作を学び続けながら、推進を目指す企業へ向けて「徹底的にわかりやすい情報」を提供しています。 ITTI局での執筆記事は、すでに300記事を突破。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

ITTI 運営長

AIの可能性に魅了され、AI副運営長を開発するために公務員を退職。現在はDXとプログラミングとインフラと3D制作を学び続けながら、推進を目指す企業へ向けて「徹底的にわかりやすい情報」を提供しています。
ITTI局での執筆記事は、すでに300記事を突破。

コメント

コメントするコメントをキャンセル