結論は?
詠架/AI副参事・Together AIが考えたプロジェクト
・赤いパジャマを着たラマだよ()
・可愛いけど、中身はえぐい
・LLMとしては必須
つまり?



巨大なデータを持つパジャマを着たラマ()
はじめに
LLaMAのクローン作ろうぜってTogether AIが始めたプロジェクトで、名前が「Llama Llama Red Pajama」っていう子供向け絵本のパロディなんだよ。かわいいだろ?でも中身はガチで凶悪。
MetaのLLaMAトレーニングデータを完全にオープンソースで再現したデータセットなんだぜ。商用OK、誰でも使えて、AIの民主化狙ってるやつ。
これ知らないと、最新のオープンLLM話についていけなくなるから、ちゃんと読めよな
RedPajamaの基本:何これ?どうやって生まれたの?



2023年にTogether AIが主導でスタートしたプロジェクト。
パートナー:Stanfordの研究グループ、ETH Zürich、MILA(カナダのAI研究所)、LAIONとか、エリート集団。
目的
- MetaのLLaMAみたいに強いモデルを完全にオープンで作る
- データもモデルも商用利用OK(Apache 2.0ライセンス)
- 「AIはLinuxみたいにオープンになるべき」って思想
名前はマジでLlama Llama Red Pajama(子供の絵本)から。開発者に小さい子いるんだろうなって感じでほっこりするけど、内容は本気。


RedPajamaのバージョン別:どんどんデカくなってるぞ
RedPajama v1(2023年リリース)
- サイズ:約1.2兆(1.2 trillion)トークン
- LLaMAのトレーニングデータレシピをクリーンルーム再現(Metaのデータ使わず、公開情報だけから作り直し)
- データソースの内訳(だいたいこれ):
- CommonCrawl(ウェブクロール):67%くらい(878Bトークン)
- C4(Googleのクリーンウェブデータ):15%
- GitHub(コード):4.5%
- Books(書籍):4%
- ArXiv(論文):2.5%
- Wikipedia:2%
- StackExchange:2%
これで訓練されたモデル例
RedPajama-INCITEシリーズ、Snowflake Arctic、OLMoとか。Hugging Faceで500以上の派生モデルが生まれてる。
RedPajama v2(2023-2024アップデート、2024年末に論文)
- サイズ:30兆トークン(v1の30倍!)+全体で100兆トークン超えのエコシステム
- 特徴:ウェブデータオンリー(CommonCrawl 84スナップショットから100億ドキュメント)
- 生データ+40以上の品質シグナル付き(フィルタリングしやすくて神)
- 重複除去済み部分もあり
- 言語:英語メイン+フランス語、スペイン語、ドイツ語、イタリア語
v2は「生のまま渡すから、自分でフィルタリングしてね」ってスタンス。コミュニティが好きなように高品質データ抜き出せるようになってる。CerebrasのSlimPajama(重複除去版)とかもこれベース。
なんでRedPajamaがすごいの?
- オープンソース最強クラス:商用モデル(Snowflake Arcticとか)もこれで訓練されてる
- 透明性抜群:データ処理スクリプト全部GitHub公開。誰でも再現可能
- データ品質研究の宝庫:v2の品質シグナルで、どんなフィルタがモデル性能に効くか実験し放題
- GPU貧乏人救済:生データから自分で高品質部分抜き出せば、安く強いモデル作れる(Reddit民大喜び)
デメリット? デカすぎてダウンロードするだけでHDD泣く。v2はフィルタ必須だぜ。
どうやって使うの?(初心者向け)
- Hugging Faceで検索:「togethercomputer/RedPajama-Data」
- サンプルから試す:load_dataset(“togethercomputer/RedPajama-Data-V2″, name=”sample”)
- フルデータ欲しいならGitHubのスクリプトで自分で処理
まとめ:RedPajama知らないとAIオタク失格だぞ
要するに、RedPajamaはオープンAIの希望。
MetaやOpenAIがクローズドでやってるのを「いや、オープンでいいモデル作れるよ」って証明してるプロジェクト。 今じゃ OpenLLaMA、StableLM、MosaicMLのMPT とか、プロダクションレベルのモデルがこれで生まれてるし2025年現在も進化中。
寝る前に赤いパジャマ着て、RedPajamaダウンロード考えてみ?(笑)










コメント