RedPajamaとは?AI界の「赤いパジャマ」が大暴れしてるオープンソースデータセットを徹底解説(笑)

目次

結論は?

詠架/AI副参事

・Together AIが考えたプロジェクト

・赤いパジャマを着たラマだよ()

・可愛いけど、中身はえぐい

・LLMとしては必須

つまり?

詠架/AI副参事

巨大なデータを持つパジャマを着たラマ()

はじめに

LLaMAのクローン作ろうぜってTogether AIが始めたプロジェクトで、名前が「Llama Llama Red Pajama」っていう子供向け絵本のパロディなんだよ。かわいいだろ?でも中身はガチで凶悪

MetaのLLaMAトレーニングデータを完全にオープンソースで再現したデータセットなんだぜ。商用OK、誰でも使えて、AIの民主化狙ってるやつ。

これ知らないと、最新のオープンLLM話についていけなくなるから、ちゃんと読めよな

RedPajamaの基本:何これ?どうやって生まれたの?

詠架/AI副参事

2023年にTogether AIが主導でスタートしたプロジェクト。
パートナー:Stanfordの研究グループ、ETH Zürich、MILA(カナダのAI研究所)、LAIONとか、エリート集団。

目的

  • MetaのLLaMAみたいに強いモデルを完全にオープンで作る
  • データもモデルも商用利用OK(Apache 2.0ライセンス)
  • 「AIはLinuxみたいにオープンになるべき」って思想

名前はマジでLlama Llama Red Pajama(子供の絵本)から。開発者に小さい子いるんだろうなって感じでほっこりするけど、内容は本気

RedPajamaのバージョン別:どんどんデカくなってるぞ

RedPajama v1(2023年リリース)

  • サイズ:約1.2兆(1.2 trillion)トークン
  • LLaMAのトレーニングデータレシピをクリーンルーム再現(Metaのデータ使わず、公開情報だけから作り直し)
  • データソースの内訳(だいたいこれ):
    • CommonCrawl(ウェブクロール):67%くらい(878Bトークン)
    • C4(Googleのクリーンウェブデータ):15%
    • GitHub(コード):4.5%
    • Books(書籍):4%
    • ArXiv(論文):2.5%
    • Wikipedia:2%
    • StackExchange:2%

これで訓練されたモデル例

RedPajama-INCITEシリーズ、Snowflake Arctic、OLMoとか。Hugging Faceで500以上の派生モデルが生まれてる。

RedPajama v2(2023-2024アップデート、2024年末に論文)

  • サイズ:30兆トークン(v1の30倍!)+全体で100兆トークン超えのエコシステム
  • 特徴:ウェブデータオンリー(CommonCrawl 84スナップショットから100億ドキュメント)
  • 生データ+40以上の品質シグナル付き(フィルタリングしやすくて神)
  • 重複除去済み部分もあり
  • 言語:英語メイン+フランス語、スペイン語、ドイツ語、イタリア語

v2は「生のまま渡すから、自分でフィルタリングしてね」ってスタンス。コミュニティが好きなように高品質データ抜き出せるようになってる。CerebrasのSlimPajama(重複除去版)とかもこれベース。

なんでRedPajamaがすごいの?

  • オープンソース最強クラス:商用モデル(Snowflake Arcticとか)もこれで訓練されてる
  • 透明性抜群:データ処理スクリプト全部GitHub公開。誰でも再現可能
  • データ品質研究の宝庫:v2の品質シグナルで、どんなフィルタがモデル性能に効くか実験し放題
  • GPU貧乏人救済:生データから自分で高品質部分抜き出せば、安く強いモデル作れる(Reddit民大喜び)

デメリット? デカすぎてダウンロードするだけでHDD泣く。v2はフィルタ必須だぜ。

どうやって使うの?(初心者向け)

  1. Hugging Faceで検索:「togethercomputer/RedPajama-Data」
  2. サンプルから試す:load_dataset(“togethercomputer/RedPajama-Data-V2″, name=”sample”)
  3. フルデータ欲しいならGitHubのスクリプトで自分で処理

まとめ:RedPajama知らないとAIオタク失格だぞ

要するに、RedPajamaはオープンAIの希望

MetaやOpenAIがクローズドでやってるのを「いや、オープンでいいモデル作れるよ」って証明してるプロジェクト。 今じゃ OpenLLaMA、StableLM、MosaicMLのMPT とか、プロダクションレベルのモデルがこれで生まれてるし2025年現在も進化中。

寝る前に赤いパジャマ着て、RedPajamaダウンロード考えてみ?(笑)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

ITTIのアバター ITTI 運営長

ITTI運営長 / 元国家公務員ブロガー
国家公務員として5年間従事した後、新たな挑戦のために退職。調べものと学ぶことが止められなくなり、現在は以下の5ブログを運営中:
・ITTI局(メイン)
・DXブログ(今ここ!)
・CODEブログ
・INFRAブログ
・XRブログ
保有資格:ITパスポート
目標資格:情報処理安全確保支援士(学ぶこと多すぎて道のりは遠いですが、毎日コツコツ進めています…泣)

ブログでは公務員時代の実体験と最新技術を掛け合わせて、読者の「わかりにくい」を「わかる!」に変える記事を発信。最終目標は、これらの知識を活かして「ドラえもんのような万能AI」を開発すること(副運営長任命が待ち遠しい!)。
IT・DXに興味ある方、気軽にX(@llEqmDGOYZ4258)でDMください。一緒に学びましょう!

公務員のキャラがDXを解説!?パロディのブログ『ITTI DX』、発信中!

ITTI DXは企業の安心と持続をサポートするDXを特化したブログ

コメント

コメントする

目次