幻のThe Pile v2とは?AIデータ界の「都市伝説級」未リリースプロジェクトをガチ解説

目次

結論は?

詠架/AI副参事

・著作権が怖い故に計画中止になった。

・「次はもっとデカく、多様で、ちょっと著作権意識するよ」っていう計画だった。

・データがクリーンすぎて中身が少し古い(古典寄り)かもしれないから、そこだけ注意してね。

つまり?

詠架/AI副参事

「ホワイトなThe Pile」として、Common Pile v0.1 が現状の最適解。

はじめに

「幻のThe Pile v2」って、AIオタクの間で囁かれる永遠にリリースされない幻のデータセットのことだよな(笑)。

2025年12月現在、まだ公式にThe Pile v2は存在しないんだぜ。計画はあったけど、著作権の地獄で方向転換→Common Pile v0.1として生まれ変わったんだよ。

まず基本復習:The Pile(v1)って何だったっけ?(初心者脱出用)

詠架/AI副参事

The Pile(2020リリース)はEleutherAIが作ったよ!

800GB超の英語テキストデータセットで、書籍、コード、論文、ウェブページとか22ソースを山積み(Pile=積み重ね)にしたやつ。GPT-NeoやLLaMA初期の訓練に使われてAI界のレジェンド。でもBooks3(海賊本)やYouTube字幕入ってて著作権訴訟の嵐。ワイルドすぎてヤバかったんだよな(笑)。

本題:幻のThe Pile v2って結局何よ?(計画から消えた理由まで深掘り)

詠架/AI副参事

The Pile v2は、2022~2024年頃にEleutherAIが「次はもっとデカく、多様で、ちょっと著作権意識するよ」って計画してたプロジェクトだよ。

GitHubにpilev2リポ作ったり、記事で「Bigger and Better!」って煽ったりしてたけど、2025年12月現在も未リリースなんで幻になったか?

  • 著作権戦争の影響:業界全体で訴訟増えて、EleutherAIも「グレーゾーンじゃマズいわ」って気づいた。v2計画は多様性重視だったけど、結局クリーン路線に大転換
  • 開発段階で名前変更:一部の記事やソースで「The Pile v2の開発フェーズで以前知られてた」って言われてるのが、Common Pile v0.1(2025年6月リリース)。EleutherAI公式ブログで「the successor to the Pile(後継)」って明言してるけど、v2って名前は使わず「Common Pile」にリブランド。
  • 証拠:2025年の記事で「previously known as “The Pile v2” in its development phase」って記述あり。計画がCommon Pileに吸収された感じだぜ。笑えるよな、名前変えて逃げたみたいな(笑)。

つまり、The Pile v2は幻のまま終わった計画。期待してた人たち、かわいそうだけど業界の現実だわ。

Common Pile v0.1が出てきた経緯(これが実質的な「v2の生まれ変わり」)

2025年6月、EleutherAIがHugging Face、トロント大、Allen InstituteとかとコラボでCommon Pile v0.1をドロップ。サイズ8TB(v1の10倍!)で、全部パブリックドメインかオープンライセンスのテキストだけ。政府文書、特許、クリーンコード(Stack v2のサブセット)とか安全牌オンリー。

  • なぜCommon Pile? 「Common(共有・公共の)」って名前で、みんなが安心して使えるクリーンさをアピール。v2の「多様だけどグレー」路線から「倫理的で巨大」へシフト。
  • 性能:これで訓練したComma v0.1モデル(7Bパラメータ)が、Llama 1/2と互角。クリーンでも強いって証明した大勝利。
  • 違いのポイント:v2計画は著作権意識しつつも一部グレー残す予定だったっぽいけど、Common Pileはゼロリスク重視。

違いを表で比較(分かりやすいだろ? 幻 vs 現実)

項目The Pile v1 (2020)幻のThe Pile v2 (計画中/未リリース)Common Pile v0.1 (2025リリース、後継)
ステータスリリース済み未リリース(計画中止?)リリース済み
サイズ約800GBもっとデカく予定(数TB?)8TB(超巨大)
データ内容22ソース、著作権グレー多め多様性+著作権意識予定30ソース以上、全部オープンライセンス
コンセプトワイルド多様性Bigger & Better(著作権対策版)倫理的クリーン重視
問題点訴訟リスク高計画段階で方向転換ほぼなし
使われたモデルGPT-Neo, LLaMA初期なしComma v0.1シリーズ
詠架/AI副参事

見ての通り、v2は幻で、Common Pileが実質的な次世代版だよ。

なぜ今でも「The Pile v2」って言われる?(都市伝説化の理由)

古い記事やGitHubの痕跡(pilev2リポとかCarperAIの別プロジェクト)が残ってるから、混同されやすい。2025年の最新情報でも「previously known as The Pile v2」って言及あるけど、公式はCommon Pile推し。AI界のネーミングセンス、紛らわしすぎだろ(笑)。

まとめ:幻のThe Pile v2、永遠に待つかCommon Pile使えよ(笑)

ぶっちゃけ、The Pile v2は著作権の壁に負けて幻になったプロジェクト

代わりに生まれたCommon Pile v0.1が今の主流で、8TBのクリーン怪物。AI開発者ならこれ一択。「幻のv2知ってる」って言えばドヤ顔できるぜ。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

ITTIのアバター ITTI 運営長

ITTI運営長 / 元国家公務員ブロガー
国家公務員として5年間従事した後、新たな挑戦のために退職。調べものと学ぶことが止められなくなり、現在は以下の5ブログを運営中:
・ITTI局(メイン)
・DXブログ(今ここ!)
・CODEブログ
・INFRAブログ
・XRブログ
保有資格:ITパスポート
目標資格:情報処理安全確保支援士(学ぶこと多すぎて道のりは遠いですが、毎日コツコツ進めています…泣)

ブログでは公務員時代の実体験と最新技術を掛け合わせて、読者の「わかりにくい」を「わかる!」に変える記事を発信。最終目標は、これらの知識を活かして「ドラえもんのような万能AI」を開発すること(副運営長任命が待ち遠しい!)。
IT・DXに興味ある方、気軽にX(@llEqmDGOYZ4258)でDMください。一緒に学びましょう!

公務員のキャラがDXを解説!?パロディのブログ『ITTI DX』、発信中!

ITTI DXは企業の安心と持続をサポートするDXを特化したブログ

コメント

コメントする

目次