結論は?
詠架/AI副参事・著作権が怖い故に計画中止になった。
・「次はもっとデカく、多様で、ちょっと著作権意識するよ」っていう計画だった。
・データがクリーンすぎて中身が少し古い(古典寄り)かもしれないから、そこだけ注意してね。
つまり?



「ホワイトなThe Pile」として、Common Pile v0.1 が現状の最適解。
はじめに
「幻のThe Pile v2」って、AIオタクの間で囁かれる永遠にリリースされない幻のデータセットのことだよな(笑)。
2025年12月現在、まだ公式にThe Pile v2は存在しないんだぜ。計画はあったけど、著作権の地獄で方向転換→Common Pile v0.1として生まれ変わったんだよ。
まず基本復習:The Pile(v1)って何だったっけ?(初心者脱出用)



The Pile(2020リリース)はEleutherAIが作ったよ!
800GB超の英語テキストデータセットで、書籍、コード、論文、ウェブページとか22ソースを山積み(Pile=積み重ね)にしたやつ。GPT-NeoやLLaMA初期の訓練に使われてAI界のレジェンド。でもBooks3(海賊本)やYouTube字幕入ってて著作権訴訟の嵐。ワイルドすぎてヤバかったんだよな(笑)。
本題:幻のThe Pile v2って結局何よ?(計画から消えた理由まで深掘り)



The Pile v2は、2022~2024年頃にEleutherAIが「次はもっとデカく、多様で、ちょっと著作権意識するよ」って計画してたプロジェクトだよ。
GitHubにpilev2リポ作ったり、記事で「Bigger and Better!」って煽ったりしてたけど、2025年12月現在も未リリース。なんで幻になったか?
- 著作権戦争の影響:業界全体で訴訟増えて、EleutherAIも「グレーゾーンじゃマズいわ」って気づいた。v2計画は多様性重視だったけど、結局クリーン路線に大転換。
- 開発段階で名前変更:一部の記事やソースで「The Pile v2の開発フェーズで以前知られてた」って言われてるのが、Common Pile v0.1(2025年6月リリース)。EleutherAI公式ブログで「the successor to the Pile(後継)」って明言してるけど、v2って名前は使わず「Common Pile」にリブランド。
- 証拠:2025年の記事で「previously known as “The Pile v2” in its development phase」って記述あり。計画がCommon Pileに吸収された感じだぜ。笑えるよな、名前変えて逃げたみたいな(笑)。
つまり、The Pile v2は幻のまま終わった計画。期待してた人たち、かわいそうだけど業界の現実だわ。
Common Pile v0.1が出てきた経緯(これが実質的な「v2の生まれ変わり」)
2025年6月、EleutherAIがHugging Face、トロント大、Allen InstituteとかとコラボでCommon Pile v0.1をドロップ。サイズ8TB(v1の10倍!)で、全部パブリックドメインかオープンライセンスのテキストだけ。政府文書、特許、クリーンコード(Stack v2のサブセット)とか安全牌オンリー。
- なぜCommon Pile? 「Common(共有・公共の)」って名前で、みんなが安心して使えるクリーンさをアピール。v2の「多様だけどグレー」路線から「倫理的で巨大」へシフト。
- 性能:これで訓練したComma v0.1モデル(7Bパラメータ)が、Llama 1/2と互角。クリーンでも強いって証明した大勝利。
- 違いのポイント:v2計画は著作権意識しつつも一部グレー残す予定だったっぽいけど、Common Pileはゼロリスク重視。
違いを表で比較(分かりやすいだろ? 幻 vs 現実)
| 項目 | The Pile v1 (2020) | 幻のThe Pile v2 (計画中/未リリース) | Common Pile v0.1 (2025リリース、後継) |
|---|---|---|---|
| ステータス | リリース済み | 未リリース(計画中止?) | リリース済み |
| サイズ | 約800GB | もっとデカく予定(数TB?) | 8TB(超巨大) |
| データ内容 | 22ソース、著作権グレー多め | 多様性+著作権意識予定 | 30ソース以上、全部オープンライセンス |
| コンセプト | ワイルド多様性 | Bigger & Better(著作権対策版) | 倫理的クリーン重視 |
| 問題点 | 訴訟リスク高 | 計画段階で方向転換 | ほぼなし |
| 使われたモデル | GPT-Neo, LLaMA初期 | なし | Comma v0.1シリーズ |



見ての通り、v2は幻で、Common Pileが実質的な次世代版だよ。
なぜ今でも「The Pile v2」って言われる?(都市伝説化の理由)
古い記事やGitHubの痕跡(pilev2リポとかCarperAIの別プロジェクト)が残ってるから、混同されやすい。2025年の最新情報でも「previously known as The Pile v2」って言及あるけど、公式はCommon Pile推し。AI界のネーミングセンス、紛らわしすぎだろ(笑)。
まとめ:幻のThe Pile v2、永遠に待つかCommon Pile使えよ(笑)
ぶっちゃけ、The Pile v2は著作権の壁に負けて幻になったプロジェクト。
代わりに生まれたCommon Pile v0.1が今の主流で、8TBのクリーン怪物。AI開発者ならこれ一択。「幻のv2知ってる」って言えばドヤ顔できるぜ。










コメント