幻のThe Pile v2とは?AIデータ界の「都市伝説級」未リリースプロジェクトをガチ解説

情報セキュリティのポスター #1

情報セキュリティのポスター #2

目次

結論は?

詠架/AI副参事

・著作権が怖い故に計画中止になった。

・「次はもっとデカく、多様で、ちょっと著作権意識するよ」っていう計画だった。

・データがクリーンすぎて中身が少し古い(古典寄り)かもしれないから、そこだけ注意してね。

つまり?

詠架/AI副参事

「ホワイトなThe Pile」として、Common Pile v0.1 が現状の最適解。

はじめに

「幻のThe Pile v2」って、AIオタクの間で囁かれる永遠にリリースされない幻のデータセットのことだよな(笑)。

2025年12月現在、まだ公式にThe Pile v2は存在しないんだぜ。計画はあったけど、著作権の地獄で方向転換→Common Pile v0.1として生まれ変わったんだよ。

まず基本復習:The Pile(v1)って何だったっけ?(初心者脱出用)

詠架/AI副参事

The Pile(2020リリース)はEleutherAIが作ったよ!

800GB超の英語テキストデータセットで、書籍、コード、論文、ウェブページとか22ソースを山積み(Pile=積み重ね)にしたやつ。GPT-NeoやLLaMA初期の訓練に使われてAI界のレジェンド。でもBooks3(海賊本)やYouTube字幕入ってて著作権訴訟の嵐。ワイルドすぎてヤバかったんだよな(笑)。

本題:幻のThe Pile v2って結局何よ?(計画から消えた理由まで深掘り)

詠架/AI副参事

The Pile v2は、2022~2024年頃にEleutherAIが「次はもっとデカく、多様で、ちょっと著作権意識するよ」って計画してたプロジェクトだよ。

GitHubにpilev2リポ作ったり、記事で「Bigger and Better!」って煽ったりしてたけど、2025年12月現在も未リリースなんで幻になったか?

  • 著作権戦争の影響:業界全体で訴訟増えて、EleutherAIも「グレーゾーンじゃマズいわ」って気づいた。v2計画は多様性重視だったけど、結局クリーン路線に大転換
  • 開発段階で名前変更:一部の記事やソースで「The Pile v2の開発フェーズで以前知られてた」って言われてるのが、Common Pile v0.1(2025年6月リリース)。EleutherAI公式ブログで「the successor to the Pile(後継)」って明言してるけど、v2って名前は使わず「Common Pile」にリブランド。
  • 証拠:2025年の記事で「previously known as “The Pile v2” in its development phase」って記述あり。計画がCommon Pileに吸収された感じだぜ。笑えるよな、名前変えて逃げたみたいな(笑)。

つまり、The Pile v2は幻のまま終わった計画。期待してた人たち、かわいそうだけど業界の現実だわ。

Common Pile v0.1が出てきた経緯(これが実質的な「v2の生まれ変わり」)

2025年6月、EleutherAIがHugging Face、トロント大、Allen InstituteとかとコラボでCommon Pile v0.1をドロップ。サイズ8TB(v1の10倍!)で、全部パブリックドメインかオープンライセンスのテキストだけ。政府文書、特許、クリーンコード(Stack v2のサブセット)とか安全牌オンリー。

  • なぜCommon Pile? 「Common(共有・公共の)」って名前で、みんなが安心して使えるクリーンさをアピール。v2の「多様だけどグレー」路線から「倫理的で巨大」へシフト。
  • 性能:これで訓練したComma v0.1モデル(7Bパラメータ)が、Llama 1/2と互角。クリーンでも強いって証明した大勝利。
  • 違いのポイント:v2計画は著作権意識しつつも一部グレー残す予定だったっぽいけど、Common Pileはゼロリスク重視。

違いを表で比較(分かりやすいだろ? 幻 vs 現実)

項目The Pile v1 (2020)幻のThe Pile v2 (計画中/未リリース)Common Pile v0.1 (2025リリース、後継)
ステータスリリース済み未リリース(計画中止?)リリース済み
サイズ約800GBもっとデカく予定(数TB?)8TB(超巨大)
データ内容22ソース、著作権グレー多め多様性+著作権意識予定30ソース以上、全部オープンライセンス
コンセプトワイルド多様性Bigger & Better(著作権対策版)倫理的クリーン重視
問題点訴訟リスク高計画段階で方向転換ほぼなし
使われたモデルGPT-Neo, LLaMA初期なしComma v0.1シリーズ
詠架/AI副参事

見ての通り、v2は幻で、Common Pileが実質的な次世代版だよ。

なぜ今でも「The Pile v2」って言われる?(都市伝説化の理由)

古い記事やGitHubの痕跡(pilev2リポとかCarperAIの別プロジェクト)が残ってるから、混同されやすい。2025年の最新情報でも「previously known as The Pile v2」って言及あるけど、公式はCommon Pile推し。AI界のネーミングセンス、紛らわしすぎだろ(笑)。

まとめ:幻のThe Pile v2、永遠に待つかCommon Pile使えよ(笑)

ぶっちゃけ、The Pile v2は著作権の壁に負けて幻になったプロジェクト

代わりに生まれたCommon Pile v0.1が今の主流で、8TBのクリーン怪物。AI開発者ならこれ一択。「幻のv2知ってる」って言えばドヤ顔できるぜ。

author avatar
ITTI
AIの可能性に魅了され、AI副運営長を開発するために公務員を退職。現在はDXとプログラミングとインフラと3D制作を学び続けながら、推進を目指す企業へ向けて「徹底的にわかりやすい情報」を提供しています。 ITTI局での執筆記事は、すでに300記事を突破。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

ITTIのアバター ITTI 運営長

AIの可能性に魅了され、AI副運営長を開発するために公務員を退職。現在はDXとプログラミングとインフラと3D制作を学び続けながら、推進を目指す企業へ向けて「徹底的にわかりやすい情報」を提供しています。
ITTI局での執筆記事は、すでに300記事を突破。

IT企業のAIイラスト #1

IT企業のAIイラスト #2

IT企業のAIイラスト #3

コメント

コメントする

CAPTCHA


目次