結論は?
詠架/AI副参事・EleutherAIが開発したデータセット!
・初代から著作権リスクを排除して超パワーアップしたよ!
・容量は8TB!
・無料だよ!
つまり?



AI界としては大活躍!
はじめに
おいおい、AIのトレーニングデータってさ、普通はネットからガサガサ掻き集めて著作権とか無視して使ってるよね?それで訴えられまくってる大企業とか見てると、笑っちゃうんだけどさ。



そこに登場したのがCommon Pile v0.1!
「Common Pile」って名前からして、元のThe Pileの後継者で、「Common」ってのは「みんなのもの」みたいな意味で、公開ドメインやオープンライセンスのテキストだけを集めたスーパークリーンなデータセットなんだよ。
要するに、AI訓練で法的に安全で倫理的な選択肢を提供しようぜ!ってEleutherAIが本気出したやつ。2025年6月にリリースされて、AI界で話題沸騰中だぜ。
Common Pile v0.1の基本スペック
- サイズ: 約8TB(テラバイト!)のテキストデータ。元のThe Pileが800GBだったのをぶっちぎりで超えてる。
- ソース数: 30個の多様なソースからキュレーション。
- 内容の例:
- 米国議会図書館やInternet Archiveの公開ドメイン書籍(約30万冊!古い本がいっぱい)。
- ArXivなどの研究論文。
- GitHubとかのオープンライセンスコード(Python、C++とか15言語限定で高品質なやつ)。
- Wikipediaや百科事典系。
- 教育資料、音声トランスクリプト(Whisperで変換したYouTubeのCC BYライセンス動画とか)。
- Common Crawlから厳選したCC BYライセンスのウェブページ。
- ライセンス基準: Open Knowledge FoundationのOpen Definition 2.1準拠。誰でも自由に使えて改変・共有OKなものだけ。CC0やパブリックドメインがメインで、ライセンス偽装(laundering)疑いのものは手作業で排除。
- 開発期間: 約2年。EleutherAIが中心で、Hugging Face、Allen Institute for AI、poolside、大学(Toronto, MIT, CMUなど)がいっぱい協力。



なんでこんなに時間かかったかっていうと、一つ一つのライセンスを法律専門家と相談しながら検証したから。自動ツールじゃ信用できない部分は手作業だぜ。真面目だね!
元のThe Pileとの違い
元のThe PileはEleutherAIの初ヒット作で、Common Crawl中心に22ソース混ぜて多様性バツグン。
でも、著作権物がガッツリ入ってて、後で「ヤバいかも」って批判浴びたんだよね。YouTube字幕とか無許可で入れてたし。 Common Pile v0.1はそれの「反省版」。著作権問題ゼロを目指して、全部オープンライセンスかパブリックドメインだけ。名前も「Common Pile」って付けて、「みんなの共有財産」アピールしてる。EleutherAI、過去の罪を償ってる感じ?
実際の性能はどうなの?



このデータセットで訓練したモデルComma v0.1(7Bパラメータ、1Tトークンと2Tトークン版)を作って検証済みだよ。
- 他のオープンライセンスデータセット(KL3M, OLC, Common Corpus)より圧倒的に優位。
- 元のThe PileやOSCAR並みの性能。FineWeb(無許可データ多め)には少し負けるけど、法的リスク考えたらこっちの勝ちだろ?
- Llama 1/2 7Bとか同予算の無許可モデルと互角。コーディングや知識タスクで特に強い。
要するに、「著作権無視しなくてもいいモデル作れるよ!」って証明した革命的なデータセット。科学・学術系タスクで特に輝くらしい。
なぜ今これが大事なの?
AI企業が著作権訴訟でボコボコにされてる今(OpenAIとかMetaとか)、法的にクリーンな大規模データが必要不可欠。Common Pile v0.1はそれの第一歩で、v0.1って名前からして「これからもっとデカくするぜ」宣言。 Hugging FaceやGitHubで無料ダウンロード可能。コードも全部オープンだから、再現性バッチリ。
まとめ:Common Pile v0.1はAIの未来を変えるかも?
お前らAI開発者、著作権怖くてデータ集められないって泣いてたけど、もう言い訳できないぞ!この8TBの「良心データ」で、クリーンに強力なモデル作れよ。










コメント