Common Corpusとは？AI界の「倫理的お宝データセット」を徹底解説（2026年最新版）

2025年12月28日

結論は？

詠架/AI副参事

・Pleiasが開発したデータセットだよ

・Pleiasはフランスだよ

・著作権リスクのないデータセットだよ

・無料だよ

つまり？

詠架/AI副参事

安全第一のデータセット！

はじめに

詠架/AI副参事

Common Corpusの意味は一言で「著作権ゼロの巨大クリーン箱」だけど、超本格派だよ。

LLMってのはテキストの山（corpus）をガブガブ食べて賢くなるけど、普通のcorpusはウェブから無許可で掻き集めて著作権問題爆発中。OpenAIのGPTシリーズとか、書籍や新聞パクって訴えられてるの見て「ヤバいよ」って業界がビビってる。

詠架/AI副参事

そこで登場したのがCommon Corpus

意味をシンプルに

詠架/AI副参事

「パブリックドメインか許諾ライセンスだけの超巨大テキストデータセットで、倫理的・法的クリーンにLLM訓練するためのオープンリソース」だよ

規模：約2兆トークン（正確には1,998,647,168,282トークン）。英語で1800億語以上。GPT-3級だけど、2026年現在もこれで止まってる（拡張遅いよな、ふざけんな）。
内容：書籍、新聞、科学論文、政府文書、コード、ウェブなど多岐。
言語：多言語強め。英語トップだけど、フランス語（2660億トークン）、ドイツ語（1120億）、スペイン語、イタリア語、オランダ語が充実。低リソース言語も少し。
特徴：著作権違反ゼロ。すべてパブリックドメインかCC-BY/MITみたいな許諾済み。商用OK、EU AI Act完全対応。provenance（出所）詳細記録で透明性バツグン。

Pleias（フランススタートアップ）が主導、Hugging Face、EleutherAI、Nomic AI、AI Alliance、フランス文化省らが協力。2024年11月リリースで、2026年現在もHugging Faceで無料ダウンロード可能。GDPR対応でPII除去も徹底してるぜ。

なんでCommon Corpusが大事？ 2026年も「著作権地獄」から逃れる救世主

君ら知ってる？ 2026年の今も、LLM訓練データはCommon CrawlやBooks系が主流だけど、著作権訴訟ラッシュで大企業すらビクビク。データライセンスが高騰したら、オープンAIは死ぬよ？

Common Corpusの強み

透明・倫理的：出所全部公開。毒性フィルタリングやOCR修正で高品質。
多様性：文化遺産（古新聞・本）多めで、クリエイティブや長文推論に強いモデルが生まれる。
規制クリア：EU AI ActやGDPR完璧。商用モデルも安心。
民主化：小規模研究者やスタートアップが大規模訓練可能。

2025-2026年の実績

Anthropicの解釈可能性研究、PleiasのSLM（350M-3Bパラメータ）、Salamandra（スペイン）、Lucie（フランス）、Nvidia NeKoとかヨーロッパオープンLLMがこれ使ってる。

Pleias-RAGシリーズはRAGタスクでSOTA級。arXiv論文でも「オープンAIの基盤」って評価されてるよ。

Common Corpusの構成：6つのコレクションで網羅性抜群（2026年時点）

データは6カテゴリ

Open Government：政府・法律文書（406Bトークン）。
Open Culture：書籍・新聞（最大の886Bトークン、Chronicling Americaの2100万新聞とか）。
Open Science：科学論文（281B）。
Open Code：オープンソースコード（283B）。
Open Web：クリーンウェブ（73B、YouTube字幕とか）。
Open Semantic：Wikidataなど（68B）。

Hugging Faceリンク：https://huggingface.co/datasets/PleIAs/common_corpus 自宅GPUで訓練可能（夢見るなよ、クラスタ必須だけど）。

メリットとデメリット

メリット

著作権リスクゼロ → 訴訟恐怖症の救い。
多言語・多ドメイン → 英語偏重脱却、ヨーロッパ言語強い。
高品質 → 書籍・論文多めで推論力アップ。PDF対応もバッチリ（RAGで強い理由）。
オープン → 誰でも検証・再現可能。

デメリット

規模が2兆で止まってる → Llama4やQwen3の14-36兆に比べて小さい。拡張遅すぎ！
最新性弱め → 文化遺産多めで現代ウェブみたいにフレッシュじゃない。
集めるの面倒 → 著作権確認で時間かかるから、2026年も大更新なし。
現代語のスラングや最新トレンドに疎い 文化遺産（古い本）が多いから、文章は美しいけど「推しの子」の話とか、2025年の最新技術用語には弱い。だから、FineWebみたいなWebデータと混ぜて使う「ブレンド戦略」が今のトレンドなんだよな。

似たデータセット比較

Dolma（AllenAI）：3兆トークン、ウェブ中心だけど著作権グレー。
FineWeb（Hugging Face）：15兆トークン、ウェブフィルタリング強いけどクリーンさで負け。 Common Corpusは倫理・多言語で差別化。ウェブゴミじゃなく書籍多めで質が高いって論文で言われてる。