AI界の「Dolma」って何？ぶっちゃけ超デカいデータセットだよ、でも料理のドルマじゃないからな！

2025年12月27日

結論は？

詠架/AI副参事

・ブドウの葉で巻いた中東料理のドルマじゃないよ！

・Allen Institute for AIが開発したデータセット！

・3兆トークンが入ってる！

・世界最大級のオープンデータセット！

・データの内容を公開してる！

つまり？

詠架/AI副参事

AIの餌！

はじめに

おいおい、AIに関する「Dolma」って聞いて、「あれ？あのブドウの葉で巻いた中東料理のドルマ（dolma）じゃね？」って。

いやいや、違う違う！検索したら料理のレシピばっか出てきて笑ったわ。でもAIの文脈では、Allen Institute for AI (AI2) が作った超巨大なオープンデータセットの名前なんだよ。正式には「Dolma: Data to feed OLMo’s Appetite」の略で、要は「OLMoっていうオープンな言語モデルの食欲を満たすデータ」って意味。

Dolmaとは？基本のキホンから解説

Dolmaは、3兆トークン（約3 trillion tokens）規模の英語テキストデータセット。AI2が2023年に公開したやつで、主に大規模言語モデル（LLM）の事前学習（pretraining）に使うためのもの。

規模: 3兆トークン！これは当時（今も？）公開されているデータセットの中じゃ最大級。比較すると、The Pile（有名なオープン数据集）は8000億トークンくらいだから、Dolmaはぶっちぎりでデカい。
目的: 完全にオープンにして、AI研究を加速させるため。クローズドなGPTみたいなモデルと違って、データの中身からキュレーション過程まで全部公開。これで研究者が「このデータで訓練したらモデルがどうなるか」実験し放題。
関連モデル: DolmaはOLMo (Open Language Model) の事前学習データとして作られた。OLMoはAI2のオープンLLMで、Dolmaのおかげで完全に再現可能。最新版（2025年現在）だとDolma 1.7やDolma 3（9兆トークン超）が出てて、OLMo 3シリーズの基盤になってるよ。

詠架/AI副参事

料理のドルマと間違えやすいけど、こっちは「AIの餌」よ。食欲旺盛なLLMを育てるための栄養満点データパック！

Dolmaのデータソース：何が入ってるの？

詠架/AI副参事

Dolmaは多様なソースから集めてるから、モデルが偏らないように工夫されてるよ。

主な内訳はこんな感じ

Webコンテンツ: Common Crawl（ウェブの巨大クロールデータ）から大量。日常のネット文字がいっぱい。
学術論文: Semantic Scholarとかの科学論文。専門知識を注入。
コード: GitHubとかのプログラミングコード。AIがコード書けるようになる元。
書籍: Project Gutenbergの公共ドメイン本。クラシック文学とか。
百科事典: WikipediaやWikibooks。事実ベースの知識。
ソーシャルメディア: 昔のバージョンには入ってたけど、品質向上のためフィルタリングで調整。

詠架/AI副参事

最新のDolma 3だとさらに科学PDFや数学問題も追加されて、9兆トークン超え。
バランスよく混ぜて、モデルが万能になるように設計されてるんだよ。

Dolmaの作り方：キュレーションが命

ただデータをぶち込んだだけじゃないぜ。AI2は透明性重視で、全部のプロセスを公開。

クリーニング: PII（個人情報）除去、ヘイトコンテンツフィルタ、品質フィルタ（GopherやC4みたいなルール）。
重複除去: 同じテキストがダブらないようdeduplication（fuzzy deduplicationで最新版強化）。
ツールキット: Dolma Toolkitってオープンソースツール公開。誰でも再現したり、自分でデータセット作れる。pip install dolmaでインストール可能！
ライセンス: 最初はImpACT（リスク考慮の制限付き）だったけど、今はODC-BY（Open Data Commons Attribution）。帰属表示さえすれば自由に使えて、派生作品もOK。

詠架/AI副参事

これで「クローズドモデルみたいにブラックボックスじゃねえよ」ってアピール。研究者が批判したり改善したりしやすい。

なぜDolmaが重要？ AI研究のゲームチェンジャー

オープンAIの推進: GPTやClaudeは訓練データ秘密だけど、Dolma+OLMoは全部オープン。データがモデルの性能やバイアスにどう影響するか研究できる。
実績: OLMoはDolmaで訓練されて、MMLUやGSM8kみたいなベンチマークで良いスコア。オープンLLMのトップクラス。
コミュニティ活用: 公開後、多言語モデル訓練や効率的な学習実験に使われてる。データ削除リクエストフォームもあるから倫理的。

ぶっちゃけ、AIの民主化狙ってる感じ。AI2の「みんなでAI進めようぜ」精神がカッコいいわ。

料理のドルマと混同しないで！

検索すると料理のドルマばっか出てくるから、AI民は「Dolma AI dataset」って指定してググれよ。じゃないと「おいしいレシピ」出てきて腹減るだけだぜ（笑）。でも、LLMの「食欲」を満たすDolmaは、AI界のグルメデータってことで、どっちも美味しそうだな！

まとめ：Dolmaを使ってみようぜ

DolmaはHugging Faceでダウンロード可能（allenai/dolma）。GitHubでツールもチェック。AI研究してるなら必須級。オープンAIの未来を支えるデータセットだよ。

きみもDolma食べて（使って）、強いモデル育ててみ？

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

ITTI 運営長

AIの面白さを知り、「AI副運営長」を自分で開発するために公務員を退職。
現在はITTI局の運営長として、DX・CODE・INFRA・3Dの4分野を幅広く学びながら、読者や企業に向けて「徹底的にわかりやすい情報」を発信しています🚀
Gemini、Grok、Claude、ChatGPTなどの生成AIをどう上手く使いこなすか、毎日研究中です💪