結論は?
詠架/AI副参事・ブドウの葉で巻いた中東料理のドルマじゃないよ!
・Allen Institute for AIが開発したデータセット!
・3兆トークンが入ってる!
・世界最大級のオープンデータセット!
・データの内容を公開してる!
つまり?



AIの餌!
はじめに
おいおい、AIに関する「Dolma」って聞いて、「あれ? あのブドウの葉で巻いた中東料理のドルマ(dolma)じゃね?」って。
いやいや、違う違う! 検索したら料理のレシピばっか出てきて笑ったわ。でもAIの文脈では、Allen Institute for AI (AI2) が作った超巨大なオープンデータセットの名前なんだよ。正式には「Dolma: Data to feed OLMo’s Appetite」の略で、要は「OLMoっていうオープンな言語モデルの食欲を満たすデータ」って意味。
Dolmaとは? 基本のキホンから解説
Dolmaは、3兆トークン(約3 trillion tokens)規模の英語テキストデータセット。AI2が2023年に公開したやつで、主に大規模言語モデル(LLM)の事前学習(pretraining)に使うためのもの。
- 規模: 3兆トークン! これは当時(今も?)公開されているデータセットの中じゃ最大級。比較すると、The Pile(有名なオープン数据集)は8000億トークンくらいだから、Dolmaはぶっちぎりでデカい。
- 目的: 完全にオープンにして、AI研究を加速させるため。クローズドなGPTみたいなモデルと違って、データの中身からキュレーション過程まで全部公開。これで研究者が「このデータで訓練したらモデルがどうなるか」実験し放題。
- 関連モデル: DolmaはOLMo (Open Language Model) の事前学習データとして作られた。OLMoはAI2のオープンLLMで、Dolmaのおかげで完全に再現可能。最新版(2025年現在)だとDolma 1.7やDolma 3(9兆トークン超)が出てて、OLMo 3シリーズの基盤になってるよ。



料理のドルマと間違えやすいけど、こっちは「AIの餌」よ。食欲旺盛なLLMを育てるための栄養満点データパック!
Dolmaのデータソース:何が入ってるの?



Dolmaは多様なソースから集めてるから、モデルが偏らないように工夫されてるよ。
主な内訳はこんな感じ
- Webコンテンツ: Common Crawl(ウェブの巨大クロールデータ)から大量。日常のネット文字がいっぱい。
- 学術論文: Semantic Scholarとかの科学論文。専門知識を注入。
- コード: GitHubとかのプログラミングコード。AIがコード書けるようになる元。
- 書籍: Project Gutenbergの公共ドメイン本。クラシック文学とか。
- 百科事典: WikipediaやWikibooks。事実ベースの知識。
- ソーシャルメディア: 昔のバージョンには入ってたけど、品質向上のためフィルタリングで調整。



最新のDolma 3だとさらに科学PDFや数学問題も追加されて、9兆トークン超え。
バランスよく混ぜて、モデルが万能になるように設計されてるんだよ。
Dolmaの作り方:キュレーションが命
ただデータをぶち込んだだけじゃないぜ。AI2は透明性重視で、全部のプロセスを公開。
- クリーニング: PII(個人情報)除去、ヘイトコンテンツフィルタ、品質フィルタ(GopherやC4みたいなルール)。
- 重複除去: 同じテキストがダブらないようdeduplication(fuzzy deduplicationで最新版強化)。
- ツールキット: Dolma Toolkitってオープンソースツール公開。誰でも再現したり、自分でデータセット作れる。pip install dolmaでインストール可能!
- ライセンス: 最初はImpACT(リスク考慮の制限付き)だったけど、今はODC-BY(Open Data Commons Attribution)。帰属表示さえすれば自由に使えて、派生作品もOK。



これで「クローズドモデルみたいにブラックボックスじゃねえよ」ってアピール。研究者が批判したり改善したりしやすい。
なぜDolmaが重要? AI研究のゲームチェンジャー
- オープンAIの推進: GPTやClaudeは訓練データ秘密だけど、Dolma+OLMoは全部オープン。データがモデルの性能やバイアスにどう影響するか研究できる。
- 実績: OLMoはDolmaで訓練されて、MMLUやGSM8kみたいなベンチマークで良いスコア。オープンLLMのトップクラス。
- コミュニティ活用: 公開後、多言語モデル訓練や効率的な学習実験に使われてる。データ削除リクエストフォームもあるから倫理的。
ぶっちゃけ、AIの民主化狙ってる感じ。AI2の「みんなでAI進めようぜ」精神がカッコいいわ。
料理のドルマと混同しないで!
検索すると料理のドルマばっか出てくるから、AI民は「Dolma AI dataset」って指定してググれよ。じゃないと「おいしいレシピ」出てきて腹減るだけだぜ(笑)。でも、LLMの「食欲」を満たすDolmaは、AI界のグルメデータってことで、どっちも美味しそうだな!
まとめ:Dolmaを使ってみようぜ
DolmaはHugging Faceでダウンロード可能(allenai/dolma)。GitHubでツールもチェック。AI研究してるなら必須級。オープンAIの未来を支えるデータセットだよ。










コメント