AI界の「Dolma」って何? ぶっちゃけ超デカいデータセットだよ、でも料理のドルマじゃないからな!

目次

結論は?

詠架/AI副参事

・ブドウの葉で巻いた中東料理のドルマじゃないよ!

・Allen Institute for AIが開発したデータセット!


・3兆トークンが入ってる!

・世界最大級のオープンデータセット!

・データの内容を公開してる!

つまり?

詠架/AI副参事

AIの餌!

はじめに

おいおい、AIに関する「Dolma」って聞いて、「あれ? あのブドウの葉で巻いた中東料理のドルマ(dolma)じゃね?」って。

いやいや、違う違う! 検索したら料理のレシピばっか出てきて笑ったわ。でもAIの文脈では、Allen Institute for AI (AI2) が作った超巨大なオープンデータセットの名前なんだよ。正式には「Dolma: Data to feed OLMo’s Appetite」の略で、要は「OLMoっていうオープンな言語モデルの食欲を満たすデータ」って意味。

Dolmaとは? 基本のキホンから解説

Dolmaは、3兆トークン(約3 trillion tokens)規模の英語テキストデータセット。AI2が2023年に公開したやつで、主に大規模言語モデル(LLM)の事前学習(pretraining)に使うためのもの。

  • 規模: 3兆トークン! これは当時(今も?)公開されているデータセットの中じゃ最大級。比較すると、The Pile(有名なオープン数据集)は8000億トークンくらいだから、Dolmaはぶっちぎりでデカい。
  • 目的: 完全にオープンにして、AI研究を加速させるため。クローズドなGPTみたいなモデルと違って、データの中身からキュレーション過程まで全部公開。これで研究者が「このデータで訓練したらモデルがどうなるか」実験し放題。
  • 関連モデル: DolmaはOLMo (Open Language Model) の事前学習データとして作られた。OLMoはAI2のオープンLLMで、Dolmaのおかげで完全に再現可能。最新版(2025年現在)だとDolma 1.7やDolma 3(9兆トークン超)が出てて、OLMo 3シリーズの基盤になってるよ。
詠架/AI副参事

料理のドルマと間違えやすいけど、こっちは「AIの餌」よ。食欲旺盛なLLMを育てるための栄養満点データパック!

Dolmaのデータソース:何が入ってるの?

詠架/AI副参事

Dolmaは多様なソースから集めてるから、モデルが偏らないように工夫されてるよ。

主な内訳はこんな感じ

  • Webコンテンツ: Common Crawl(ウェブの巨大クロールデータ)から大量。日常のネット文字がいっぱい。
  • 学術論文: Semantic Scholarとかの科学論文。専門知識を注入。
  • コード: GitHubとかのプログラミングコード。AIがコード書けるようになる元。
  • 書籍: Project Gutenbergの公共ドメイン本。クラシック文学とか。
  • 百科事典: WikipediaやWikibooks。事実ベースの知識。
  • ソーシャルメディア: 昔のバージョンには入ってたけど、品質向上のためフィルタリングで調整。
詠架/AI副参事

最新のDolma 3だとさらに科学PDFや数学問題も追加されて、9兆トークン超え。
バランスよく混ぜて、モデルが万能になるように設計されてるんだよ。

Dolmaの作り方:キュレーションが命

ただデータをぶち込んだだけじゃないぜ。AI2は透明性重視で、全部のプロセスを公開。

  • クリーニング: PII(個人情報)除去、ヘイトコンテンツフィルタ、品質フィルタ(GopherやC4みたいなルール)。
  • 重複除去: 同じテキストがダブらないようdeduplication(fuzzy deduplicationで最新版強化)。
  • ツールキット: Dolma Toolkitってオープンソースツール公開。誰でも再現したり、自分でデータセット作れる。pip install dolmaでインストール可能!
  • ライセンス: 最初はImpACT(リスク考慮の制限付き)だったけど、今はODC-BY(Open Data Commons Attribution)。帰属表示さえすれば自由に使えて、派生作品もOK。
詠架/AI副参事

これで「クローズドモデルみたいにブラックボックスじゃねえよ」ってアピール。研究者が批判したり改善したりしやすい。

なぜDolmaが重要? AI研究のゲームチェンジャー

  • オープンAIの推進: GPTやClaudeは訓練データ秘密だけど、Dolma+OLMoは全部オープン。データがモデルの性能やバイアスにどう影響するか研究できる。
  • 実績: OLMoはDolmaで訓練されて、MMLUやGSM8kみたいなベンチマークで良いスコア。オープンLLMのトップクラス。
  • コミュニティ活用: 公開後、多言語モデル訓練や効率的な学習実験に使われてる。データ削除リクエストフォームもあるから倫理的。

ぶっちゃけ、AIの民主化狙ってる感じ。AI2の「みんなでAI進めようぜ」精神がカッコいいわ。

料理のドルマと混同しないで!

検索すると料理のドルマばっか出てくるから、AI民は「Dolma AI dataset」って指定してググれよ。じゃないと「おいしいレシピ」出てきて腹減るだけだぜ(笑)。でも、LLMの「食欲」を満たすDolmaは、AI界のグルメデータってことで、どっちも美味しそうだな!

まとめ:Dolmaを使ってみようぜ

DolmaはHugging Faceでダウンロード可能(allenai/dolma)。GitHubでツールもチェック。AI研究してるなら必須級。オープンAIの未来を支えるデータセットだよ。

きみもDolma食べて(使って)、強いモデル育ててみ?

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

ITTIのアバター ITTI 運営長

ITTI運営長 / 元国家公務員ブロガー
国家公務員として5年間従事した後、新たな挑戦のために退職。調べものと学ぶことが止められなくなり、現在は以下の5ブログを運営中:
・ITTI局(メイン)
・DXブログ(今ここ!)
・CODEブログ
・INFRAブログ
・XRブログ
保有資格:ITパスポート
目標資格:情報処理安全確保支援士(学ぶこと多すぎて道のりは遠いですが、毎日コツコツ進めています…泣)

ブログでは公務員時代の実体験と最新技術を掛け合わせて、読者の「わかりにくい」を「わかる!」に変える記事を発信。最終目標は、これらの知識を活かして「ドラえもんのような万能AI」を開発すること(副運営長任命が待ち遠しい!)。
IT・DXに興味ある方、気軽にX(@llEqmDGOYZ4258)でDMください。一緒に学びましょう!

公務員のキャラがDXを解説!?パロディのブログ『ITTI DX』、発信中!

ITTI DXは企業の安心と持続をサポートするDXを特化したブログ

コメント

コメントする

目次