結論は?
涙紬/MPT専門官・MosaicMLが開発した大規模言語モデル。
・でも、現在はDatabricksが本社で、MosaicMLは傘下になってる。
・MPTはもう引退してる。
・過去は商用利用可能なオープンソースLLMの中でトップだった。
つまり?



LLAの歴史を学ぶとしては必須と言える!
MPTの基本スペック:なんで当時革命的だったか



MPTシリーズのメインはMPT-7BとMPT-30Bです。
長文特化のMPT-7B-StoryWriter-65k+とかチャット版のInstruct/Chatバリエーションもある。
- パラメータ数:
- MPT-7B:約67億(7Bって言ってるけど正確にはこれ)
- MPT-30B:300億
- トレーニングデータ:1兆トークン(1T tokens)。英語テキストとコード中心。RedPajamaチームとかのデータミックス使って、2023年時点の最新情報も入ってる。
- コンテキスト長:
- 標準:8kトークン(MPT-30B)
- 拡張版:65k以上可能(ALiBiのおかげで推論時にさらに伸ばせる)
- 特徴的な技術:
- ALiBi:位置埋め込みじゃなくてバイアスでコンテキスト長を柔軟に。長文小説生成とかで神。
- FlashAttention:トレーニングと推論が爆速。
- 商用利用OK:Apache 2.0ライセンス。LLaMAみたいに研究限定じゃなくて、ビジネスでガンガン使えた。
当時(2023年)、LLaMA-7Bが研究限定で悔しい思いしてた人たちに「これ待ってた!」って感じでダウンロード爆発。
MPT-7Bだけで数百万ダウンロードされたらしいよ。
性能比較:2023年は強かったけど、2026年はどう?
2023年のベンチマークでは
- MPT-7B:LLaMA-7Bと互角。コーディングや質問回答で強い。
- MPT-30B:オリジナルGPT-3超え。HumanEval(コード生成)でStarCoder超えたり。
でも正直、2026年現在じゃトップクラスじゃない。
Llama 3.1、Qwen2、DeepSeek-V3とかがベンチマーク独占してる。
MPTは「オープンソース商用LLMの先駆け」って位置づけだね。DatabricksがMosaicMLを買収(2023年)したあと、焦点がDBRX(2024年リリースのMoEモデル)に移っちゃったから、MPTの新バージョンは出てない。要は引退したってことです。
| モデル | パラメータ | コンテキスト長 | 商用OK | 2023年強み | 2026年現状 |
|---|---|---|---|---|---|
| MPT-7B | 7B | 8k~65k | ○ | LLaMA並み、商用可 | 軽量ローカル用にまだ使える |
| MPT-30B | 30B | 8k | ○ | GPT-3超え | 中規模タスクで懐かしい選択 |
| Llama 3.1 | 8B~405B | 128k | ○ | – | トップクラス |
| DeepSeek-V3 | 数百B | 長め | ○ | – | 推論・数学で最強 |
2026年でのMPTの使い道:まだ生きてる?
ぶっちゃけ、最新の最先端プロジェクトじゃ使わない。でもメリットあるよ
- 軽量でローカル実行しやすい:7BはノートPCでも動く(量子化すれば)。
- 長文処理が得意:StoryWriter版で小説生成とかドキュメント要約に今でも便利。
- ファインチューニングしやすい:llm-foundryスクリプトが公開されてるから、カスタムモデル作りやすい。
- 歴史的価値:AIのオープンソース化を加速させたモデル。「昔の名作」として語るのにぴったり(笑)。
Databricksのプラットフォームで今でもトレーニング可能らしいけど、みんなDBRXやLlama派生に移行してる。
まとめ:MPTは「過去の英雄」だけど、学ぶ価値あり
2026年でMPTをメインに使う人は少ないけど、オープンソースLLMの歴史を知るなら必修。商用可、長文対応、効率化の先駆けだったからね。今はLlamaやQwenに乗り換え推奨だけど、MPTで遊んでみて? 意外と楽しいよ。










コメント