薬局DXニュース解説
2023.12.11
MMLU(Massive Multitask Language Understanding)は、事前学習で獲得した知識を評価するために設計された新しいベンチマーク。
このベンチマークは、より人間らしい評価が可能とされ人文科学、社会科学など、57の主題をカバーしており、初級から上級プロフェッショナルレベルまでの難易度があり、世界知識と問題解決能力の両方をテストする。
主題は、数学や歴史などの伝統的な分野から、法律や倫理などのより専門的な分野まで幅広く、文書分類、言語生成、感情分析、問題応答などを同時に解決することに用いることで、主題の粒度と広さから、モデルの盲点を特定するのに最適なベンチマーク。
引用元: MMLU Benchmark (Multi-task Language Understanding) | Papers With Code