Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine.
Med-Geminiの開発では、医療分野の大規模データセットが活用されました。画像分類や質問応答など14の医療ベンチマークで評価された結果、既存のモデルを上回る高い性能を示しています。
特に注目すべき点は、不確実性を考慮した検索機能です。この機能により、医学雑誌NEJMの難しい診断課題などで優れた正解率を実現。長い医療記録やビデオからの質問応答でも、業界最高水準の成績を収めています。
また、Med-Geminiは、テキストだけでなく、レントゲン写真や心電図、X線、CT、MRI、超音波、内視鏡、および病理画像を処理することも可能なマルチモーダルとなっており、医療画像の分類、物体検出、および視覚的質問応答(VQA)タスクで優れた性能を発揮。専門家並の高い精度で異常の検出や記述を行えるとされています。
PHR情報やウェアラブルデバイスやゲノム情報なども扱うことが可能で、こうした幅広い情報から治療決定の高度化が見込まれています。一方で、AIシステムにおける性別バイアスや健康格差への対策にも取り組んでいるそう。
Googleは「Med-Geminiが臨床現場で医療従事者を支援し、患者により良い健康アウトカムをもたらすことを期待している」と述べており、医療AIの実用化に向け、さらなる研究開発が期待されます。