Výkon veľkých jazykových modelov na certifikačnom vyšetrení spánkovej medicíny: komplexná multimodelová analýza

Zdroj: Frontiers Medicine

Originál: https://www.frontiersin.org/articles/10.3389/fmed.2026.1761025...

Publikované: 2026-03-02T00:00:00Z

Štúdia vyhodnotila výkon deviatich veľkých jazykových modelov (LLM) na 197 otázkach s výberom z viacerých možností podľa štandardov American Academy of Sleep Medicine. Každú otázku položili trikrát a presnosť určili prísnym kritériom 3/3 zhody správnych odpovedí. Výkonnosť modelov bola významne heterogénna (χ² = 101,95, df = 8, p < 0,001), s presnosťou od 68,5 % do 95,9 %. Najlepšie dopadli prémiové verzie: Gemini 2.5 Pro (95,9 %, 95 % CI: 93,2–98,7 %), Claude Opus 4 (93,9 %) a ChatGPT GPT-4o (93,4 %). Platené modely prekonali bezplatné o 5,1 až 8,6 percentuálneho bodu (všetky p < 0,05). Najvyššia konzistentnosť bola pri sekundárnych poruchách spánku (92,0 %), najnižšia pri diagnostických metódach (85,9 %). Osem z deviatich modelov prekročilo 80 % referenčnú hodnotu podľa všetkých troch bodovacích kritérií.