Benchmarking veľkých jazykových modelov pre medicínske vzdelávanie: výkon na kvalifikačnej skúške klinického laboranta

Zdroj: Frontiers Medicine

Originál: https://www.frontiersin.org/articles/10.3389/fmed.2026.1755983...

Publikované: 2026-03-16T00:00:00Z

Štúdia hodnotila výkonnosť veľkých jazykových modelov (LLM) pri kvalifikačnej skúške čínskeho klinického laboratória (CCLTQE), ktorá obsahuje 1 600 otázok zameraných na štyri oblasti: základy klinického laboratória, súvisiace lekárske znalosti, špecializované znalosti a odbornú spôsobilosť. Výskumníci testovali 12 rôznych LLM z radov DeepSeek, GPT, Llama, Qwen a Gemma. Najlepšie výsledky dosiahol model Qwen3-235B s presnosťou 89,93 %, nasledovaný modelom DeepSeek-R1 s 89,75 % a QwQ-32B s 89,22 %. Štúdia preukázala, že jazykové modely optimalizované pre čínsky jazyk a špecifický obsah laboratórnej medicíny dosahujú vysokú presnosť pri tejto kvalifikačnej skúške. Výsledky naznačujú významný potenciál využitia umelej inteligencie v oblasti vzdelávania a praxe laboratórnej medicíny. Štúdia tak poskytuje empirické dôkazy o aplikácii LLM v klinickej laboratórnej technológii, oblasti, ktorá bola doteraz nedostatočne preskúmaná.