אל תקרא עדיין "רופא AI" המועדף עליך
Just_Super/Getty Images
מודלים מתקדמים של בינה מלאכותיתבבחינות רפואיות מקצועיות, אך עדיין ביטלו את אחת המשימות החשובות ביותר של הרופא: שיחה עם מטופלים כדי לאסוף מידע רפואי רלוונטי ולספק אבחנה מדויקת.
"בעוד שמודלים של שפה גדולים מציגים תוצאות מרשימות במבחנים מרובים, הדיוק שלהם יורד משמעותית בשיחות דינמיות", אומרפראנב ראג'פורקרבאוניברסיטת הרווארד. "המודלים נאבקים במיוחד עם חשיבה אבחנתית פתוחה."
זה התברר כאשר חוקרים פיתחו שיטה להערכת יכולות החשיבה של מודל AI קליני על סמך שיחות מדומה של רופא-מטופל. "המטופלים" התבססו על 2000 מקרים רפואיים שנלקחו בעיקר מבחינות מקצועיות של מועצת הרפואה האמריקאית.
"הדמיית אינטראקציות עם מטופלים מאפשרת הערכה של מיומנויות לקיחת היסטוריה רפואית, מרכיב קריטי בפרקטיקה הקלינית שלא ניתן להעריך באמצעות ויגנטות מקרה", אומרשרי ג'והרי, גם באוניברסיטת הרווארד. מדד ההערכה החדש, הנקרא CRAFT-MD, "משקף גם תרחישים מהחיים האמיתיים, שבהם מטופלים עשויים שלא לדעת אילו פרטים חיוניים לשתף ועשויים לחשוף מידע חשוב רק כאשר הם מתבקשים על ידי שאלות ספציפיות", היא אומרת.
מדד ה-CRAFT-MD עצמו מסתמך על AI. מודל ה-GPT-4 של OpenAI שיחק את התפקיד של "בינה מלאכותית של חולה" בשיחה עם ה"בינה המלאכותית הקלינית" הנבדקת. GPT-4 גם עזר לדרג את התוצאות על ידי השוואת האבחנה של הבינה המלאכותית הקלינית עם התשובה הנכונה לכל מקרה. מומחים רפואיים אנושיים בדקו פעמיים את ההערכות הללו. הם גם בחנו את השיחות כדי לבדוק את דיוק ה-AI של המטופל ולראות אם ה-AI הקליני הצליח לאסוף את המידע הרפואי הרלוונטי.
ניסויים מרובים הראו שארבעה מודלים מובילים של שפה גדולה - מודלים GPT-3.5 ו-GPT-4 של OpenAI, מודל Llama-2-7b של Meta ומודל Mistral-v2-7b של Mistral AI - הושגו ביצועים גרועים יותר במדד מבוסס השיחה מאשר כשהם עשו כאשר ביצוע אבחונים על סמך סיכומים כתובים של המקרים. OpenAI, Meta ומיסטראל AI לא הגיבו לבקשות להגיב.
לדוגמה, דיוק האבחון של GPT-4 היה מרשים של 82 אחוזים כאשר הוצגו עם סיכומי מקרים מובנים ואיפשרו לבחור את האבחון מתוך רשימה מרובת בחירה של תשובות, ירד לקצת פחות מ-49 אחוז כאשר לא היה לו אפשרויות בחירה. אולם כשהיה צריך לבצע אבחנות משיחות מדומות של מטופלים, הדיוק שלה ירד ל-26 אחוז בלבד.
ו-GPT-4 היה דגם הבינה המלאכותית בעל הביצועים הטובים ביותר שנבדק במחקר, כאשר ה-GPT-3.5 מגיע לרוב במקום השני, דגם הבינה המלאכותית של מיסטרל מגיע לפעמים למקום השני או השלישי ודגם ה-Llama של Meta בדרך כלל הניקוד הנמוך ביותר.
דגמי הבינה המלאכותית גם לא הצליחו לאסוף היסטוריות רפואיות מלאות בחלק ניכר מהזמן, כאשר הדגם המוביל GPT-4 עשה זאת רק ב-71 אחוז מהשיחות המדומות של חולים. גם כאשר דגמי הבינה המלאכותית אכן אספו את ההיסטוריה הרפואית הרלוונטית של המטופל, הם לא תמיד הפיקו את האבחנות הנכונות.
שיחות מדומה כאלה מייצגות דרך "שימושית הרבה יותר" להעריך יכולות חשיבה קלינית בינה מלאכותית מאשר בחינות רפואיות, אומראריק טופולבמכון התרגום למחקר Scripps בקליפורניה.
אם מודל בינה מלאכותית יעבור בסופו של דבר את הרף הזה, ויבצע אבחנות מדויקות באופן עקבי על סמך שיחות מדומה של מטופלים, זה לא בהכרח יהפוך אותו לעדיף על רופאים אנושיים, אומר ראג'פורקר. הוא מציין שהתרגול הרפואי בעולם האמיתי הוא "מבולגן" יותר מאשר בסימולציות. זה כולל ניהול מטופלים מרובים, תיאום עם צוותי בריאות, ביצוע בדיקות גופניות והבנת "גורמים חברתיים ומערכתיים מורכבים" במצבי בריאות מקומיים.
"ביצועים חזקים בהשוואה שלנו יצביעו על כך ש-AI יכול להיות כלי רב עוצמה לתמיכה בעבודה קלינית - אבל לא בהכרח תחליף לשיפוט ההוליסטי של רופאים מנוסים", אומר ראג'פורקר.
נושאים: