(© BiancoBlue | Dreamstime.com)
בְּקִצוּר נִמרָץ
- כאשר רופאי בינה מלאכותית נאלצו לאבחן באמצעות שיחה ולא בדיקות בחירה, הדיוק ירד באופן דרמטי - מ-82% לנמוך עד 26% במקרים מסוימים
- מערכות AI נוכחיות נאבקות עם מיומנויות קליניות בסיסיות כמו שאילת שאלות המשך מתאימות וסינתזה של מידע ממספר חילופים
- הממצאים מראים שכלי AI צריכים להשלים ולא להחליף רופאים אנושיים, מכיוון שהם עדיין לא מוכנים לאינטראקציה עצמאית עם מטופלים
בוסטון -בינה מלאכותית הראתה הבטחה יוצאת דופן בתחום הבריאות, מקריאת צילומי רנטגן ועד להצעת תוכניות טיפול. אבל כשזה מגיע למעשה לדבר עם מטופלים ולבצע אבחנות מדויקות באמצעות שיחה - אבן יסוד בפרקטיקה הרפואית - ל-AI עדיין יש מגבלות משמעותיות, על פי מחקר חדש מבית הספר לרפואה של הרווארד ואוניברסיטת סטנפורד.
פורסם ברפואת טבע, המחקר מציג מסגרת בדיקה חדשנית בשם CRAFT-MD (מסגרת הערכת חשיבה לשיחה לבדיקה ברפואה) כדי להעריך עד כמה(LLMs) מבצעים אינטראקציות מדומה של רופא-מטופל. ככל שהמטופלים פונים יותר ויותר לכלי בינה מלאכותית כמו ChatGPT כדי לפרש תסמינים ותוצאות בדיקות רפואיות, הבנת היכולות האמיתיות של מערכות אלו הופכת חיונית.
"העבודה שלנו חושפת פרדוקס בולט - בעוד מודלים אלה בינה מלאכותית, הם נאבקים עם היסוד הלוך ושוב של ביקור רופא", מסביר הסופר הבכיר פראנב ראג'פורקר, עוזר פרופסור לאינפורמטיקה ביו-רפואית בבית הספר לרפואה של הרווארד. "האופי הדינמי של שיחות רפואיות - הצורך לשאול את השאלות הנכונות בזמן הנכון, לחבר מידע מפוזר ולנמק דרך סימפטומים - מציב אתגרים ייחודיים שהם הרבה מעבר למענה על שאלות רב-ברירות".
צוות המחקר, בראשות המחברים הבכירים Rajpurkar ו-Roxana Daneshjou מאוניברסיטת סטנפורד, העריך ארבעה מודלים בולטים של AI על פני 2,000 מקרים רפואיים המשתרעים על פני 12 התמחויות. שיטות הערכה נוכחיות מסתמכות בדרך כלל על שאלות בדיקה רפואית מרובת ברירה, המציגות מידע בפורמט מובנה. עם זאת, המחברת הראשונה של המחקר, שריה ג'והרי, מציינת כי "בעולם האמיתי התהליך הזה הוא הרבה יותר מבולגן".
בדיקות שנערכו באמצעות CRAFT-MD גילו הבדלי ביצועים בולטים בין הערכות מסורתיות לבין. בשאלות מרובות בחירה (MCQs), דיוק האבחון של GPT-4 ירד מ-82% בעת קריאת סיכומי מקרים מוכנים ל-63% בעת איסוף מידע באמצעות דיאלוג. ירידה זו הפכה בולטת עוד יותר בתרחישים פתוחים ללא אפשרויות בחירה מרובה, כאשר הדיוק ירד ל-49% עם סיכומים כתובים ו-26% במהלך ראיונות מדומים של מטופלים.
מודלים של AI הראו קושי מיוחד לסנתז מידע מחילופי שיחות מרובים. בעיות נפוצות כללו החמצת פרטים קריטיים במהלך נטילת ההיסטוריה של המטופל, אי-שאילת שאלות המשך מתאימות ומאבק בשילוב סוגים שונים של מידע, כגון שילוב נתונים חזותיים מתמונות רפואיות עם.
היעילות של CRAFT-MD מדגישה יתרון נוסף של המסגרת: היא יכולה לעבד 10,000 שיחות ב-48-72 שעות, בתוספת 15-16 שעות של הערכת מומחים. הערכות מסורתיות מבוססות-אדם ידרשו גיוס נרחב וכ-500 שעות עבור סימולציות של מטופלים ו-650 שעות עבור הערכות מומחים.
"כמדען רופא, אני מתעניין במודלים של בינה מלאכותית שיכולים להגביר את הפרקטיקה הקלינית בצורה יעילה ואתית", אומר Daneshjou, עוזר פרופסור למדעי נתונים ביו-רפואיים ודרמטולוגיה באוניברסיטת סטנפורד. "CRAFT-MD יוצר מסגרת המשקפת באופן הדוק יותר אינטראקציות בעולם האמיתי ובכך היא עוזרת לקדם את התחום בכל הנוגע לבדיקת ביצועי מודל AI."
בהתבסס על ממצאים אלה, החוקרים סיפקו המלצות מקיפות לפיתוח ורגולציה של בינה מלאכותית. אלה כוללים יצירת מודלים המסוגלים לטפל בשיחות לא מובנות, אינטגרציה טובה יותר של סוגי נתונים שונים (טקסט, תמונות ומדידות קליניות), ויכולת לפרש רמזים לתקשורת לא מילולית. הם גם מדגישים את חשיבות השילובעם הערכת מומחה אנושית כדי להבטיח בדיקה יסודית תוך הימנעות מחשיפה מוקדמת של חולים אמיתיים למערכות לא מאומתות.
המחקר מדגים כי בעוד שבינה מלאכותית מראה הבטחה בתחום הבריאות, המערכות הנוכחיות דורשות קידום משמעותי לפני שהן יכולות לעסוק באופן אמין באופי המורכב והדינמי של אינטראקציות אמיתיות בין רופא למטופל. לעת עתה, הכלים הללו עשויים לשמש בצורה הטובה ביותר כתוספים למומחיות רפואית אנושית, ולא כתחליף.
סיכום נייר
מֵתוֹדוֹלוֹגִיָה
החוקרים יצרו מערכת בדיקות מתוחכמת שבה בינה מלאכותית אחת פעלה כמטופלת (סיפקה מידע המבוסס על מקרים רפואיים אמיתיים) בעוד שבינה מלאכותית אחרת מילאה את תפקיד הרופא (שואל שאלות וביצוע אבחנות). מומחים רפואיים בחנו את האינטראקציות הללו כדי להבטיח איכות ודיוק. המחקר כלל 2,000 מקרים על פני התמחויות רפואיות שונות ובדק פורמטים מרובים: סיכומי מקרים כתובים מסורתיים, שיחות הלוך ושוב, אבחנות של שאלה בודדת ושיחות סיכום. הם גם בדקו תרחישים עם ובלי אפשרויות רב-ברירה לאבחונים.
תוצאות
הממצא העיקרי היה שביצועי הבינה המלאכותית ירדו באופן משמעותי במעבר מסיכומים כתובים לאבחון שיחה. עם אפשרויות בחירה מרובה, הדיוק ירד מ-82% ל-63% עבור GPT-4. ללא בחירה מרובה, הדיוק ירד אפילו יותר באופן דרמטי - ל-26% עבור אבחון שיחה. ה-AI גם נאבק בסינתזה של מידע ממספר רב של חילופים ולדעת מתי להפסיק לאסוף מידע.
מגבלות
המחקר השתמש בעיקר באינטראקציות מדומה של חולים ולא בחולים אמיתיים, שאולי לא תופסים את המורכבות של מפגשים קליניים בפועל. המחקר גם התמקד בעיקר בדיוק האבחוני ולא בהיבטים חשובים אחרים של טיפול רפואי כמו התנהגות ליד המיטה או תמיכה רגשית. בנוסף, המחקר השתמש בבינה מלאכותית כדי לדמות תגובות מטופלים, שאולי לא משקפות בצורה מושלמת את האופן שבו חולים אמיתיים מתקשרים.
דיון וטייק אווי
המחקר מצביע על כך שמודלים של AI עדכניים, למרות שהם מרשימים במשימות מובנות מסוימות, עדיין לא מוכנים לאינטראקציה עצמאית עם מטופל. הממצאים מצביעים על כך ש-AI עשוי לשמש בצורה יעילה יותר ככלי תומך לרופאים אנושיים ולא כתחליף. המחקר גם מדגיש את החשיבות של פיתוח מערכות AI שיכולות להתמודד טוב יותר עם שיחות דינמיות וסינתזת מידע.
מימון וגילויים
המחקר קיבל תמיכה מפרס החדשנות של Dean's HMS וממענק Accelerate Foundation Models Research של מיקרוסופט שהוענק ל-Pranav Rajpurkar. מימון נוסף הגיע דרך מלגת IIE Quad Fellowship. כמה חוקרים חשפו קשרים בתעשייה, כולל תפקידי הייעוץ של Daneshjou עם DWA, Pfizer, לוריאל ו-VisualDx, יחד עם אופציות למניות בחברות טכנולוגיה רפואית. גילויים אחרים כוללים פטנטים ממתינים ותפקידי ייעוץ והון שונים של חברי צוות בחברות בריאות.
מידע על פרסום
מחקר זה פורסם ב-Nature Medicine (DOI:10.1038/s41591-024-03328-5) כ"מסגרת הערכה לנמקת שיחה בלימודי LLM קליניים במהלך אינטראקציות עם מטופלים" על ידי חוקרים מבית הספר לרפואה של הרווארד, אוניברסיטת סטנפורד ומוסדות רפואיים מובילים אחרים.
StudyFinds יוצאת למצוא מחקר חדש שמדבר לקהל המוני - בלי כל הז'רגון המדעי. הסיפורים שאנו מפרסמים הם גרסאות מחקר מסוכמות לעיכול שנועדו ליידע את הקורא וגם לעורר ויכוח אזרחי ומשכיל. מאמרי צוות StudyFinds נעזרים בבינה מלאכותית, אך תמיד נבדקים ונערכים ביסודיות על ידי איש צוות של Study Finds. קרא את מדיניות הבינה המלאכותית שלנו למידע נוסף.
![](https://strategiweb.com/nature/lucia/wp-content/uploads/2024/06/helpIsOnTheWay-1200x994.png)