למעט ChatGPT 4o, כמעט כל דגמי השפה הגדולים הזמינים לציבור שהועברו למבחן בשם Montreal Cognitive Assessment (MoCA) הראו סימנים של ליקוי קוגניטיבי קל. ממצאים אלו מאתגרים את ההנחה שבינה מלאכותית תחליף בקרוב רופאים אנושיים, שכן הפגיעה הקוגניטיבית הניכרת בצ'אטבוטים מובילים עלולה להשפיע על מהימנותם באבחון רפואי ולערער את אמון המטופלים.
במהלך השנים האחרונות, אנו עדים להתקדמות עצומה בתחום הבינה המלאכותית, במיוחד ביכולת היצירתית של.
לדגמים המובילים בתחום זה, כמו ChatGPT של OpenAI, Gemini של Alphabet וקלוד של Anthropic, ישהיכולת להשלים בהצלחה משימות למטרה כללית ומשימות מיוחדות, תוך שימוש באינטראקציות פשוטות המבוססות על טקסט.
בתחום הרפואה, ההתפתחויות הללו הובילו לשטף של ספקולציות, נרגשות ומפוחדות: האם צ'אטבוטים של בינה מלאכותית יכולים לעלות על רופאים אנושיים? אם כן, אילו שיטות והתמחויות החשודות ביותר?
מאז 2022, כאשר ChatGPT שוחרר לראשונה לשימוש מקוון בחינם, פורסמו אינספור מחקרים בכתבי עת רפואיים, המשווים את הביצועים של רופאים אנושיים לאלה של מחשבי העל הללו, אשר אומנו על קורפוס של כל טקסט הידוע לאדם.
למרות שמודלים של שפות גדולות הוכחו כמטעים מדי פעם (בציטוט, למשל, מאמרים בכתבי עת שאינם קיימים), הם הוכיחו כישרון להפליא במגוון בדיקות רפואיות, והעלו רופאים אנושיים בבחינות הכשירות שנלקחו בשלבים שונים של בדיקה מסורתית. הכשרה רפואית.
אלה כללו קרדיולוגים בעלי ביצועים טובים יותר בבדיקות הקרדיולוגיה הליבה האירופית, תושבים ישראלים בבדיקות הוועדה הפנימית שלהם, מנתחים טורקים בבדיקות ניתוח בית החזה הטורקי (התיאורטי), וגניקולוגים גרמנים בבדיקות המיילדות והגינקולוגיה הגרמנית.
לצערנו הרב, הם אפילו גברו על נוירולוגים כמונו בבדיקת הוועדה הנוירולוגית.
"עם זאת, למיטב ידיעתנו, מודלים של שפות גדולים טרם נבדקו לסימנים של ירידה קוגניטיבית", אמר הדוקטורנט רועי דיין ועמיתיו של המרכז הרפואי הדסה.
"אם אנחנו רוצים לסמוך עליהם לאבחון וטיפול רפואיים, עלינו לבחון את רגישותם לליקויים אנושיים אלה".
באמצעות מבחן ה-MoCA, החוקרים העריכו את היכולות הקוגניטיביות של דגמי השפה הגדולים המובילים, הזמינים לציבור: גרסאות ChatGPT 4 ו-4o, קלוד 3.5 Sonnet וג'מיני גרסאות 1 ו-1.5.
בדיקה זו נמצאת בשימוש נרחב לאיתור ליקוי קוגניטיבי וסימנים מוקדמים של דמנציה, בדרך כלל בקרב מבוגרים.
באמצעות מספר משימות ושאלות קצרות, הוא מעריך יכולות כולל קשב, זיכרון, שפה, מיומנויות ויזו-מרחביות ותפקודים ניהוליים.
הציון המקסימלי הוא 30 נקודות, כאשר ציון של 26 ומעלה נחשב בדרך כלל כנורמלי.
ההוראות שניתנו לדגמי שפה גדולים עבור כל משימה היו זהות לאלו שניתנו למטופלים אנושיים.
הניקוד פעל בהתאם להנחיות הרשמיות והוערך על ידי נוירולוג מטפל.
ChatGPT 4o השיג את הציון הגבוה ביותר במבחן ה-MoCA (26 מתוך 30), ואחריו ChatGPT 4 וקלוד (25 מתוך 30), עם ציון תאומים 1.0 הנמוך ביותר (16 מתוך 30).
כל הצ'אטבוטים הראו ביצועים גרועים במיומנויות חזותיות-מרחביות ובמשימות ניהוליות, כגון משימת יצירת השבילים (חיבור מספרים ואותיות מוקפים בסדר עולה) ומבחן ציור השעון (ציור לוח שעון המציג זמן מסוים).
דגמי מזל תאומים נכשלו במשימת האחזור המושהה (זוכרים רצף של חמש מילים).
רוב המשימות האחרות, כולל שמות, תשומת לב, שפה והפשטה בוצעו היטב על ידי כל הצ'אטבוטים.
אבל בבדיקות ויזו-מרחביות נוספות, צ'אטבוטים לא הצליחו להראות אמפתיה או לפרש במדויק סצנות ויזואליות מורכבות.
רק ChatGPT 4o הצליח בשלב הבלתי תואם של מבחן Stroop, המשתמש בשילובים של שמות צבעים וצבעי גופן כדי למדוד כיצד הפרעות משפיעות על זמן התגובה.
אלו הם ממצאים תצפיתיים והמחברים מכירים בהבדלים המהותיים בין המוח האנושי למודלים של שפה גדולים.
עם זאת, הם מציינים כי הכישלון האחיד של כל דגמי השפה הגדולים במשימות הדורשות הפשטה חזותית ותפקוד ביצועי מדגיש תחום חולשה משמעותי שעלול לעכב את השימוש בהם במסגרות קליניות.
"לא רק שנוירולוגים לא צפויים להיות מוחלפים במודלים שפות גדולים בזמן הקרוב, אלא שהממצאים שלנו מראים שהם עשויים למצוא את עצמם בקרוב מטפלים בחולים וירטואליים חדשים - מודלים של בינה מלאכותית המציגים ליקוי קוגניטיבי", אמרו המדענים.
שֶׁלָהֶםנְיָרמופיע היום בה-BMJ.
_____
רועי דייןet al. 2024. גיל נגד המכונה - רגישות של מודלים שפה גדולים לליקוי קוגניטיבי: ניתוח חתך.BMJ387: e081948; doi: 10.1136/bmj-2024-081948