(קרדיט: חמרה/שטרסטוק)
פולמן, כביסה. -בעוד הבינה המלאכותית ממשיכה לעלות לכותרות, שאלה דחופה אחת מתעוררת: האם צ'אטבוטים של AI כמו ChatGPT יכולים לסייע או להחליף בעלי מקצוע פיננסיים? מחקר חדש של חוקרים מאוניברסיטת וושינגטון סטייט ואוניברסיטת קלמסון, המנתח יותר מ-10,000 תשובות בינה מלאכותית לשאלות בחינות פיננסיות, מספק כמה תשובות מפוכחות.
"זה מוקדם מדי לדאוגלוקח עבודות פיננסיות לחלוטין", אומר מחבר המחקר DJ Fairhurst ממכללת Carson Business של WSU בהצהרה. "עבור מושגים רחבים שבהם היו הסברים טובים באינטרנט במשך זמן רב, ChatGPT יכול לעשות עבודה טובה מאוד בסינתזה של מושגים אלה. אם זה נושא ספציפי ואידיוסינקרטי, זה באמת הולך להיאבק".
המחקר, שפורסם ב-כתב עת לאנליסטים פיננסיים, מתייחס לחשש משמעותי בענף. גולדמן זאקסהערכותש-15% עד 35% ממשרות הפיננסים עשויות להיות אוטומטיות על ידי AI, בעוד KPMGמציעש-AI גנרטיבי עשוי לחולל מהפכה באופן שבו מנהלי נכסים ועושר פועלים. עם זאת, תחזיות אלו מסתמכות על הנחה קריטית - שלמערכות בינה מלאכותית יש הבנה נאותה של פיננסים.
"לעבור בחינות הסמכה זה לא מספיק. אנחנו באמת צריכים לחפור עמוק יותר כדי להגיע למה שהמודלים האלה באמת יכולים לעשות", מציינת Fairhurst.
החוקרים הרכיבו מערך נתונים מקיף של 1,083 שאלות רב-ברירות שנלקחו מבחינות רישוי פיננסיות שונות, כולל הבחינה של Securities Industry Essentials (SIE) ובחינות מסדרות 7, 6, 65 ו-66. אלו הם אותם מבחנים שאנשי מקצוע פיננסיים אנושיים צריכים לעבור כדי לקבל רישיון. נכון להיום, כ-42,000 אנשים הופכים לנציגים רשומים מדי שנה, כאשר יותר מ-600,000 עובדים בענף ניירות הערך.
באמצעות מאגר שאלות זה, המחקר בדק ארבעה מודלים שונים של בינה מלאכותית: Bard של גוגל, LLaMA של Meta ושתי גרסאות של ChatGPT של OpenAI (). החוקרים העריכו לא רק את דיוק התשובות, אלא גם השתמשו בטכניקות מתוחכמות לעיבוד שפה טבעית כדי להשוות עד כמה מערכות הבינה המלאכותית יכולות להסביר את ההיגיון שלהן בהשוואה להסברים שנכתבו על ידי מומחים.

התוצאות חשפו פשרות ברורות בין דגמי הבינה המלאכותית. מכל הדגמים שנבדקו,התגלה כמוביל המובהק, עם שיעורי דיוק גבוהים ב-18 עד 28 נקודות אחוז בהשוואה לדגמים אחרים. עם זאת, התפתחה התפתחות מעניינת כאשר חוקרים כוונו עדין את הגרסה החינמית המוקדמת יותר של ChatGPT 3.5 על ידי הזנת דוגמאות של תגובות והסברים נכונים. לאחר כוונון זה, הוא כמעט התאים לדיוק של ChatGPT 4 ואף עלה עליו במתן תשובות שדומות לאלה של אנשי מקצוע אנושיים.
שני הדגמים עדיין הראו מגבלות משמעותיות. בעוד שהם עשו ביצועים טובים בשאלות על מסחר, חשבונות לקוחות ופעילויות אסורות (73.4% דיוק), הביצועים ירדו ל-56.6% בשאלות על הערכת פרופילים פיננסיים של לקוחות ויעדי השקעה. המודלים נתנו תשובות לא מדויקות יותר למצבים מיוחדים, כגון קביעת לקוחותומעמד המס.
צוות המחקר לא מפסיק עם שאלות הבחינה. כעת הם בוחנים דרכים אחרות לבחון את היכולות של ChatGPT, כולל פרויקט שמבקש ממנה להעריך עסקאות מיזוג פוטנציאליות. תוך שהם מנצלים את תאריך הפסקת ההכשרה הראשוני של ChatGPT בספטמבר 2021, הם בודקים אותו מול תוצאות ידועות של עסקאות שנעשו לאחר תאריך זה. ממצאים ראשוניים מצביעים על כך שמודל ה-AI נאבק במשימה המורכבת יותר הזו.
למגבלות אלו יש השלכות חשובות על תעשיית הפיננסים, במיוחד לגבי.
"התרגול של להביא חבורה של אנשים כאנליסטים זוטרים, לתת להם להתחרות ולשמור על המנצחים - זה הופך להיות הרבה יותר יקר", מסביר פיירהרסט. "אז זה אולי אומר ירידה בסוגי העבודות האלה, אבל זה לא בגלל ש-ChatGPT טוב יותר מהאנליסטים, זה בגלל שביקשנו מהאנליסטים הזוטרים לעשות משימות שפל יותר."
בהתבסס על ממצאים אלה, נראה שהעתיד המיידי של בינה מלאכותית בתחום הפיננסים הוא שיתופי ולא תחליף. בעוד שמערכות אלו מפגינות יכולות מרשימות בסיכום מידע ובטיפול במשימות אנליטיות שגרתיות, שיעורי השגיאות שלהן - במיוחד במצבים מורכבים מול לקוחות - מצביעים על כך שפיקוח אנושי נותר חיוני בתעשייה שבה לטעויות יכולות להיות השלכות כספיות ומשפטיות חמורות.
סיכום נייר
מֵתוֹדוֹלוֹגִיָה
החוקרים ניתחו למעלה מ-10,000 תגובות מארבעה מודלים שונים של בינה מלאכותית (Bard, LLaMA, ChatGPT 3.5 ו-ChatGPT 4) ל-1,083 שאלות בחינות רישוי פיננסי. כל שאלה נבחנה על פני מספר דגמים ותצורות, ויצרה מערך נתונים מקיף. הצוות העריך שני היבטים מרכזיים: האם הבינה המלאכותית בחרה את התשובה הנכונה ועד כמה היא הסבירה את ההיגיון שלה בהשוואה להסברים של מומחים. הם השתמשו בטכניקות מתוחכמות של עיבוד שפה טבעית (במיוחד במודל BERT) כדי למדוד עד כמה הסברי בינה מלאכותית תאמו את הסברים שנכתבו על ידי מומחה.
בנוסף, הם מיפו את השאלות ל-51 משימות עבודה פיננסיות בעולם האמיתי תוך שימוש בנתונים מרשת המידע התעסוקתי של משרד העבודה האמריקאי (O*NET) כדי להבין יישומים מעשיים. המחקר גם חקר דרכים שונות לשימוש במערכות AI, כולל ממשקי אינטרנט, גישה ל-API עם הגדרות שונות ומודלים מאומנים במיוחד (מכוונים עדינים).
תוצאות מפתח
ChatGPT 4 התגלה כבעל הביצועים הטובים ביותר, וענה נכון על 84.5% מהשאלות - 18-28 נקודות אחוז משמעותיות יותר טוב מדגמים בחינם. כאשר חוקרים כוונו עדין את ChatGPT 3.5 על ידי הכשרתו על תוכן פיננסי ספציפי, זה כמעט התאים לדיוק של ChatGPT 4 ואף עלה עליו באיכות ההסבר. ה-AIs הציגו את הביצועים הטובים ביותר בשאלות על מסחר ופעולות שוק (73.4% דיוק), אך נאבקו במשימות ספציפיות ללקוח כמו תכנון פיננסי וניתוח מס (ירידה ל-56.6% דיוק). באופן מעניין, גם בינה מלאכותית וגם נבחנים אנושיים נטו להיאבק באותן שאלות מאתגרות, מה שהצביע על מגבלות בסיסיות בטיפול במושגים פיננסיים מורכבים.
מגבלות לימוד
המחקר השתמש בעיקר בשאלות בחינות רישוי ברמת ההתחלה, שאולי לא תופסות את המורכבות של עבודה פיננסית בעולם האמיתי. כמה שאלות בדיקה היו זמינות באינטרנט, מה שעלול לנפח את ביצועי הבינה המלאכותית ב-13% עבור שאלות אלו. המחקר נערך בסוף 2023 ובתחילת 2024, ובהתחשב בקצב המהיר של פיתוח בינה מלאכותית, התוצאות עשויות להשתנות עם גרסאות חדשות יותר. בנוסף, שאלות בחינות אינן בודקות היבטים חשובים של משרות פיננסיות, כגון כתיבה, תקשורת ומיומנויות חשיבה יצירתית.
דיון והנחות
מהמחקר עולה כי בינה מלאכותית מתאימה כיום יותר כעוזר מאשר תחליף לאנשי מקצוע פיננסיים. למרות שהוא מראה הבטחה במשימות כמו ניטור שוק וניתוח בסיסי, הוא נשאר פחות אמין לעבודה מורכבת וספציפית ללקוח. המחקר חושף פשרות חשובות בין מודלים שונים של AI ושיטות יישום. כוונון עדין יכול לשפר משמעותית את הביצועים, אבל אפילו הדגמים המתקדמים ביותר עדיין עושים שגיאות שעלולות להיות יקרות ביישומים בעולם האמיתי. הממצאים גם מצביעים על שינויים פוטנציאליים בעבודות פיננסיות ברמת הכניסה, במיוחד עבור אנליסטים זוטרים המבצעים משימות שגרתיות.
מימון וגילויים
המחקר נתמך בנתונים של Achievable וקנופמן מרקס, שתי חברות הכנה לבחינות פיננסיות. תודות מיוחדות ניתנו לג'סטין פינקר ב-Achievable ולבריאן מרקס ב-Knopman Marks. המחקר נהנה גם מתשמת משתתפי הסמינר באוניברסיטת וושינגטון סטייט ובאוניברסיטת קלמסון. המחברים לא דיווחו על ניגודי עניינים, והמחקר זכה לביקורת עמיתים לפני פרסום ב-Financial Analysts Journal.
פרטי פרסום
מחקר זה פורסם ב-כתב עת לאנליסטים פיננסייםב-18 בנובמבר 2024. המאמר שכותרתו "כמה יודע ChatGPT על פיננסים?" ניתן לגשת באמצעות מזהה האובייקטים הדיגיטלי (DOI):10.1080/0015198X.2024.2411941. המחקר נכתב על ידי דאגלס (DJ) Fairhurst, פרופסור חבר למימון בקולג' קרסון לעסקים, אוניברסיטת וושינגטון סטייט, ודניאל גרין, פרופסור חבר למימון ביל שורט בווילבור או. ואן פאוורס מכללת לעסקים, אוניברסיטת קלמסון . המאמר זכה ב-2.0 קרדיטים PL ועבר ביקורת עמיתים לפני הפרסום. התכתבות בנוגע למחקר יכולה להיות מופנית לדאגלס (DJ) Fairhurst בכתובת[מוגן באימייל].
StudyFinds יוצאת למצוא מחקר חדש שמדבר לקהל המוני - בלי כל הז'רגון המדעי. הסיפורים שאנו מפרסמים הם גרסאות מחקר מסוככות לעיכול שנועדו ליידע את הקורא וגם לעורר ויכוח אזרחי ומשכיל. מאמרי צוות StudyFinds נעזרים בבינה מלאכותית, אך תמיד נבדקים ונערכים ביסודיות על ידי איש צוות של Study Finds. קרא את מדיניות הבינה המלאכותית שלנו למידע נוסף.