חָזָקדגמי (AI) כמו ChatGPT זקוקים לכמויות עצומות של כוח כדי לפעול כך שהם נמצאים בדרך כלל במרכזי נתונים עצומים. אבל פריצת דרך חדשה יכולה לדחוס את דגמי הבינה המלאכותית האלה כך שיתאימו לסמארטפון או לפטופ.
אלגוריתם חדש, המכונה Calibration Aware Low Precision Decomposition עם Low Rank Adaptation (CALDERA), דוחס את כמויות הנתונים העצומות הדרושות להפעלת מודל שפה גדול (LLM) על ידי חיתוך יתירות בקוד והפחתת הדיוק של שכבות המידע שלו.
LLM רזה יותר זה מבצע דיוק וניואנסים ברמות מעט נמוכות יותר מהגרסה הלא דחוסה, אמרו מדענים במחקר שפורסם ב-24 במאי למסד הנתונים הטרום-דפוסarXiv, לקראת מצגת בכנס על מערכות עיבוד מידע עצבי (NeurIPS) בדצמבר.
"בכל פעם שאתה יכול להפחית את המורכבות החישובית, הדרישות לאחסון ורוחב הפס של שימוש במודלים של AI, אתה יכול להפעיל AI במכשירים ומערכות שאחרת לא יכלו להתמודד עם משימות עתירות מחשוב וזיכרון כאלה", מחבר שותף במחקראנדריאה גולדסמית', פרופסור להנדסת חשמל ומחשבים באוניברסיטת פרינסטון, אמר ב-aהַצהָרָה.
בכל פעם שמישהו משתמש ב-ChatGPT (אם לקחת דוגמה פופולרית אחת) בטלפון או במחשב הנייד שלו, כל בקשה שנשלחת נשלחת לשרתים ענקיים ומרוחקים, שם הנתונים מעובדים בעלות סביבתית וכספית גדולה, אמרו המדענים במחקר. הסיבה לכך היא שדגמי AI בגודל כזה צורכים כמויות גדולות של כוח עיבוד כשהם מנצלים מאות, אם לא אלפי, רכיבים כגון יחידות עיבוד גרפיות (GPUs). לכן, כדי לבצע בקשות אלו באמצעות ה-GPU היחיד במכשיר קטן, יש לדחוס את הגודל וההיקף של מודל הבינה המלאכותית.
קָשׁוּר:
כדי לדחוס LLM, CALDERA משלבת שתי טכניקות. הטכניקה הראשונה היא "דיוק נמוך", שמפחית את מספר הביטים (שניות ו-0 של נתונים) המשמשים לאחסון מידע, מה שמאיץ את האחסון והעיבוד תוך שיפור יעילות האנרגיה, אמרו המדענים. השנייה, הנקראת "דרגה נמוכה", מתייחסת להפחתת יתירות בפרמטרים הניתנים ללמידה המשמשים באימון LLMs.
"הצענו אלגוריתם גנרי לדחיסת מערכי נתונים גדולים או מטריצות גדולות. ואז הבנו שכיום, לא רק מערכי הנתונים הם גדולים, אלא גם המודלים שנפרסים הולכים ונעשים גדולים. אז, נוכל גם להשתמש באלגוריתם שלנו כדי לדחוס את המודלים הללו", כותב שותף במחקרראג'רשי סהא, דוקטורנט באוניברסיטת סטנפורד, אמר בהצהרה. "באמצעות שני המאפיינים הללו יחד, אנו מסוגלים להשיג הרבה יותר דחיסה ממה שכל אחת מהטכניקות הללו יכולה להשיג בנפרד."
הצוות בדק את האלגוריתם על דגמי הקוד הפתוח של Meta Llama 2 ו-Llama 3 ורשם שיפור של עד 5% מול אלגוריתמי דחיסה קיימים המשתמשים רק באחת משתי הטכניקות. התוצאות עשויות לסלול את הדרך לאחסון והפעלה של LLMs בסמארטפונים או מחשבים ניידים בעתיד, במקרים שבהם הפרטיות היא מעל הכל וכאשר אין צורך בדיוק מרבי.
עם זאת, המדענים הזהירו כי LLMs אינם מותאמים לפעול ביעילות על מכשירים כאלה.
"לא תשמח אם אתה מפעיל LLM והטלפון שלך מתרוקן מטעינה תוך שעה. אבל לא הייתי אומר שיש טכניקה אחת שפותרת את כל הבעיות", אמר סהא בהצהרה. "מה שאנו מציעים במאמר זה הוא טכניקה אחת המשמשת בשילוב עם טכניקות שהוצעו בעבודות קודמות. ואני חושב שהשילוב הזה יאפשר לנו להשתמש ב-LLMs במכשירים ניידים בצורה יעילה יותר ולקבל תוצאות מדויקות יותר."