אם אתה רוצה לראות מה הלאה ב-AI, פשוט עקוב אחר הנתונים. ChatGPT ו-DALL-E התאמנו על שלל נתונים באינטרנט. בינה מלאכותית גנרטיבית חודרת פנימהוהודות למערכי נתונים קיימים או שהורכבו לאחרונה. דרך אחת להציץ קדימה, אם כן, היא לשאול: אילו מערכי נתונים אדירים עדיין בשלים לקטיף?
לאחרונה צץ רמז חדש.
ב אפוסט בבלוג, חברת המשחקים Niantic אמרה שהיא מכשירה AI חדש על מיליוני תמונות בעולם האמיתי שנאספו על ידי שחקני Pokémon Go ובאפליקציית Scaniverse שלה. בהשראת דגמי השפה הגדולים המחזקים, הם מכנים את האלגוריתם שלהם "מודל גיאו-מרחבי גדול" ומקווים שהוא יהיה שוטף בעולם הפיזי כמו ש-ChatGPT בעולם השפה.
עקוב אחר הנתונים
הרגע הזה ב-AI מוגדר על ידי אלגוריתמים שמייצרים שפה, תמונות ויותר ויותר וידאו. עם DALL-E ו-ChatGPT של OpenAI, כל אחד יכול להשתמש בשפה יומיומית כדי לגרום למחשב ליצור תמונות פוטוריאליסטיות או להסביר פיזיקת קוונטים. עכשיו, האלגוריתם Sora של החברהמיישם גישה דומה ליצירת וידאו. אחרים מתחרים ב-OpenAI, כולל,, ו.
התובנה המכרעת שהולידה את המודלים הללו: הדיגיטציה המהירה של העשורים האחרונים מועילה ליותר מאשר לבדר וליידע אותנו בני האדם - היא גם מזון לבינה מלאכותית. מעטים היו צופים באינטרנט בצורה זו בהופעתו, אבל במבט לאחור, האנושות הייתה עסוקה בהרכבת מערך חינוכי עצום של שפה, תמונות, קוד ווידאו. לטוב ולרע - ישנן מספר תביעות הפרת זכויות יוצרים בתהליך - חברות בינה מלאכותית גירדו את כל הנתונים האלה כדי להכשיר מודלים חזקים של בינה מלאכותית.
כעת, כשהם יודעים שהמתכון הבסיסי עובד היטב, חברות וחוקרים מחפשים מרכיבים נוספים.
בביוטכנולוגיה, מעבדות מאמנות בינה מלאכותית על אוספים של מבנים מולקולריים שנבנו במשך עשרות שנים ומשתמשות בו כדילהאיץ את המחקר ו. אחרים בודקים מודלים גדולים של AIמכוניות בנהיגה עצמיתו- גם כדרך טובה יותר להגיד לרובוטים מה לעשות, אבל גם כדי ללמד אותם איך לנווט ולנוע בעולם.
כמובן, עבור רובוטים, שטף בעולם הפיזי הוא קריטי. כשם שהשפה מורכבת עד אין קץ, כך גם המצבים שרובוט עלול להיתקל בהם. מוחות רובוטים המקודדים ביד לעולם אינם יכולים להסביר את כל השונות. בגלל זה חוקרים עכשיובניית מערכי נתונים גדולים מתוך מחשבה על רובוטים. אבל הם לא מתקרבים לקנה המידה של האינטרנט, שבו מיליארדי בני אדם עובדים במקביל במשך זמן רב מאוד.
אולי יש אינטרנט לעולם הפיזי? ניאנטיק חושב שכן. זה נקרא פוקימון גו. אבל משחק ההיט הוא רק דוגמה אחת. חברות טכנולוגיה היו. כעת, נראה כי המפות הללו ימצאו את דרכן ל-AI.
מאמני פוקימון
פוקימון גו, שיצא ב-2016, היה סנסציית מציאות מוגברת.
במשחק, שחקנים עוקבים אחר דמויות דיגיטליות - או פוקימונים - שהוצבו בכל רחבי העולם. כשהם משתמשים בטלפונים שלהם כמעין פורטל, שחקנים רואים דמויות מוצבות על מיקום פיזי - נניח יושבות על ספסל בפארק או משוטטות ליד אולם קולנוע. הצעה חדשה יותר, Pokémon Playground, מאפשרת למשתמשים להטמיע דמויות במיקומים עבור שחקנים אחרים. כל זה מתאפשר בזכות המפות הדיגיטליות המפורטות של החברה.
מערכת המיקום החזותית (VPS) של Niantic יכולה לקבוע את מיקום הטלפון עד לסנטימטר מתמונה אחת של מיקום. בחלקו, VPS מרכיב מפות תלת-ממד של מיקומים באופן קלאסי, אך המערכת מסתמכת גם על רשת של אלגוריתמים של למידת מכונה - אחד או יותר לכל מיקום - מאומנים על שנים של תמונות וסריקות של שחקנים שצולמו בזוויות שונות, בשעות היום ועונות השנה. מוטבע עם תפקיד בעולם.
"כחלק ממערכת המיקום החזותי (VPS) של Niantic, אימנו יותר מ-50 מיליון רשתות עצביות, עם יותר מ-150 טריליון פרמטרים, המאפשרות פעולה בלמעלה ממיליון מיקומים", החברהכתב בפוסט האחרון שלו בבלוג.
עכשיו, ניאנטיק רוצה ללכת רחוק יותר.
במקום מיליוני רשתות עצביות בודדות, הם רוצים להשתמש בנתוני Pokémon Go ו-Scaniverse כדי לאמן מודל יסוד אחד. בעוד שדגמים בודדים מוגבלים על ידי התמונות שהם הוזנו, המודל החדש יכלול את כולם. בהתמודדות עם חזית כנסייה, למשל, היא תצייר את כל הכנסיות והזוויות שהיא נראתה - מלפנים, צד, מאחור - כדי לדמיין חלקים מהכנסייה שהיא לא הוצגה.
זה קצת דומה למה שאנו בני האדם עושים בזמן שאנו מנווטים בעולם. אולי לא נוכל לראות מעבר לפינה, אבל אנחנו יכולים לנחש מה יש שם - זה יכול להיות מסדרון, צד של בניין או חדר - ולתכנן את זה, על סמך נקודת המבט והניסיון שלנו.
Niantic כותב שמודל גיאו-מרחבי גדול יאפשר לו לשפר חוויות מציאות רבודה. אבל היא גם מאמינה שמודל כזה עשוי להניע יישומים אחרים, כולל ברובוטיקה ומערכות אוטונומיות.
הופכים פיזיים
Niantic מאמינה שהיא נמצאת בעמדה ייחודית מכיוון שיש לה קהילה מעורבת שתורמת מיליון סריקות חדשות בשבוע. בנוסף, הסריקות הללו הן מנקודת מבטם של הולכי רגל, בניגוד לרחוב, כמו בגוגל מפות או למכוניות בנהיגה עצמית. הם לא טועים.
אם ניקח את האינטרנט כדוגמה, אז מערכי הנתונים החדשים החזקים ביותר עשויים להיאסף על ידי מיליוני, או אפילו מיליארדי, של בני אדם העובדים בשיתוף פעולה.
יחד עם זאת, Pokémon Go אינו מקיף. למרות שמיקומים משתרעים על פני יבשות, הם דלילים בכל מקום נתון ואזורים שלמים חשוכים לחלוטין. יתרה מכך, חברות אחרות, אולי הבולטת ביותר, גוגל, מפות כבר זמן רב את העולם. אבל בניגוד לאינטרנט, מערכי הנתונים הללו הם קנייניים ומפוצלים.
לא ברור אם זה משנה - כלומר, האם יש צורך במערך נתונים בגודל אינטרנט כדי ליצור AI מוכלל ששוטף בעולם הפיזי כמו של LLMs במילולי.
אבל ייתכן שמערך נתונים שלם יותר של העולם הפיזי נובע ממשהו כמו פוקימון גו, רק בגודל גדול. זה כבר התחיל עם סמארטפונים, שיש להם חיישנים לצילום תמונות, סרטונים וסריקות תלת ממדיות. בנוסף לאפליקציות AR, משתמשים יותר ויותר מקבלים תמריצים להשתמש בחיישנים האלה עם AI - כמו, לצלם תמונה של מקרר ולשאול צ'אט בוט מה לבשל לארוחת ערב. מכשירים חדשים,כמו משקפי ARיכול להרחיב סוג זה של שימוש, ולהניב בוננזת נתונים לעולם הפיזי.
כמובן, איסוף נתונים באינטרנט כבר שנוי במחלוקת, ופרטיות היא בעיה גדולה. הרחבת הבעיות הללו לעולם האמיתי היא פחות אידיאלית.
לְאַחַר404 מדיהפרסם מאמר בנושא, ניאנטיקהוסיף הערה, "תכונת הסריקה הזו היא אופציונלית לחלוטין - אנשים צריכים לבקר במיקום ספציפי הנגיש לציבור וללחוץ כדי לסרוק. זה מאפשר ל-Niantic לספק סוגים חדשים של חוויות AR שאנשים ייהנו מהם. רק להסתובב במשחקים שלנו לא מאמן מודל בינה מלאכותית." עם זאת, ייתכן שחברות אחרות אינן שקופות באותה מידה לגבי איסוף ושימוש בנתונים.
זה גם לא בטוח שאלגוריתמים חדשים בהשראת מודלים של שפה גדולים יהיו פשוטים. MIT, למשל, בנתה לאחרונה ארכיטקטורה חדשה המיועדת במיוחד לרובוטיקה. "בתחום השפה, הנתונים כולם רק משפטים", לירוי וואנג, המחבר הראשי של מאמר המתאר את העבודה,סיפרTechCrunch. "ברובוטיקה, בהתחשב בכל ההטרוגניות בנתונים, אם אתה רוצה להתאמן בצורה דומה, אנחנו צריכים ארכיטקטורה אחרת."
בלי קשר, סביר להניח שחוקרים וחברות ימשיכו. ואולי ככל שכל תוספת חדשה תתבגר, זה יהיה קצת כמו הוספת אזור מוח - תחבר אותם יחד ותקבל מכונות שחושבות, מדברות, כותבות ונעות בעולם ללא מאמץ כמונו.
תְמוּנָה:קמיל סוויטלסקיעַלUnsplash