נראה כי כמעט כל השפות עומדות בחוק Zipf, ואין לנו מושג למה

בני אדם אוהבים לחשוב שאנחנו יצורים בלתי צפויים, במידה מסוימת, הנשלטים על ידי רצון חופשי הנובע איכשהו מתהליכים פיזיקליים. ובכן, הנה דבר אחד מוזר שישלח אותך למשבר קיומי מבוסס בלשנות; נראה שרוב השפות עוקבות אחר משוואה המכונה חוק Zipf, ואין לנו מושג למה.

מילים משמשות בתדירות משתנה, כפי שניתן לצפות. יש לך יותר שימוש במילה "ה" מאשר במילה "אקומני" או "", למשל. אבל ניתוח תדירות השימוש במילים בטקסטים גדולים מגלה שהוא עוקב מקרוב אחר חוק סטטיסטי ספציפי.

"לפני כ-80 שנה, ג'ורג' קינגסלי זיפף דיווח על תצפית לפיה נראה כי התדירות של מילה היא פונקציית חוק כוח בדרגת התדר שלה, המנוסחת כ-f(r) ∝ 𝑟𝛼, איפהוהוא תדירות מילים,רהוא דרגת התדר, ו- 𝛼 הוא המעריך," אנְיָרעל הנושא מסביר.

במילים פשוטות, המילה הנפוצה ביותר בשפה - באנגלית, "the" - משמשת פי שניים מהמילה הנפוצה הבאה, ושלוש פעמים בתדירות הבאה, וארבע פעמים מהמילה הבאה. , וכן הלאה בעקבות חוק הכוח הזה במשך זמן רב באופן מפתיע.

אתם אולי חושבים שזה איזה מוזרות מוזרה באנגלית, אבל זה לא. נראה שחוק Zipf חל כמעט על כל השפות שנבדקו. לא משנה אם אתה מדבר אנגלית, הינדית, צרפתית, מנדרינית או ספרדית, נראה שהתדירות של מילה יורדת לדרגת הפופולריות שלה.

חוק Zipf חל על 10 מיליון המילים הראשונות ב-30 שפות שונות בוויקיפדיה.

מוזר יותר, זה אפילו חל על שפותאפילו עוד לא פענחנו.אפילו המילים המופיעות בנראה ללפעול לפי החוק הזה. וטקסטים בודדים, אם הם גדולים מספיק, יפעלו בערך גם לפי החוקים האלה, כשהמילה בדירוג העליון מופיעה פי שניים מהמילה הבאה וכו' וכו'. אפילו צ'ארלס דרווין לא יכול להתפתח מהחוק הזה, עם אחד ניתוח שמצא שזה חל בצורה מסודרת למדי על הטקסט שלועל מוצא המינים. למעשה, זה צץ בכל מקום.

אז, זה די מוזר, לא?

"ראוי לשקול את הייחודיות של החוק הזה", סקירה של הנושאמסביר. "זה בהחלט תכונה לא טריוויאלית של השפה האנושית שמילים משתנות בתדירות בכלל; אולי היה סביר לצפות שכל המילים יהיו תכופות בערך באותה מידה. אבל בהתחשב בכך שמילים אכן משתנות בתדירות, לא ברור מדוע מילים צריכות להופיע. כלל מתמטי כל כך מדויק - בפרט, כזה שאינו מתייחס לשום היבט של המשמעות של כל מילה."

ישנם הסברים פוטנציאליים רבים לרעיון, מבעיות סטטיסטיות ועד אילוצים המוטלים על ידי זיכרון ואוצר מילים אנושיים. ג'ורג' זיף עצמו הציע שהחוק נובע מאיזון של מזעור מאמצים, כאשר דוברים (או כותבים) מנסים למזער את המאמץ שלהם על ידי שימוש במילים הנפוצות יותר, ומאזינים (או קוראים) מחפשים בהירות בשפה ממילים בשימוש פחות תכוף. . הרחבה לכך היא שבני אדם מנסים להעביר משמעות בצורה יעילה ככל האפשר, תוך נטייה לשימוש במילים שממקסמות את כמות המידע שהם יכולים להעביר.

רעיון נוסף הוא שמילים נפוצות יותר נוטות להפוך לפופולריות יותר עם הזמן ככל שהשפה מתפשטת ומתפתחת, מה שמוביל למעין אפקט של כדור שלג. אבל אף אחד לא מתקבל באמת כהסבר, והסיבה מאחוריו נותרה קצת מסתורית.

אם אתה באמת רוצה לשלוח את עצמך למשבר קיומי מבוסס בלשנות, אתה יכול אפילו להדביק טקסט/רומן/מאמר (ארוך) משלך לתוךמחשבון חלוקהותראה אם ​​הוא מציית לחוק זיפף. אולי לא תאהב כמה צפוי השימוש שלך בשפה עשוי להיראות, אבל אל תפחד, אפילושל שייקספירכְּפָר קָטָן נראה שגם עוקב אחריו.