معمای اسرارآمیز زیف؛ کشف الگوهای منظم در جهانی آشفته
جورج زیف (George Zipf)، زبانشناس دانشگاه هاروارد، سال ۱۹۴۹ متوجه نکته عجیبی درباره میزان فراوانی استفاده از کلمات در هر زبان شد. او متوجه شد تعداد معدودی از کلمات همیشه استفاده میشوند؛ درحالیکه تعداد زیادی از کلمات بهندرت بهکار میروند. او وقتی کلمات را بهترتیب محبوبیت استفاده از آنها درجهبندی کرد، الگوی شگفتانگیزی پدیدار شد: کلمهای که بیشترین کاربرد را داشت، همیشه دو برابر بیشتر از دومین کلمه رایج و سه برابر بیشتر از سومین کلمه رایج و دَه برابر بیشتر از دهمین کلمه رایج استفاده میشد. زیف این الگو را رتبه دربرابر فراوانی نامید و متوجه شد حتی در توصیف توزیع درآمد در هر کشوری صدق میکند؛ بدینصورت که ثروتمندترین فرد دو برابر بیشتر از دومین فرد ثروتمند درآمد دارد و به همین شکل تا آخر.
این پدیده که بعدها بهعنوان قانون زیف (Zipf's Law) شناخته شد، بهطور ویژه درباره زبانهای طبیعی بررسی شد؛ اما با نگاهی به دنیای اطراف خواهید دید این الگوی منظم تقریبا در هر چیزی بهچشم میخورد؛ ازجمله جمعیت شهرها، شدت شرارههای خورشیدی، توالی پروتئین و گیرندههای سیستم ایمنی، میزان ترافیک بازدید وبسایتها، شدت زمین لرزهها، تعداد ارجاعات به مقالات دانشگاهی، نامهای خانوادگی، الگوهای انتقال پیام در شبکههای عصبی، موادغذایی استفادهشده در کتابهای آشپزی، تعداد تماسهای تلفنی دریافتی، قطر دهانههای ماه، تعداد کشتههای جنگی، محبوبیت حرکات گشایش بازی شطرنج و حتی سرعت فراموشی ما انسانها.
قانون زیف نهتنها درباره زبان که درباره بسیاری از پدیدههای دنیای اطراف ما صدق میکند.
داستان زمانی جالبتر میشود که بدانیم برای این پدیده هنوز دلیل مشخصی پیدا نشده است. هیچکس بهطور قطع نمیداند چرا بسیاری از پدیدهها و رفتارهای جوامع انسانی با این همه آشفتگی و اتفاقات پیشبینینشدنی، حداقل در این زمینه بسیار منظم و پیشبینیشدنی عمل میکنند. حتی خود زبان هم وقتی به آن فکر میکنیم، شخصی و تعمدی و با ویژگیهای منحصربهفرد است؛ بااینحال، توزیع زیف کاربرد زبان را بهصورت پدیدهای پیشبینیشدنی با الگویی تقریبا ثابت نشان میدهد. چه عاملی در جهان و در ما انسانها وجود دارد که باعث میشود چنین فعالیتها و رفتارهای پیچیدهای از این قانون ساده و ابتدایی پیروی کنند؟
بیش از یک قرن مطالعه و تحقیق، از زمانیکه فلیکس آورباخ، فیزیکدان آلمانی، در سال ۱۹۱۳ متوجه وجود چنین الگویی شد تا چند دهه بعد که جورج زیف آن را توضیح داد، هنوز نتوانسته است پرونده معمای زیف را مختومه کند. بهاعتقاد ریچارد فلوریدا، استاد توسعه اقتصادی منطقهای در دانشگاه کارنگی ملون آمریکا، توزیع زیف الگویی با نظم فراوانی است که انسانها و درنتیجه جوامع، بهطور ناخودآگاه در آن قرار میگیرند.
بیش از یک قرن مطالعه نتواسته است معمای زیف را حل کند
درباره اینکه چرا زبان و بسیاری از پدیدههای دیگر از قانون زیف پیروی میکنند، نظریههای بسیاری مطرح شده است؛ اما نتیجهگیری قطعی در این زمینه وجود ندارد. در این مقاله، سعی میکنیم به عمق این معما سفر و چند نمونه از نظریههای محتمل را برای توضیح این پدیده اسرارآمیز بررسی کنیم.
اصل پارتو (قانون ۲۰/۸۰)
قانون زیف درواقع برگرفته از توزیع پارِتو (Pareto distribution) است که «اصل پارتو» از آن گرفته شده. این اصل را احتمالا بیشتر بهعنوان قانون ۲۰/۸۰ میشناسید که بهطورکلی میگوید در بیشتر مواقع، ۸۰ درصد نتایج از ۲۰ درصد دلایل بهوجود میآید. قانون ۲۰/۸۰ درباره زبان هم صدق میکند: حدود ۲۰ درصد از کلمات پرکاربرد در هر زبان در بیش از ۸۰ درصد موارد استفاده میشوند.
سال ۱۸۹۶، ویلفردو پارتو (Vilfredo Pareto) نشان داد تقریبا ۸۰ درصد اراضی ایتالیا زیر تملک تنها ۲۰ درصد جامعه است. گفته میشود او بعدها متوجه شد ۲۰ درصد غلافهای نخودفرنگی باغ او حاوی ۸۰ درصد کل نخودفرنگیهای جمعآوری شده بودند.
پارتو و محققان دیگر مجموعه دادههای مختلفی را نیز بررسی کردند و متوجه شدند این ناتوازنی ۸۰-۲۰ به دفعات زیادی در دنیا مشاهده میشود. ۲۰ درصد از ثروتمندترین انسانها صاحب ۸۲٫۷ درصد درآمد جهان هستند. در آمریکا، ۲۰ درصد بیماران از ۸۰ درصد منابع درمانی استفاده میکنند. ۸۰ درصد کاربران عموما فقط از ۲۰ درصد از قابلیتهای یک نرمافزار استفاده میکنند. سال ۲۰۰۲، مایکروسافت گزارش داد ۸۰ درصد خطاهای ویندوز و آفیس ناشی از ۲۰ درصد از باگها هستند.
طبق قانون ۲۰/۸۰، حدود ۲۰ درصد از پرکاربردترین کلمات در هر زبان در بیش از ۸۰ درصد موارد استفاده میشوند.
قاعدهای سرانگشتی در دنیای کسبوکار میگوید ۲۰ درصد مشتریان عامل ۸۰ درصد سوددهی شرکت هستند و ۸۰ درصد شکایات فقط از ۲۰ درصد مشتریان دریافت میشود. کتاب «اصل ۸۰/۲۰» اثر ریچارد کاچ حتی پا را از این هم فراتر میگذارد و میگوید ۲۰ درصد سطح فرشهای خانه دچار ۸۰ درصد ساییدگی میشود. اصل پارتو همهجا بهچشم میخورد و این البته در بسیاری از مواقع، اتفاق خوشایندی است. کافی است تنها تمرکز خود را به ۲۰ درصد مشکلات اختصاص دهید تا ۸۰ درصد آنها را حل کنید.
اصل کمترین تلاش
عوامل مختلف و غیرمرتبطی در ایجاد پدیده ۲۰/۸۰ نقش دارند؛ اما اگر بتوان منشأ اصلی برخی از آنها را مشخص کرد، شاید بتوان به این نتیجه رسید که یک یا چند نمونه از این مکانیزمها در ظهور پدیده زیف در زبان نیز نقش دارند. خود جورج زیف معتقد بود توزیع فراوانی کلمات نتیجه اصل کمترین تلاش (Principle of Least Effort) است که آن را در سال ۱۹۴۹ در یکی از کتابهایش مطرح کرد. طبق این اصل، انسانها و حیوانات و حتی دستگاههای خوشساخت بهطور طبیعی تمایل دارند مسیری را طی کنند که نیازمند کمترین تلاش باشد. اگر در بحثی خواستید ثابت کنید انسانها ذاتا موجودات تنبلی هستند، میتوانید به اصل کمترین تلاش اشاره کنید.
طبق اصل کمترین تلاش، انسانها و حیوانات تمایل به انتخاب مسیری دارند که نیازمند کمترین تلاش باشد.
مثالی ساده برای اصل کمترین تلاش، رفتار کاربر هنگام جستوجو در گوگل است. اکثر ما وقتی میخواهیم عبارتی را در گوگل جستوجو کنیم، معمولا کوتاهترین حالت ممکن را تایپ میکنیم تا هم تلاش کمتری کرده باشیم و هم سریعتر به نتیجه جستوجوی خود برسیم.
زیف معتقد بود بیشتر رفتارهای انسان بر اصل کمترین تلاش استوار است. او این فرضیه را مطرح کرد که با توسعه زبان، انسانها بهطور طبیعی ترجیح دادند هنگام صحبتکردن از حداقل کلمات ممکن استفاده کنند؛ بدینصورت، صحبتکردن و فرایند انتقال ایده آسانتر و سریعتر شد. افزونبراین، مخاطب هم برای اینکه متوجه منظور گوینده شود، ترجیح میدهد گوینده از کلمات بیشتر و مشخصتری استفاده کند تا او برای درک مطلب تلاش کمتری بکند.
بیشتر رفتارهای انسان بر اصل کمترین تلاش استوار است
از دیدگاه زیف، این مصالحه بین گوینده و شنونده برای اینکه هر دو هنگام انتقال و درک مفاهیم کمترین تلاش ممکن را بکنند، به شکلگیری حالت کنونی زبان منجر شده است که در آن تعداد بسیار کمی از کلمات به دفعات زیاد و کلمات زیادی به ندرت استفاده میشوند.
محققان در مطالعات جدید این موضوع را مطرح کردهاند که استفاده از چند کلمه کوتاه و رایج و پیشبینیشدنی به پراکندگی تراکم بار اطلاعات بر مخاطب کمک میکند و نرخ توزیع اطلاعات را ثابت نگه میدارد. اگرچه این توضیح منطقی است و کاربرد اصل کمترین تلاش در توضیح رفتارهای دیگر اطلاعات مهمی را نمایان کرده است، برخی محققان بعدها به این نتیجه رسیدند درباره زبان داستان از این هم سادهتر است.
اصل تصادفی مندلبرات
چند سال بعد از اینکه زیف در مقالهای رابطه بین رتبه و فراوانی کلمات و اصل کمترین تلاش را مطرح کرد، بنوآ مندلبرات (Benoit Mandelbrot)، ریاضیدان فرانسویتبار آمریکایی مشهور به پدر هندسه فراکتالی، نشان داد جنبه اسرارآمیزی درباره قانون زیف وجود ندارد؛ چون حتی اگر بهصورت کاملا تصادفی دکمههای کیبورد را فشار دهید، کلماتی که ایجاد میشود، همچنان از قانون زیف پیروی میکنند. میپرسید چگونه؟
در تایپ تصادفی، احتمال ایجاد کلمات دوحرفی انگلیسی ۲۶ بر ۲۷ ضرب در احتمال فشردن کلید فاصله (۱ بر ۲۷) است.
تنوع کلمات طولانی بهمراتب بیشتر از کلمات کوتاه است. برای مثال، الفبای انگلیسی شامل ۲۶ حرف است و میتوان با آنها ۲۶ کلمه تکحرفی ایجاد کرد؛ اما اگر ۲۶ را به توان خودش برسانیم، میتوانیم ۶۷۶ کلمه دوحرفی داشته باشیم. هنگام تایپ بهصورت تصادفی، هر بار کلید فاصله فشرده و کلمه آنجا تمام و کلمه جدید شروع میشود. ازآنجاکه همیشه این احتمال وجود دارد که هنگام تایپ کلید فاصله فشرده شود، احتمال زودتر فشردهشدن این کلید بهطور تصاعدی بیشتر از احتمال دیرتر فشردهشدن آن است؛ درنتیجه احتمال ایجادشدن کلمات کوتاهتر بهطور تصاعدی بیشتر از کلمات بلندتر است.
کنارهم قرارگرفتن این عوامل تصاعدی تصویری زیفی بهنمایش میگذارد. برای مثال، اگر تمام ۲۶ حرف الفبای انگلیسی به اضافه کلید فاصله از احتمال یکسانی برای فشردهشدن برخوردار باشند، بعد از اینکه حرفی تایپ و کلمهای شروع میشود، احتمال اینکه کلید بعدی فاصله باشد و کلمه تکحرفی ایجاد کند، ۱ بر ۲۷ است.
بدینترتیب، اگر بهصورت تصادفی شروع به فشردن کلیدهای کیبورد کنید، خواهید دید تقریبا یک در هر ۲۷ کلمه یا بهعبارتی ۳٫۷ درصد کلمات ایجادشده تکحرفی هستند. کلمات دوحرفی زمانی ایجاد میشوند که بعد از فشردن اولین کلید، کلید بعدی هر چیزی غیر از فاصله باشد؛ یعنی احتمال ۲۶ بر ۲۷ و بعد کلید فاصله. کلمه سهحرفی احتمال فشردن یک حرف و حرف بعدی و بعد کلید فاصله است. اگر این احتمالات را به تعداد کلمات منحصربهفرد با هر تعداد حرف موجود تقسیم کنیم، آن وقت به فراوانی وقوع هر کلمهای با تعداد مشخصی از حروف خواهیم رسید.
احتمال تایپ تصادفی کلمه zoomit حدود ۰٫۰۰۰۰۰۰۰۰۹۹۳ درصد است.
برای مثال، احتمال فشردن کلید حرف Z هنگام تایپ تصادفی ۰٫۱۴۲ درصد است و احتمال تایپ تصادفی کلمه «Zoomit» نیز ۰٫۰۰۰۰۰۰۰۰۹۹۳ درصد. احتمال تایپ کلمات بلندتر بهطور مرتب کمتر میشود. اگر این فراوانیها را براساس جایگاهشان در فهرست پرکاربردترین کلمات روی نمودار بیاوریم، با یک مدل زیفی روبهرو میشویم:
پس با این حساب، باید گفت معمای زیف چندان هم رمزآلود نیست و عاملی که باعث این پدیده عجیب میشود، احتمالات ریاضی است. شاید کلمات فقط نتیجه تقسیمبندی تصادفی جهان عینی و جهان انتزاعی به اتیکتهای قراردادی باشد و قانون زیف، تنها نشان میدهد وقتی این کار را میکنیم، بهطور طبیعی چه اتفاقی میافتد.
خب پرونده این معمای صدوچندساله بالاخره بسته شد؛ اما یک لحظه صبر کنید! زبانی که برای برقراری ارتباط استفاده میکنیم، با تایپ تصادفی فرق دارد. جملات و موضوعات براساس آنچه قبلا گفته شده است، مطرح میشوند. کلماتی که با آنها سروکار داریم، قطعا نتیجه نامگذاری تصادفی نیست. اگر قرار بود به اصل تصادفی مندلبرات برای توضیح قانون زیف بسنده کنیم، آن وقت چطور میتوان اسامی عناصر و سیارات و روزهای هفته را توضیح داد که حتی آنها هم از همین قانون پیروی میکنند؟ مجموعههای اینچنینی در بند عوامل طبیعی هستند و با برچسبگذاریهای تصادفی ایجاد نشدهاند.
بهعلاوه، حتی وقتی فهرستی از کلمات بدیع که قبلا کسی آنها را نشنیده و از آنها استفاده نکرده است، به فردی داده میشود تا با آنها داستانی درباره موجودات بیگانه با نامهای عجیبوغریب بنویسد، بهطور طبیعی تمایل دارد از اسم موجودی فضایی دو برابر بیشتر از نام دوم و سه برابر بیشتر از نام سوم و بههمین صورت تا آخر استفاده کند. انگار که قانون زیف در مغز ما نهادینه شده است. شاید چیزی در نحوه جریان افکار و موضوعات گفتوگوشده وجود دارد که باعث ایجاد توزیع زیف میشود.
اتصال ترجیحی
مدل دیگری که از توزیع زیفی پیروی میکند، فرایندهایی است که باتوجهبه عملکرد قبلی خود تغییر میکنند. به این فرایندها اتصال ترجیحی (preferential attachment) میگویند و زمانی اتفاق میافتند که چیزی مثلا پول، آمار بازدید، میزان توجه، تعداد دوستان، مشاغل و هر چیز دیگری باتوجهبه میزانی که فرد از قبل دراختیار داشته، به او داده میشود.
مثال فرش در قانون ۲۰/۸۰ را بهیاد آورید. اگر بیشتر افراد از مسیر خاصی از اتاق نشیمن به آشپزخانه بروند، اثاثیه خانه جوری چیده میشود که رفتوآمد از این مسیر حتی بیشتر شود. هرچه میزان بازدید ویدئو یا عکس یا پستی بیشتر باشد، این احتمال بیشتر میشود که بهطور خودکار به دیگران توصیه شود یا بهدلیل بازدید زیاد به اخبار راه پیدا کند و از این راه بازدید بیشتری هم دریافت کند. این فرایند شبیه گلوله برفی است که در حال غلتیدن از روی تپهای پوشیده از برف است. هرچه برف بیشتری دور خود جمع کند، سطح آن برای جذب برف بیشتر، بزرگتر خواهد شد و اندازه آن با سرعت بیشتری هم رشد میکند.
اثاثیه جوری چیده شده تا مسیری که محبوبیت بیشتری دارد، بیشتر استفاده شود؛ پس فرش در این ناحیه بیشتر ساییده میشود.
در اتصال ترجیحی حتما لازم نیست انتخاب عمدی در کار باشد و این فرایند میتواند بهطور طبیعی نیز اتفاق بیفتد. برای اثبات این موضوع میتوانید این روش را امتحان کنید: چند گیره کاغذ را بردارید و بهصورت تصادفی دو تا را بههم وصل کنید و سپس آنها را دوباره به دسته گیرهها برگردانید. حالا این فرایند را چندین بار تکرار کنید. اگر گیرهای که انتخاب کردید، به گیره دیگری وصل بود، آن را به گیره سوم متصل کنید. بعد از مدتی خواهید دید دسته گیرههای شما به شکل الگوی زیفی درآمده است.
در این آزمایش ساده، میبینید که تعداد کمی از زنجیرهها از گیرههای بیشتری تشکیل شدهاند. دلیلش این است که هرچه طول زنجیره بیشتر شود، راحتتر بهدست میآید و بخت بیشتری برای انتخابشدن خواهد داشت که بدینترتیب، طول آن بیشتر خواهد شد. بههمیندلیل، ثروتمندان ثروتمندتر و پُستهای محبوب در شبکههای اجتماعی محبوبتر و افراد مشهور مشهورتر میشوند.
طبق اتصال ترجیحی، پولدارها پولدارتر و پُستهای محبوب محبوبتر میشوند
اگر نتوان گفت معمای زیف درباره زبانها ناشی از اتصال ترجیحی است، حداقل میتوان گفت بهدلیل این فرایند تقویت میشود. وقتی کلمهای برای بار اول استفاده میشود، این احتمال بیشتر میشود که بهزودی دوباره استفاده شود.
نقاط بحرانی هم ممکن است در این قضیه نقش داشته باشند. افراد اغلب تا زمانی درباره موضوعی صحبت میکنند که به نقطه بحرانی برسد. بعد از رسیدن به این نقطه، موضوع بحث و کلمات استفادهشده هم تغییر میکند. فرایندهای اینچنینی به ایجاد توزیع توانی منجر میشود که در آن یک کمیت بهصورت توانی از دیگری تغییر میکند. بهعنوان نمونه، اگر طول یک مربع دو برابر شود، مساحت آن در چهار ضرب میشود. قانون زیف هم روی نمودار بهصورت توزیع توانی خود را نشان میدهد.
نتیجهگیری
در پایان میتوان نتیجه گرفت تمام این مکانیزمها بهنظر میرسد در ظهور توزیع زیف دخیل باشند. شاید برخی از کلماتی که استفاده میکنیم، طبق نظریه مندلبرات بهطور تصادفی ایجاد شده باشد. مکالمات و گفتوگوها هم بهطور طبیعی از اتصال ترجیحی و نقطه بحرانی پیروی میکنند و افراد نیز هنگام صحبتکردن و گوشدادن تمایل دارند از خود کمترین تلاش ممکن را نشان دهند و تمام این موارد درکنارهم عامل ایجاد رابطه بین رتبه کلمات و فروانی استفاده از آنها هستند. متأسفانه جواب سادهای برای توضیح معمای زیف وجود ندارد؛ اما پیامدهای این قانون بر نحوه شکلگیری مکالمات بسیار شگفتانگیز است. یکی از این پیامدهای حیرتانگیز آن است که تقریبا نیمی از هر کتاب یا گفتوگو یا مقاله از پنجاه تا صد کلمه یکسان تشکیل شده و نیم دیگر بهطور تقریبی شامل کلماتی است که تنها یک بار بهکار رفتهاند.
طبق مطالعات، ۲۵ کلمه پرکاربرد حدود یکسوم و ۱۰۰ کلمه پرکاربرد حدود نیمی از آنچه میگوییم تشکیل میدهند. متن بررسیشده چه بخشی از این مقاله باشد، چه آثار کامل افلاطون یا ادگار آلن پو، حدود ۱۰۰ کلمه از آن بهاندازه نصف تمام کلمات دیگر متن بهکار رفتهاند. برای مثال، در کتاب «آلیس در سرزمین عجایب»، ۴۴ درصد کلمات یا در رمان «تام سایر»، ۴۹٫۸ درصد کلمات منحصربهفرد فقط یک بار در کل داستان بهکار رفتهاند. جالب است بدانید کلمهای که در بخشی از متن تنها یک بار بهکار رفته باشد، hapax legomenon نامیده میشود و اگر در بخشی از زبانی کهن چنین کلمهای بهکار رفته باشد، درک معنی آن بهشدت سخت خواهد شد.
واقعیت این است که در دنیای ما، بعضی چیزها بیشتر از چیزهای دیگر در کانون توجه قرار میگیرند و بیشتر اتفاقاتی که در روز برایمان میافتد، فراموش میشود. شاید چندین هزار روز زندگی کرده باشیم؛ اما نمیتوانیم درباره هر روز از عمرمان اتفاق خاصی را بهیاد بیاوریم. بیشتر اتفاقاتی که تجربه میکنیم، با سرعتی شبیه قانون زیف فراموش میشود.
وقتی به تمام مقالهها و کتابهایی که خواندهایم فکر میکنیم و متوجه میشویم جزئیات زیادی از آنها بهخاطر نمیآوریم، شاید دچار حس سرخوردگی شویم. شاید بگوییم اصلا چه نیازی به خواندن این کتابها است اگر قرار است اصل پارتو تعیین کند مغز «زیفی» ما چند سال بعد تنها عنوان کتاب و چند واکنش ساده ما به آنها را بهیاد خواهد آورد. برای رهایی از این حس، شاید این جمله از رالف والدو امرسون، فیلسوف و نویسنده آمریکایی، مناسب باشد: «نمیتوانم کتابهایی که خواندهام بهتر از غذاهایی که خوردهام، بهیاد آوردم. بههرحال، هر دو آنها مرا ساختهاند.»