کلان داده چگونه باعث ایجاد بحرانی بزرگ در علم شده است؟
فعالان دانشگاهی و محققان با نگرانی جدیدی در حوزهی تحقیقات و مقالات علمی روبهرو شدهاند: در بسیاری از زمینههای علمی، نتایج منتشرشدهی مشهور قابلیت تکرارشدن ندارند. این بحران ممکن است نتایج خطرناکی داشته باشد. بهعنوان مثال، در سال ۲۰۱۱ سازمان Bayer Healthcare بررسی ۶۷ پروژهی تحقیقاتی را شروع و بخت تکرارپذیری آنها را کمتر از ۲۵ درصد عنوان کرد. بهعلاوه، بیش از دوسوم پروژهها تناقضهای بزرگی داشتند. پروژهی مشابه دیگر که اخیرا انجام شد، ۲۸ مقالهی روانشناسی را بررسی کرد که طبق بررسیها، فقط نیمی از مقالهها قابلیت تکرارپذیری داشتند.
پروژههایی شبیه به آنچه گفته شد، در حوزههای متنوع علمی هچون پزشکی و ریاضیات انجام شدهاند و نتایج مشابهی را نشان دادهاند. نتایج مذکور تقریبا اعتبار تحقیقات تمامی دانشمندان را خدشهدار میکند.
چه عواملی باعث ایجاد این مشکل شدهاند؟ دراینمیان، عوامل تأثیرگذار متعددی وجود دارند. نویسندهی مقالهی منبع، یعنی کای ژنگ، در مقام کارشناس آمار اعتقاد دارد مشکل اصلی نحوهی انجام تحقیقات علمی در عصر کنونی، یعنی عصر کلانداده، تشریح میشود. بخشی از بحران تکرارناپذیری نتایج تحقیقات علمی، بهدلیل تحلیلهای غیرمعتبر آماری از فرضیههای مبتنی بر داده است. روش کنونی برخلاف روشهایی است که در قدیم استفاده میشد.
روش علمی
در آزمایشهای سنّتی، ابتدا کارشناس آمار و دانشمند حوزهی علمی مذکور، فرضیه را با همکاری یکدیگر شکل میدادند. سپس، دانشمند آزمایشها را برای جمعآوری داده انجام میداد که درنهایت، کارشناس آمار آن را تحلیل میکرد.
مطالعات سنّتی روی دادههای محدودتری انجام میشد
یکی از نمونههای مشهور آزمایشهای سنّتی، داستان آزمایش طعم چای است. در دههی ۱۹۲۰، زنی ادعا کرد میتواند تفاوت طعم چای را درمقایسهبا اول ریختهشدن چای یا شیر تشخیص دهد. رونالد فیشر، کارشناس آمار، به ادعای او شک کرد. طبق نظریههای آماری، فیشر گفت اگر در مسئلهای در ۴ فنجان ابتدا چای و در ۴ فنجان دیگر ابتدا شیر بریزیم، تعداد فنجانهایی که آن زن بهدرستی حدس میزند، از مدل احتمالاتی توزیع فوقهندسی پیروی خواهد کرد.
آزمایش مدنظر فیشر با ۸ فنجان انجام شد که بهترتیب گفتهشده، از چای و شیر پر شده بودند. فنجانها تصادفی برای آزمایش آن زن مرتب شدند. طبق داستان، آن زن توانست هر ۸ فنجان را بهدرستی حدس بزند. چنین نتیجهای کاملا برخلاف فرضیهی فیشر بود. احتمال اینکه آن زن بتواند همهی پاسخهای صحیح را براساس حدسزدن تصادفی بیابد، ۱.۴ درصد بود. فرایند مذکور، یعنی فرضیهسازی و جمعآوری داده و سپس تحلیل، در دوران کلانداده بهندرت یافت می شود. فناوری امروزی حجم عظیمی از داده را حدود ۲.۵ اگزابایت در هرروز جمعآوری میکند.
اگرچه دستاوردهای کلانداده و تحلیل ماشینی آن بسیار مفید محسوب میشود، علم با سرعتی بسیار آهستهتر حرکت میکند؛ درنتیجه، شاید دانشمندان نمیدانند چگونه فرضیهی صحیح را در تحلیل داده وارد کنند. بهعنوان مثال، دانشمندان امروزی دهها هزار بیان ژن را از مردم جمعآوری میکنند؛ اما تشخیص این امر دشوار خواهد بود که کدام ژن در فرضیهی درحالجریان استفاده شود.
در فرضیهی گفتهشده دربارهی تحقیقات ژنتیک، افراد به شکلدهی فرضیه براساس داده ترغیب میشوند. چنین فرضیهای متقاعدکننده بهنظر میرسد؛ اما نتیجهگیریها مرسوم از آنها عموما نامعتبر هستند. دلیل اصلی نیز آن است که در این روش، روند شکلدهی فرضیه و مشاهدهی دادهها معکوس شده است.
مشکلات دادهها
اکنون به این سؤال میرسیم: «چرا معکوسکردن روند بررسی و تحلیل دادههای علمی، نتایج مفیدی بههمراه نخواهد داشت؟» فرض کنید داستان آزمایش چای را با روش کلانداده انجام دهیم؛ یعنی مثلا ۱۰۰ زن چایها را امتحان کنند.
بسیاری از یافتههای کنونی علمی قابلیت تکرارپذیری ندارند
فرض کنید ۱۰۰ زن در آزمایش حضور دارند و هیچکدام نمیتوانند وضعیت چای را شناسایی کنند. آنها فقط با حدسزدن ۸ فنجان روبهروی خود را امتحان میکنند. طبق نظریههای آماری، ۷۵.۶ درصد احتمال دارد که حداقل یکی از زنان تمام فنجانهای چای را درست حدس بزند.
اکنون فرض کنید دانشمندی از میان زنان حاضر در این آزمایش زنی را ببیند که در کمال تعجب، همهی فنجانها را میتواند درست تشخیص دهد. او سپس تحلیل آماری خود را برپایهی توزیع فوقهندسی توضیحدادهشده انجام میدهد. او نتیجه خواهد گرفت که این زن قابلیت تشخیص صحیح همهی لیوانها را دارد؛ اما نتیجهگیری او قابلیت تکرار ندارد. درواقع، اگر او باردیگر آزمایش را انجام دهد؛ چون در مرتبهی اول، تنها با حدس موفق شده فنجانها را شناسایی کند، بهاحتمال زیاد ناموفق خواهد بود.
مثال بالا نشان داد چقدر احتمال دارد دانشمندان از روی بختواقبال سیگنالهای جالب، اما غیرواقعی را از مجموعهی دادهها استخراج کنند. آنها احتمالا براساس همین سیگنالها فرضیهسازی و از همان مجموعهی دادهی قبلی برای نتیجهگیری استفاده میکنند. درنهایت، احتمالا زمانی بهطول خواهد انجامید تا آنها متوجه تکرارپذیرنبودن یافتههایشان شوند. چنین مشکلی عموما در تحلیلهایی براساس کلانداده رخ میدهد. بهطور خلاصه، بهدلیل فراوانی حجم داده احتمال یافتنِ اتفاقی سیگنالهای مثبت وجود دارد.
علم آمار بهمعنای استخراج اطلاعات صحیح از دادههای کافی است
ایراد نگرانکنندهتر در استفاده از روش کلانداده آن است که احتمال دستکاری دادهها برای رسیدن به نتایج و انتشار عمومی آنها را برای دانشمندان آسانتر میکند. متخصصان آماری بهنوعی چنین روشهایی را بهسخره میگیرند. آنها میگویند اگر بهاندازهی کافی داده جمع کنید، احتمالا به نتیجهی دلخواه میرسید. سؤال این است: «نتیجهی بهدستآمده منطقی و صحیح نیز محسوب میشود؟» احتمالا خیر.
تحلیلهای قویتر
دانشمندان چگونه میتوانند بدون گرفتارشدن به مشکل گفتهشده، نتایج صحیح و تکرارپذیر را با تحلیلهای کلانداده بهدست بیاورند؟ پاسخ ساده است. آنها باید بیشتر مراقب باشند. اگر دانشمندان بهدنبال نتایج تکرارپذیر از فرضیههای مبتنی بر داده هستند، باید آن روش را با دقت فراوان در تحلیلهایشان بهکار بگیرند. بهعلاوه، متخصصان آمار نیز باید فرایندهای جدید و بهتری برای نتیجهگیریهای معتبر طراحی کنند. درحالحاضر، تدوین چند فرایند و روند تحلیلی جدید در دستورکار دانشمندان مشهور آمار قرار دارد.
علم آمار بهمعنای استفاده از بهینهترین راه برای استخراج اطلاعات از داده است. با استفاده از این مفهوم، میتوان آمار را علمی نامید که با تکامل داده کاملتر میشود. دانشمندان حوزههای مختلف باید تغییرات جاری در حوزهی داده را قدر بدانند؛ چراکه به توسعهی روشهای آماری بهینهتر و درنتیجه، فرصتهای علمی بیشتر منجر میشود. درنهایت، این پیشرفتها موجب کشفهای جدید و البته معتبر علمی خواهد شد.