آیا الگوریتم می‌تواند حرکت‌های بعدی دنیاگیری را پیش‌بینی کند؟

پژوهشگران مدلی توسعه کرده‌اند که برای پیش‌بینی شیوع‌های کووید ۱۹ قبل از وقوع، از اطلاعات مربوط به رسانه‌های اجتماعی و داده‌های جست‌وجوی کاربران استفاده می‌کند.

در وضعیت دنیاگیری کووید ۱۹ و اثرهای محدودیت‌های ناشی ‌از آن روی اقتصاد، یکی از موضوع‌های مهم تصمیم‌گیری در این زمینه است که چه زمانی محدودیت‌های مربوط به مهار کرونا را باید تشدید کنیم و چه زمانی وضعیت خطرناک نیست و می‌توان از برخی محدودیت‌ها صرف‌نظر کرد. برای مثال، نقطه‌ای که در آن بیمارستان‌ها به ۷۰ درصد ظرفیت خود می‌رسند، نشانه‌ا‌ی هشداردهنده است و افزایشی در شمار موارد و مرگ‌و‌میر ناشی از ویروس کرونا رخ می‌دهد.

همان‌طورکه فرمانداران ایالت‌هایی مانند فلوریدا و کالیفرنیا و تگزاس در روزهای آخیر آموخته‌اند، چنین معیارهایی به سیستم هشدار ضعیفی منجر می‌شود. هنگامی‌که ویروس کرونا شکافی در جمعیت پیدا کند، از مقام‌های بهداشتی دو هفته پیش می‌افتد و قبل از اینکه ظهور مجددش در بیمارستان‌ها و آزمایشگاه‌ها و جاهای دیگر مشخص شود، به‌سرعت در حال گردش و تکثیر خواهد بود.

گروهی بین‌المللی از دانشمندان مدل یا حداقل الگویی برای مدلی طراحی کرده‌‌اند که می‌تواند شیوع‌ها را تقریبا دو هفته پیش از رخداد پیش‌بینی کند تا اقدامات به‌موقع و مؤثری برای مهار آن‌ها انجام شود. در مقاله‌ای که به‌تازگی روی arXiv.org ارسال شده است، پژوهشگرانی با هدایت مائوریسیو سانتیلانا و نیکول کوگان از دانشگاه هاروارد الگویی ارائه دادند که خطر را ۱۴ روز یا زودتر از شروع افزایش شمار موارد نشان می‌دهد.

سیستم مذکور از نظارت در زمان واقعی بر اطلاعات توییتر و جست‌وجوهای گوگل و داده‌های جا‌به‌جایی از روی تلفن‌های هوشمند استفاده می‌کند. به‌گفته‌ی پژوهشگران، این الگوریتم می‌تواند همچون ترموستات سیستم سرمایشی یا گرمایشی برای هدایت افزایش یا کاهش متناوب مداخلات بهداشت عمومی عمل کند؛ عملی که به‌معنای بازگشایی آرام‌تر و ایمن‌تر خواهد بود.

مائوریسیو سانتیلانا،

مائوریسیو سانتیلانا، پژوهشگر دانشگاه هاروارد، براساس داده‌های جست‌وجوی گوگل و رسانه‌های اجتماعی مدلی طراحی کرده است که شیوع‌های کووید ۱۹ را دو تا سه هفته قبل از وقوع پیش‌بینی می‌کند.

دکتر سانتیلانا، مدیر آزمایشگاه هوش ماشینی در بیمارستان کودکان بوستون و استادیار پزشکی کودکان و همه‌گیر‌شناسی در دانشگاه هاروارد می‌گوید:

در بیشتر مدل‌سازی‌های بیماری‌های عفونی، براساس فرضیات ازپیش‌تعیین‌شده، سناریوهای مختلفی پیش‌بینی می‌کنید. آنچه در اینجا انجام می‌دهیم، مشاهده‌ی بدون تعریف فرضیه‌ها است. تفاوت این است که روش‌های ما با تغییرات فوری در رفتار متناسب هستند و می‌توانیم این تغییرات را در نظر بگیریم.

کارشناسانی که تجزیه‌و‌تحلیل جدید را دیده‌اند، معتقدند این نتایج نشان‌دهنده‌ی افزایش ارزش داده‌هایی مانند رسانه‌های اجتماعی که در زمان واقعی به‌دست می‌آیند، در بهبود مدل‌های موجود است. لورن انسل مایرز، زیست‌شناس و متخصص آمار دانشگاه تگزاس در آستین گفت:

این مطالعه نشان می‌دهد منابع داده‌ی نسل آینده ممکن است سیگنال‌های زودهنگامی از آغاز شیوع کووید ۱۹ ارائه کنند؛ خصوصا اگر شمار موارد تأییدشده به‌علت فاصله‌ی زمانی رفتن به‌دنبال درمان و دستیابی به نتایج آزمایش با تأخیر مشخص شود.

استفاده از تجزیه‌و‌تحلیل داده‌های زمان واقعی برای سنجش پیشرفت بیماری حداقل به سال ۲۰۰۸ بازمی‌گردد. در آن زمان، مهندسانی در گوگل با ردیابی آمار میزان جست‌وجو (ترند) برای کلماتی نظیر «احساس خستگی» و «درد مفاصل» و «مقدار تامیفلو (نوعی داروی ضدویروس)» سعی کردند میزان مراجعه به پزشک برای آنفولانزا را برآورد کنند. عملکرد الگوریتم Google Flu Trends ضعیف بود. برای مثال، این الگوریتم مرتبا تعداد مراجعه به پزشک را بیش‌ازحد برآورد می‌کرد. دلیل این امر محدودیت‌های داده و تأثیر عوامل خارجی مانند توجه رسانه‌ها بود که می‌توانند موجب جست‌وجوهایی شوند که ارتباطی با بیماری واقعی ندارند.

از آن زمان، پژوهشگران اصلاحاتی درزمینه‌ی این رویکرد انجام دادند و جست‌وجوهای گوگل را با انواع دیگر داده‌ها ترکیب کردند. تیم‌هایی در دانشگاه کارنگی ملون، کالج دانشگاهی لندن، دانشگاه تگزاس و برخی مراکز دیگر مدل‌هایی دارند که تا حدودی شامل تجزیه‌و‌تحلیل داده‌های زمان واقعی نیز می‌شود. ماداو ماراته، دانشمند علوم کامپیوتر در دانشگاه ویرجینیا گفت: «می‌دانیم هیچ نوع جریان داده‌ای به‌تنهایی مفید نیست. دستاورد مقاله‌ی جدید آن است که آن‌ها جریان‌های متنوع و مناسبی از داده‌ها دارند.»

در مقاله‌ی جدید، پژوهشگران علاوه‌بر گوگل، داده‌های زمان واقعی چهار منبع دیگر را نیز تجزیه‌و‌تحلیل کرده‌اند: پست‌های توییتر درزمینه‌ی کووید ۱۹ که مکان جغرافیایی آن‌ها مشخص شده بود و جست‌وجوی پزشکان روی پلتفرم پزشکی UpToDate و داده‌های جا‌به‌جایی از تلفن‌های هوشمند و قرائت‌های دماسنج هوشمند کینزا که در برنامه‌ای بارگذاری می‌شود. این جریان داده‌ها با مدل پیچیده‌ی پیش‌بینی تلفیق شد که در دانشگاه شمال‌شرقی براساس نحوه‌ی حرکت و تعامل مردم در جوامع توسعه داده شده بود.

پژوهشگران ارزش پیش‌بینی‌کنندگی ترندها در جریان داده را با محاسبه‌ی میزان همبستگی آن‌ها با تعداد موارد و مرگ‌ومیر در ماه‌های مارس و آوریل در هر ایالت مشخص کردند. برای مثال در نیویورک، زودتر از یک هفته قبل از انفجار موارد در اواسط ماه مارس، افزایش شدیدی در پست‌های توییتر آغاز شد و جست‌وجوهای گوگل مرتبط و اندازه‌گیری‌های کینزا نیز از چند روز پیش‌ افزایش یافت.

پژوهشگران تمام منابع داده‌های خود را باهم ترکیب کردند و براساس شدت همبستگی هرکدام از آن‌ها با افزایش آینده در موارد، وزنی برای هریک در نظر گرفتند. این الگوریتم شیوع‌ها را به‌طور متوسط ۲۱ روز زودتر پیش‌بینی کرد. الگوریتم مذکور با نگاه به آینده پیش‌بینی کرد اگر در آینده اقداماتی انجام نشود، درحالی‌که شمار موارد درحال‌حاضر حالت هموار دارد، نبراسکا و نیوهمپشایر احتمالا در هفته‌های آینده شاهد افزایشی در موارد خواهند بود. دکتر سانتیلانا گفت:

فکر می‌کنم با درنظرگرفتن این مسئله که دنیاگیری به‌طور مداوم در حال تغییر است، با قدری احتیاط می‌توانیم انتظار داشته باشیم حداقل یک هفته یا زودتر هشدار اولیه را ببینیم. ما این داده‌ها را به‌عنوان جایگزینی برای نظارت سنتی نمی‌بینیم؛ بلکه تأییدکننده‌ی آن‌ها هستند. این نوعی اطلاعات است که می‌تواند به تصمیم‌گیرندگان این امکان را بدهد که بتوانند بگویند یک هفته‌ی دیگر صبر نکنیم و همین حالا اقدام کنیم.

به‌گفته‌ی کارشناسان، تجزیه‌و‌تحلیل داده‌های بزرگ با همه‌ی جذابیتشان، تغییر ناگهانی در رفتار جمعی را نمی‌توانند پیش‌بینی کنند. برای مثال، الگوریتمی وجود ندارد که بتواند اعتراض‌های سراسری به‌خاطر قتل جورج فلوید را پیش‌بینی کند؛ تجمعات گسترده‌ای که ممکن است با وجود اقدامات احتیاطی معترضان، آغازگر شیوع‌های جدیدی باشد. رسانه‌های اجتماعی و موتورهای جست‌وجو ممکن است با گذشت زمان، حساسیت خود را از دست بدهند. هرچه مردم با عامل بیماری‌زا بیشتر آشنا شوند، این احتمال کمتر می‌شود که با استفاده از کلمات کلیدی جست‌وجو کنند.

آژانس‌های بهداشت عمومی مانند مرکز کنترل و پیشگیری از بیماری که آن‌ها نیز داده‌های زمان واقعی رسانه‌های اجتماعی و منابع دیگر را بررسی می‌کنند، برای پیش‌بینی‌های خود از چنین الگوریتم‌هایی استفاده نکرده‌اند. شویتا بانسال، زیست‌شناسی دانشگاه جرج‌تاون گفت:

داشتن این داده‌ها برایمان بسیار باارزش است؛ اما نمی‌خواهم براساس آن‌ها پیش‌بینی کنم؛ زیرا ضرری که می‌تواند در پی داشته باشد، بسیار شدید است. ما نیاز داریم چنین مدل‌هایی با گذشت زمان اعتبارسنجی و تأیید شوند.

به‌گفته‌ی بیشتر کارشناسان، با فرض مشکلات مداوم و مکرر ویروس کرونا و کافی‌نبودن زیرساخت‌های کنونی بهداشت عمومی، احتمال موفق‌بودن این روش وجود دارد. این نیازی فوری است و کمبود داده وجود ندارد. دکتر سانتیلانا گفت:

آنچه به آن نگاه کردیم، چیزی است که فکر می‌کنیم بهترین جریان‌های داده موجود باشد. مشتاقانه منتظریم تا ببینم آمازون یا نتفلیکس می‌توانند چه چیزی به ما بدهند.


منبع nytimes

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید