رقیب جدید آلفافولد از راه رسید؛ هوش مصنوعی متا شکل ۶۰۰ میلیون پروتئین را پیش‌بینی می‌کند

یک‌شنبه ۱۵ آبان ۱۴۰۱ - ۲۲:۳۰
مطالعه 4 دقیقه
دیپ‌مایند چندی پیش ساختار حدود ۲۲۰ میلیون از پروتئین‌های موجودات شناخته‌شده را پیش‌بینی کرد. حالا متا ساختار ۶۱۷ میلیون پروتئین را پیش‌بینی کرده است.
تبلیغات

وقتی در سال جاری دیپ‌مایند مستقر در لندن ساختار پیش‌بینی‌شده حدود ۲۲۰ میلیون پروتئین را رونمایی کرد، تقریباً تمام پروتئین‌های موجودات شناخته‌شده موجود در پایگاه‌های داده DNA را پوشش می‌داد. اکنون، غول فناوری دیگری در حال پرکردن ماده تاریک جهان پروتئینی ما است.

پژوهشگران متا یا فیسبوک سابق که دفتر مرکزی آن در منلو پارک کالیفرنیا قرار دارد، از هوش مصنوعی (AI) برای پیش‌بینی ساختار حدود ۶۰۰ میلیون پروتئین از باکتری‌ها و ویروس‌ها و میکروب‌هایی دیگری استفاده کرده‌اند که به‌خوبی شناسایی نشده‌اند. الکساندر ریوس، سرپرست تحقیقاتی تیم پروتئین آزمایشگاه هوش مصنوعی متا (Meta AI) می‌گوید:

این‌ها ساختارهایی هستند که درباره‌ی آن‌ها زیاد نمی‌دانیم و پروتئین‌های اسرارآمیز و ناشناخته‌ای هستند که فکر می‌کنم می‌توانند بینش‌های عظیمی را درزمینه‌ی زیست‌شناسی ارائه دهند.

پژوهشگران متا پیش‌بینی‌های خود را با استفاده از مدل زبانی بزرگ تولید کردند. مدل زبانی بزرگ نوعی هوش مصنوعی است که اساس ابزارهایی است که می‌توانند از روی چند حرف یا کلمه، متن را پیش‌بینی کنند.

معمولاً مدل‌های زبانی با استفاده از حجم بزرگی از متن آموزش داده می‌شوند. ریوس و همکارانش برای اینکه مدل‌های مذکور را روی پروتئین‌ها به‌کار ببرند، توالی‌هایی از پروتئین‌های شناخته‌شده را به‌عنوان ورودی وارد مدل کردند. پروتئین‌ها را می‌توان با زنجیره‌هایی از ۲۰ اسیدآمینه مختلف نشان داد که هر اسیدآمینه با یک حرف نشان داده می‌شود. سپس، شبکه یاد گرفت پروتئین‌هایی که بخشی از اسیدآمینه‌های آن‌ها پنهان بود، به‌طورخودکار تکمیل کند.

مرحله دوم با الهام از ساختارهای پروتئینی آلفا فولد دیپ‌مایند چنین بینشی را با اطلاعاتی درباره روابط میان ساختارهای پروتئینی و توالی‌های شناخته‌شده ترکیب می‌کند تا براساس توالی‌های پروتئینی ساختارهای آن‌ها را پیش بینی کند.

شبکه متا که ای‌اس‌ام فولد (ESMFold) نامیده می‌شود، به‌اندازه‌ی آلفافولد دقیق نیست؛ اما در پیش‌بینی ساختارها ۶۰ برابر سریع‌تر است که به‌گفته ریوس، بدان‌معنا است که می‌توانیم از این رویه‌ی پیش‌بینی ساختار در پایگاه‌های داده بسیار بزرگ‌تر استفاده کنیم.

پژوهشگران تصمیم گرفتند تا مدل خود را روی پایگاه داده‌ی بزرگی از DNA متاژنومیک آزمایش کنند که از منابع محیطی ازجمله خاک، آب دریا، روده انسان، پوست و دیگر زیستگاه‌های میکروبی جمع‌آوری شده است. بیشتر ورودی‌های DNA از موجوداتی می‌آیند که در محیط آزمایشگاه هرگز کشت نشده و برای علم ناشناخته‌اند.

درمجموع، تیم متا ساختار بیش از ۶۱۷ میلیون پروتئین را پیش‌بینی کرد. این تلاش دو هفته طول کشید (هر پیش‌بینی واحد آلفافولد چند دقیقه زمان می‌برد). پیش‌‌بینی‌ها و کد استفاده‌شده برای ایجاد مدل به‌رایگان دردسترس همه قرار دارد.

طبق محاسبات مدل، بیش از یک‌سوم این ۶۱۷ میلیون پیش‌بینی کیفیت چشمگیری داشتند؛ به‌طوری‌که پژوهشگران می‌توانند مطمئن باشند که شکل کلی پروتئین درست است و در مواردی می‌توانند جزئیات دقیق‌تری را در سطح اتمی نیز تشخیص دهند.

میلیون‌ها مورد از این ساختارها کاملاً جدید هستند و شبیه ساختارهای موجود در پایگاه داده ساختارهای پروتئینی است که به‌طورتجربی تعیین شده یا در پایگاه آلفافولد از پیش‌بینی‌های موجودات شناخته‌شده نیستند.

مارتین اشتاینگر، زیست‌شناس محاسباتی در دانشگاه ملی سئول، می‌گوید بخش نسبتاً زیادی از پایگاه داده آلفافولد از ساختارهایی تشکیل شده است که تقریباً شبیه هم هستند و پایگاه داده متاژنومیک باید بخش بزرگی از جهان پروتئینی ناشناخته را پوشش دهد. به‌گفته او، اکنون فرصت بزرگی برای کشف ناشناخته‌ها است.

سرگئی اووچینیکوف، زیست‌شناس تکاملی در دانشگاه کمبریج ماساچوست، درباره صدها میلیون پیش‌بینی که ESMFold با اطمینان اندکی تولید کرده، کنجکاو است. برخی ممکن است حداقل جداگانه فاقد ساختار تعریف‌شده باشند؛ درحالی‌‌که دیگر ممکن است DNA غیرکدکننده را به‌عنوان توالی کدکننده پروتئین اشتباه گرفته باشند.

بورکهارد روست، زیست‌شناس محاسباتی در دانشگاه فنی مونیخ در آلمان، تحت‌تأثیر ترکیب سرعت و دقت مدل متا قرار گرفته است. او این سؤال را مطرح می‌کند که پیش‌بینی‌های مدل جدید درمقایسه‌با پیش‌بینی‌های دقیق آلفافولد چه مزیتی دارد.

روش‌های پیش‌بینی مبتنی‌بر مدل زبانی برای تعیین سریع اینکه جهش‌ها چگونه ساختار پروتئین را تغییر می‌دهند، بهتر عمل می‌کنند؛ اما آلفافولد توانایی آن را ندارد. روست می‌گوید: «شاهد این خواهیم بود که پیش‌بینی‌ها ساده‌تر و ارزان‌تر می‌شوند و این دریچه‌ای رو به اکتشافات جدید باز خواهد کرد.»

به‌گفته‌ یکی از نمایندگان شرکت، دیپ‌مایند درحال‌حاضر قصد ندارد پیش‌بینی‌های متاژنومیک را در پایگاه داده خود بگنجاند؛ اما اشتاینگر و همکارانش از نسخه‌ای از آلفافولد برای پیش‌بینی ساختار حدود ۳۰ میلیون پروتئین متاژنومیک استفاده کرده‌اند. آن‌ها امیدوار‌‌ند با جست‌وجوی اشکال جدیدی از آنزیم‌های کپی‌کننده ژنوم، RNA ویروس‌های جدیدی را پیدا کنند. اشتاینگر کشف ماده تاریک زیست‌شناسی را به‌عنوان گام آشکار بعدی چنین ابزارهایی می‌داند. او می‌گوید: «فکر می‌کنم به‌زودی شاهد انفجاری در تجزیه‌و‌تحلیل این ساختارهای متاژنومیک خواهیم بود.»

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات