D1-lg

مدل چندحسی متا، آینده جذاب هوش مصنوعی مولد را برای ترکیب داده‌های مختلف نشان می‌دهد

چهارشنبه 20 اردیبهشت 1402 - 08:00
مطالعه 3 دقیقه
لوگو متا | Meta Logo
مدل هوش مصنوعی ImageBind متا، داده‌های متنی، صوتی، تصویری، حرکتی، حرارتی و عمقی را ترکیب می‌کند و آینده‌ی مدل‌های تولید محتوای چندحسی را نشان می‌دهد.
تبلیغات
D4-mcid4

مدل هوش مصنوعی منبع‌باز جدید متا چند نوع داده ازجمله متن، صوت، تصویر، دما و غیره را باهم ترکیب می‌کند.

مدل ImageBind درحال حاضر فقط یک پروژه‌ی تحقیقاتی محسوب می‌شود و کاربرد عملی خاصی برای آن تعریف نشده است. این مدل به آینده‌ی سیستم‌های هوش مصنوعی مولد اشاره دارد که می‌توانند تجربه‌ای همه‌جانبه و چندحسی ایجاد کنند.

مفهوم اصلی ImageBind، ایجاد پیوند میان چندنوع داده‌ی مختلف است. شاید این ایده کمی انتزاعی به‌نظر برسد اما می‌تواند به‌عنوان زیربنای هوش مصنوعی مولد درنظر گرفته شود.

به‌عنوان مثال، ابزارهای هوش مصنوعی تولیدکننده‌ی تصویر ازجمله Stable Diffusion، DALL-E و میدجورنی همگی به سیستم‌هایی متکی هستند که متن و تصویر را با یکدیگر ترکیب می‌کنند. این مدل‌ها در داده‌های تصویری به‌دنبال الگوهای خاص هستند و اطلاعات به‌دست آمده را با توضیحات تصاویر مرتبط می‌کنند. چنین قابلیتی باعث می‌شود سیستم‌های هوش مصنوعی مولد، تصاویری تولید کنند که با ورودی متنی مطابقت دارند. همین ویژگی در بسیاری از ابزارهای هوش مصنوعی که ویدیو یا صدا تولید می‌کنند نیز وجود دارد.

مدل هوش مصنوعی منبع باز ImageBind متا

متا می‌گوید ImageBind اولین مدلی است که ۶ نوع داده را با یکدیگر ترکیب می‌کند. این داده‌ها شامل تصویر، اطلاعات حرارتی (تصاویر مادون‌قرمز)، متن، صوت، اطلاعات عمقی و خوانش‌های حرکتی ایجاد شده با واحد اندازه‌گیری اینرسی یا IMU است. IMUها در گوشی‌ها و ساعت‌های هوشمند برای طیف گسترده‌از کارها مثل شناسایی حالت افقی و عمومی نمایشگر مورد استفاده قرار می‌گیرند.

ایده‌ی متا این است که سیستم‌های هوش مصنوعی آینده بتوانند داده‌های مختلف را به‌همان روشی که سیستم‌های هوش مصنوعی کنونی برای ورودی متن انجام می‌دهند، ترکیب کنند. به‌عنوان مثال دستگاه واقعیت مجازی آینده‌نگرانه‌ای را تصور کنید که علاوه‌بر ورودی صوتی و بصری، محیط و نوع حرکت شما را در صحنه‌ی فیزیکی می‌سازد. شاید از مدل مورد اشاره بخواهید سفر دریایی طولانی‌مدتی را ایجاد کند و بدین‌ترتیب صحنه‌ای شامل کشتی و دریا به‌همراه صدای امواج در پس‌زمینه ایجاد خواهد شد و تکان خوردن عرشه را درکنار نسیم خنک هوای اقیانوس ارائه می‌دهد.

متا با انتشار پستی وبلاگی اشاره کرد می‌توان جریان‌های ورودی حسی دیگری مثل سیگنال‌های لمس، گفتار، بو و حتی fMRI مغز را به مدل‌های آینده اضافه کرد. این شرکت می‌گوید مدل هوش مصنوعی ImageBind و نسخه‌های آینده‌ی آن، توانایی یادگیری فناوری را به سطح توانایی انسان نزدیک‌تر می‌کند.

ورج می‌نویسد، قابلیت‌های آینده‌ی مدل‌های هوش مصنوعی چندحسی فعلاً درحد حدس‌وگمان است و شاید کاربردهای تحقیقاتی آن بسیار محدودتر باشد. متا سال گذشته مدل هوش مصنوعی جدیدی به‌نمایش گذاشت که با دریافت توضیحات متنی، ویدیو تولید می‌کرد. مدل‌هایی مثل ImageBind نشان می‌دهند نسخه‌های آینده‌ی این سیستم چگونه می‌تواند جریان‌های مختلف داده مثل صدا و تصویر را برای تولید ویدیوهای بهتر و با کیفیت‌تر، ترکیب کند.

یکی دیگر از جذابیت‌های ImageBind، منبع‌باز بودن این مدل هوش مصنوعی است که باعث می‌شود افراد بیشتری آن را مورد بررسی قرار دهند و ازطرفی به بهبود آن کمک کنند.

شرکت‌هایی مثل‌ ‌OpenAI اعتقاد دارند منبع‌باز کردن مدل‌های هوش مصنوعی برای سازندگان این سیستم‌ها مضر است زیرا رقبا می‌توانند از مدل‌های آن‌ها کپی‌برداری کنند. ازطرف دیگر مهاجمان سایبری می‌توانند از مدل‌های هوش مصنوعی منبع‌باز برای مقاصد شوم خود بهره ببرند. البته در سمت مقابل برخی اعتقاد دارند منبع‌باز بودن مدل‌ها باعث می‌شود افراد و شرکت‌های مختلف نسبت‌به رفع عیب و بهبود قابلیت‌های چنین سیستم‌هایی اقدام کنند. علاوه‌براین شرکت‌ها با منبع‌باز کردن مدل‌های هوش مصنوعی، به‌طور رایگان از تلاش‌های توسعه‌دهندگان شخص‌ثالث بهره خواهند برد و بدین‌ترتیب در هزینه‌های خود صرفه‌جویی خواهند کرد.

متا تا کنون برخی مدل‌های هوش مصنوعی خود ازجمله LLaMA را به‌صورت منبع‌بار ارائه داده است و این روند با ImageBind همچنان ادامه دارد.

مقاله رو دوست داشتی؟
نظرت چیه؟

داغ‌ترین مطالب روز
 دانلود ریلز اینستاگرام
راهنمای انتخاب بهترین دانلودر اینستاگرام؛ از استوری و ریلز تا پست

اگر از محتوای جذاب اینستاگرام لذت می‌برید و می‌خواهید آن‌ را همیشه همراه داشته باشید، دانلود دانلودر اینستا راه‌حلی سریع و ساده برای ذخیره آن‌ است.

11
1 روز قبل
بهترین لپ تاپ های گیمینگ سال ۲۰۲۴
بهترین لپ تاپ گیمینگ بازار؛ از سری TUF تا تایتان [تابستان ۱۴۰۴]

در این مقاله بهترین لپ‌تاپ‌های گیمینگ موجود در بازار ایران را معرفی خواهیم کرد.

428
1 روز قبل
بهترین ساعت های هوشمند سامسونگ
بهترین ساعت هوشمند سامسونگ [تابستان ۱۴۰۴]

اگر قصد خرید یکی از ساعت‌های هوشمند سامسونگ را دارید، در این مقاله با بهترین مدل‌های موجود در بازار و قابلیت‌های هرکدام آشنا خواهید شد.

50
حدود 11 ساعت قبل
پاوربانک شیائومی در رنگ مشکی
پاوربانک فوق باریک جدید شیائومی، بسیار ارزان و پرسرعت است

جدیدترین پاوربانک شیائومی همراه با کابل شارژ متصل به بدنه از راه رسید.

26
1 روز قبل
جمعیت مردم ژاپن
پدیده‌ مرموز جوهاستو؛ چرا سالانه ۸۰ هزار ژاپنی‌ ناپدید می‌شوند؟

جوهاستو پدیده‌ای عجیب و مرموز است که به ناپدیدشدن سالانه ۸۰ هزار ژاپنی منجر می‌شود.

76
1 روز قبل
بهترین ماوس گیمینگ
بهترین موس گیمینگ بازار [بهار و تابستان ۱۴۰۴]

بعد از سرهم‌بندی یک سیستم گیمینگ حرفه‌ای، وقت انتخاب ماوسی است که دستورات شما را به‌سرعت اجرا کند. در ادامه بهترین ماوس‌های گیمینگ را معرفی کرده‌ایم

55
1 روز قبل
پیکسل ۱۰ پرو فولد
گوگل با گوشی جدیدش کاری کرد که حتی سامسونگ هم در دست‌یابی به آن ناموفق بود

گوگل در نسل جدید گوشی تاشدنی خود توانست محدودیتی را از میان بردارد که از سال‌ها قبل یکی از بزرگ‌ترین چالش‌های این محصولات بوده است.

70
1 روز قبل
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات