لوگو اپل در کنار ربات

برنامه‌های اسرارآمیز هوش مصنوعی اپل؛ از سیری هوشمندتر تا پروژه Ferret

دوشنبه ۱۴ خرداد ۱۴۰۳ - ۱۳:۳۰مطالعه 10 دقیقه
اپل درباره‌ی برنامه‌های هوش مصنوعی خود زیاد حرف نمی‌زند، اما شواهد نشان می‌دهد برای ورود قدرتمند به این عرصه‌ کاملاً آماده است.
تبلیغات

اپل دیر وارد بازی هوش مصنوعی شد؛ این را همه می‌دانند. طرفداران این شرکت از اواخر سال ۲۰۲۲ که چت‌جی‌پی‌تی طوفانی در جهان فناوری به پا کرد، چشم‌انتظار ورود اپل به این عرصه بوده‌اند، اما تاکنون حرکتی جدی از سوی اپل دیده نشده است.

برخی از رقبا نیز که نگران عقب‌ماندن از این جریان بودند، بلافاصله محصولاتی را با پسوند هوش مصنوعی عرضه کردند که اکثراً مورد استقبال کاربران قرار نگرفتند. اپل نیز مطمئناً به این حوزه علاقه‌مند است و برخی از محصولات جدیدش ازجمله اپلیکیشن لاجیک پرو را با درنظر گرفتن این فناوری عرضه کرده، اما این قدم‌ها در مقایسه با مایکروسافت، گوگل و حتی سامسونگ بسیار کوچک به‌نظر می‌رسند.

اپل در حال مذاکره با OpenAI و گوگل است تا ویژگی‌های هوش مصنوعی خود را تقویت کند

بااین‌حال، در ماه‌های اخیر شایعات و گزارش‌هایی منتشر شده که نشان می‌دهند اپل از مدت‌ها پیش پا در مسیر هوش مصنوعی گذاشته و فقط منتظر بهترین فرصت برای عرضه‌ی نهایی محصول جدیدش بوده است. اپل مشغول کار روی مدل زبانی خود به‌نام Ajax بوده، اما احتمالاً همچنان چت‌بات هوش مصنوعی اختصاصی خود را برای معرفی در رویداد WWDC امسال ندارد.

از طرفی، به نظر می‌رسد اپل با OpenAI بر سر ادغام ChatGPT در iOS 18، به توافق رسیده است؛ اگرچه به گفته‌ی بلومبرگ، اپل بیشتر تمایل دارد با گوگل درباره‌ی ارائه‌ی دستیار هوش مصنوعی جمنای در آیفون به توافق برسد.

ابزارهای کدنویسی هوش مصنوعی اپل

ورج برای پی بردن به برنامه‌های اسرارآمیز هوش مصنوعی اپل، نگاه عمیقی به تحقیقات منتشرشده‌ی این شرکت انداخته است که در ادامه آن‌ها را با هم مرور می‌کنیم. البته بدیهی‌ است که از پژوهش تا تولید محصول راه پرپیچ‌وخمی در پیش است و نمی‌توان صرفاً با تمرکز به مقالات پژوهشی درباره‌ی محصولات نهایی این شرکت صحبت کرد؛ اما می‌توان دست‌کم درباره‌ی مدل فکری اپل به نتیجه‌ای رسید.

هوش مصنوعی در راه آیفون؛ هرآنچه از مراسم بزرگ WWDC 2024 اپل انتظار داریم
هوش مصنوعی در راه آیفون؛ هرآنچه از مراسم بزرگ WWDC 2024 اپل انتظار داریم
مطالعه '6

البته چیزی تا WWDC نمانده است و آنجا پرده از برخی از برنامه‌های مخفی هوش مصنوعی اپل برداشته خواهد شد.

اپل به‌دنبال مدل‌های هوش مصنوعی کوچک‌تر و کارآمدتر

به نظر می‌رسد کاربران اپل همگی منتظر نسخه‌ای بهبودیافته‌ی سیری هستند و ظاهراً اپل هم دارد سیری بهتری را آماده می‌کند. در بسیاری از تحقیقات ثابت شده است که مدل‌ های زبانی بزرگ (LLM)، باعث پیشرفت و هوشمندتر شدن دستیارهای مجازی می‌شوند. بنابراین اپل برای ارائه‌ی نسخه‌ی هوشمندتر سیری، باید تاکنون مدل‌ زبانی بزرگ خود را توسعه داده باشد و به‌زودی دسترسی به آن را از طریق تمام دستگاه‌هایش ممکن کند.

اپل در iOS 18 قصد دارد تمام ویژگی‌های هوش مصنوعی خود را به‌صورت کاملاً آفلاین اجرا کند

بلومبرگ اخیراً گزارش داده است که اپل در iOS 18 قصد دارد تمام ویژگی‌های هوش مصنوعی خود را به‌صورت کاملاً آفلاین اجرا کند! ساختن یک مدل زبانی چندمنظوره‌ی خوب‌، حتی با کمک شبکه‌ای از مراکز داده و هزاران پردازنده‌ی گرافیکی پیشرفته نیز سخت است، چه برسد به انجام آن تنها با پردازنده‌ی داخل گوشی موبایل. اگر این گزارش صحیح باشد، باید منتظر خلاقیتی جسورانه از سوی کوپرتینونشین‌ها باشیم.

در مقاله‌ای با عنوان «LLM در یک نگاه: استنتاج مدل زبانی بزرگ کارآمد با حافظه‌ی محدود»، محققان اپل سیستمی برای ذخیره‌ی داده‌های یک مدل زبانی ابداع کردند که برخلاف مدل‌های دیگر، به‌جای ذخیره‌ی داده‌ها در رم دستگاه، آن‌ها را در SSD ذخیره می‌کند. این محققان اعلام کردند که توانسته‌اند LLM-هایی با اندازه‌ی دو برابر ظرفیت کل رم دستگاه را روی SSD اجرا کنند. به‌گفته‌ی آن‌ها «سرعت استخراج داده در مدلی که روی SSD قرار دارد، ۴ تا ۵ برابر بیشتر از روش‌های سنتی بارگذاری در CPU و ۲۰ الی ۲۵ برابر بیشتر از GPU در مدل‌های قرارگرفته در رم است. بدین‌ترتیب با استفاده از ارزان‌ترین و در دسترس‌ترین فضای ذخیره‌سازی دستگاه، می‌توان مدل‌های زبانی را سریع‌تر و کارآمدتر از قبل کرد.

محققان اپل نیز سیستم فشرده‌سازی جدیدی به نام EELBERT ساخته‌اند که می‌تواند یک LLM را تا اندازه‌ای بسیار کوچک فشرده کند، بدون اینکه عملکرد آن تضعیف شود. این مدل فشرده تنها ۱٫۲ مگابایت حجم دارد و ۱۵ برابر کوچک‌تر از مدل Bert گوگل است، اما کیفیت نتایج آن پس از فشرده‌سازی تنها ۴ درصد افت می‌کند. البته دریافت و تحویل اطلاعات در این مدل گاهی با تأخیر همراه است.

اپل در تلاش است مدل زبانی‌اش تعادل مناسبی میان دقت نتایج و مصرف منابع برقرار کند

اپل در حال تلاش برای حل یک معضل بزرگ در دنیای مدل‌های زبانی است. هرچند با بزرگ‌تر شدن مدل زبانی، دقت آن هم بالاتر می‌رود و مفیدتر می‌شود، اما ساخت آن دشوارتر، انرژی مصرفی آن بیشتر و زمان پاسخدهی آن هم طولانی‌تر خواهد شد. کوپرتینونشین‌ها مانند بسیاری دیگر از شرکت‌ها در تلاش‌اند تا نقطه‌ی تعادلی را بین تمام این عوامل پیدا کنند؛ نقطه‌ای که با وجود کسب نتایج دقیق، به هدر دادن منابع زیادی منجر نشود.

شاید همان «سیری»، اما هوشمندتر از قبل

بسیاری از چیزهایی که در ذهن کاربران است و به‌عنوان هوش مصنوعی از آن یاد می‌کنند، در واقع همان مفهوم دستیار مجازی است؛ دستیارانی همیشه‌آماده که خیلی چیزها را می‌دانند، می‌توانند امور مهم را به ما یادآوری کنند، به سؤالاتمان پاسخ دهند و برخی کارها را به‌جای ما انجام دهند. سیری می‌تواند اغلب این وظایف را با دقت قابل‌ قبولی انجام دهد؛ پس منطقی است که اپل به دنبال بهبود مهارت‌های دستیار مجازی خود تا بالاترین حد ممکن باشد.

اپل سیری

گروهی از محققان اپل مشغول تلاش برای فعال‌سازی سیری بدون نیاز به استفاده از عبارت‌های مخصوص فراخوانی آن هستند. در حال حاضر برای فراخوانی سیری حتماً باید عبارت «Hey Siri» یا «Siri» را بر زبان بیاورید. اگر این دستیار مجازی بتواند بدون نیاز به این عبارات تشخیص دهد که دارید با او صحبت می‌کنید یا با فردی دیگر، عملکرد آن بسیار طبیعی‌تر خواهد شد.

اپل احتمالاً می‌خواهد عبارت فراخوانی را برای فعال‌کردن سیری حذف کند

محققان اپل می‌گویند حل این مشکل بسیار دشوارتر از تشخیص عبارت فراخوانی است، چرا که در صورت حذف عبارت فراخوانی، سیری باید بسیاری از جملات کاربر را که لحنی عادی دارند اما در حقیقت خطاب به دستیار مجازی بازگو می‌شوند، شناسایی کند. شاید به همین دلیل است که گروه دیگری از محققان ترجیح داده‌اند سیستمی را برای تشخیص دقیق‌تر عبارت‌های فراخوانی ایجاد کنند. در مقاله‌ای دیگر، محققان مدلی را آموزش دادند تا کلمات نادری را که معمولاً دستیارهای مجازی به درستی درک نمی‌کنند، به خوبی بفهمد.

جذابیت مدل‌های زبانی مورد بحث در این است که می‌توانند نسبت به رقبا، اطلاعات بسیار بیشتری را با سرعت بالاتر پردازش کنند. مثلاً در مقاله‌ی مربوط به عبارت فراخوانی، محققان دریافتند که با حذف نکردن دیتای صداهای غیرضروری و اجازه دادن به مدل زبانی برای شنیدن تمام اصوات محیط، به آن کمک می‌کنند تا خودش اطلاعات مهم و غیرمهم را از هم تفکیک کند و دقتش در تشخیص عبارت فراخوانی بسیار بیشتر از قبل شود.

وقتی کاربران سیری را صدا می‌زنند، کارهای زیادی در پس‌زمینه انجام می‌شود تا این دستیار صوتی سخنانشان را بفهمد و بهتر با آن‌ها ارتباط برقرار کند. در یک مقاله‌ی دیگر، محققان سیستمی به نام STEER (مخفف تشخیص بسط و توسعه‌ی چرخش معنایی) ایجاد کردند که هدف آن بهبود پیام‌های ردوبدل‌شده میان کاربر و دستیار مجازی و ارتقای توانایی تشخیص دستیار بود تا بفهمد چه زمانی دارید سؤالاتی در تکمیل همان بحث قبلی می‌پرسید و چه زمانی در حال پرسیدن سؤالی جدید هستید.

نوشته‌های سیری روی صفحه‌ی آیفون
تصویری از قابلیت‌هایی راهنمایی و پاسخ‌دهی که نسخه‌ی پیشرفته‌ی سیری می‌تواند داشته باشد

در مقاله‌ای دیگر، محققان از LLM برای درک بهتر «درخواست‌های مبهم» استفاده کردند تا دستیار مجازی را آموزش دهند که صرف‌نظر از نحوه‌ی بیان کاربر، بتواند متوجه منظور او بشود. آن‌ها در مورد نتیجه‌ی پژوهش خود گفتند: «در چنین شرایطی، ممکن است دستیارهای هوشمند نیاز به ابتکار عمل و پرسیدن سؤالات تکمیلی خوب از کاربر داشته باشند تا تردید خود را کاهش دهند و مشکلات را به نحو مؤثرتری حل کنند.» هدف یک مقاله‌ی مشابه دیگر نیز کمک به حل این موضوع است و محققان آن از LLMها استفاده کرده‌اند تا کاری کنند که دستیارهای مجازی هنگام پرسیدن سؤالات تکمیلی مدنظر خودشان کمتر حرافی کنند و سؤالاتشان قابل درک‌تر شود.

هوش مصنوعی؛ از سلامتی تا ویرایش تصاویر و خلق میموجی‌ها

اپل هر زمان که به‌طور علنی در مورد هوش مصنوعی صحبت می‌کند، کمتر تمایل به تمرکز بر قدرت محاسباتی خام این فناوری دارد و بیشتر سعی می‌کند کاربرد آن در تسهیل امور روزمره را برای کاربران پررنگ کند.

کوپرتینونشین‌ها در حال حاضر تمرکز خود را روی سیری گذاشته‌اند تا از دستگاه‌هایی مانند Humane AI Pin و Rabbit R1 عقب نیفتد، اما برنامه‌هایی نیز برای رقابت با هوش مصنوعی جمنای دارد که به‌تدریج به تمام سرویس‌های گوگل راه پیدا می‌کند. البته اپل معتقد است که هوش مصنوعی کاربرد‌های مفید دیگری هم دارد.

یکی از بخش‌هایی که اپل واضحاً روی آن تمرکز کرده، حوزه‌ی سلامتی است. LLM‌ها دست‌کم روی کاغذ می‌توانند به عبور از اقیانوس داده‌های سلامتی جمع‌آوری‌شده توسط ابزارهای مختلف کاربر و تفسیر آن‌ها کمک کنند. این غول فناوری در مورد نحوه‌ی جمع‌آوری داده‌های حرکتی، چگونگی استفاده از شیوه‌ی راه رفتن و طرز قرارگیری هدفون در گوش برای شناسایی کاربر و نحوه‌ی ردیابی و تفسیر داده‌های ضربان قلب او تحقیق کرده است. اپل پس از جمع‌آوری داده‌های ۵۰ فرد که هرکدام چندین حسگر به بدنشان متصل شده بود، «بزرگ‌ترین مجموعه داده‌های فعالیت انسانی مبتنی بر حسگرهای چندمکانی چند دستگاهی» را تولید و منتشر کرد.

به نظر می‌رسد کوپرتینونشین‌ها به هوش مصنوعی به چشم ابزاری برای خلاقیت نگاه می‌کنند. در یک مقاله، محققان با گروهی از انیماتورها، طراحان و مهندسان مصاحبه کردند و سپس سیستمی به نام Keyframer ساختند که کاربران را قادر می‌سازد تصاویر تولید‌شده توسط هوش مصنوعی را قدم به قدم ویرایش کنند. در واقع به‌جای اینکه با هر بار درخواست، یک تصویر دریافت کنید و سپس متن درخواست را تغییر دهید تا تصویر متفاوتی دریافت کنید، کافی است با استفاده از جعبه‌ابزاری که در اختیارتان قرار می‌گیرد، شروع به ویرایش تصویر کنید و قسمت‌های دلخواه خود را تغییر دهید! این فرایند هنری قدم به قدم می‌تواند تغییرات عمیقی را در سرتاسر اکوسیستم اپل از خلق میموجی گرفته تا ابزارهای هنری حرفه‌ای‌تر به ارمغان آورد.

در مقاله‌ای دیگر، اپل ابزاری به نام MGIE را توصیف کرده است که به کاربر امکان می‌دهد تصویر مدنظرش را تنها با توصیف ویرایش‌هایی که می‌خواهد بر روی آن اعمال شود، اصلاح کند. مثلاً تنها کافی است بگویید: «آسمان را آبی‌تر کن»، «صورتم را کمتر تغییر بده» یا «چندتا سنگ روی زمین اضافه کن». اپل با MGIE قصد دارد هوش مصنوعی را نسبت به محتوای تصویر آگاه کند و آن را در اختیار کاربر بگذارد تا ویرایش تصاویر به شیوه‌ی معقول‌تری انجام شود. محققان می‌گویند آزمایش‌های اولیه‌ی این ابزار با وجود بی‌نقص نبودن، بسیار چشم‌گیر بوده‌اند.

تصاویر ویرایش شده توسط چند هوش مصنوعی
به‌زودی ویرایش تصاویر صرفاً با درخواست از هوش مصنوعی ممکن می‌شود

کوپرتینونشین‌ها حتی ممکن است هوش مصنوعی را به اپل موزیک بیاورند. محققان در مقاله‌ای با عنوان «حذف صدای آواز استریو با استفاده از منابع محدود»، به بررسی راه‌هایی برای جداسازی صدای خواننده از صدای سازهای موجود در آهنگ‌ها پرداخته‌اند. چنین قابلیتی می‌تواند بسیار مفید باشد و کاربران می‌توانند با استفاده از آن، آهنگ‌های دلخواه خود را برای استفاده در اینستاگرام و تیک‌تاک ریمیکس کنند. به نظر می‌رسد که چنین کاربردهای مفید، غیرتخصصی و ساده‌ای، همان کاربردهایی از هوش مصنوعی باشند که اپل می‌خواهد در نهایت در اپلیکیشن‌های مختلفش به عموم کاربران به‌ویژه در سیستم‌عامل iOS ارائه کند.

اپل ممکن است هوش مصنوعی مشابه لاجیک پرو را به اپل موزیک نیز بیاورد

برخی از قابلیت‌های هوش مصنوعی فوق نیز به‌عنوان API در اختیار توسعه‌دهندگان دیگر قرار خواهد گرفت. ویژگی اخیر Journaling Suggestions دید خوبی در مورد نحوه‌ی کارکرد این API-ها به ما می‌دهد. اپل همیشه از قابلیت‌های سخت‌افزاری خود به‌ویژه در مقایسه با دستگاه‌های اندرویدی سخن گفته است. قرار دادن این برتری‌های سخت‌افزاری در کنار یک هوش مصنوعی متمایز و متمرکز بر حریم خصوصی می‌تواند تبدیل به برگ برنده‌ی این غول فناوری شود.

اما اگر بخواهیم به بزرگ‌ترین و جاه‌طلبانه‌ترین پروژه‌ی هوش مصنوعی اپل بپردازیم، باید ابتدا Ferret را معرفی کنیم. Ferret یک LLM چندوجهی است که می‌تواند روی چیز خاصی که در تصاویر دورش خط کشیده‌اید یا به نحو دیگری انتخاب کرده‌اید، تمرکز کند و دنیای اطراف آن را درک کند.

در حال حاضر معمولاً کاربران چیزی را به هوش مصنوعی می‌گویند و در مورد آن سؤالاتی می‌پرسند، اما Ferret با این هدف طراحی شده که بتواند آنچه را که روی صفحه‌نمایش دستگاه است، بررسی و درک کند.

Ferret بزرگ‌ترین و جاه‌طلبانه‌ترین پروژه‌ی هوش مصنوعی اپل است

محققان پروژه‌ی Ferret در مقاله‌‌ی خود می‌گویند این هوش مصنوعی می‌تواند در پیمایش برنامه‌های مختلف به کاربر کمک کند، به سؤالات مربوط به رتبه‌بندی برنامه‌ها در اپ‌استور پاسخ دهد و هرآنچه را که روی صفحه قرار دارد، توصیف کند. این فناوری علاوه‌بر کمک به افراد با ناتوانی‌های جسمی، می‌تواند شیوه‌ی استفاده‌ی سایر کاربران از تلفن همراه، هدست‌ها و عینک‌های هوشمند را به کلی تغییر دهد.

البته تا زمان رونمایی از قابلیت‌های هوش مصنوعی اپل، هر سناریویی که بیان شود نقش گمانه‌زنی خواهد داشت، اما می‌توان حدس زد که عملکرد این هوش مصنوعی در ارتباط با سایر سرویس‌های اپل چگونه خواهد بود؛ سیری تقویت‌شده با هوش مصنوعی که می‌تواند به همه‌چیز پاسخ دهد و با دستگاهی جفت می‌شود که می‌تواند هر چیزی را که روی صفحه‌‌نمایش می‌بیند، درک کند و توضیح دهد. اپل خودش سازنده‌ی سیستم‌عامل و طراح سخت‌افزار دستگاه‌هایش محسوب می‌شود و نیازی به تلاش برای یکپارچگی عمیق ندارد. کافی است برنامه‌ها را اجرا کند و به‌طور خودکار دکمه‌ها و گزینه‌هایی درست را فعال کند.

تمام حدسیات بالا مبتنی‌بر پژوهش‌های اخیر اپل است و بعید به نظر می‌رسد که همین امسال شاهد رونمایی یکباره‌ی تمام این پیشرفت‌ها باشیم. برخی از این موارد شاید اصلاً عملی نشوند؛ اما شکی نیست که هرآنچه که قرار است در WWDC امسال شاهد آن باشیم، ارتباط تنگاتنگ و هیجان‌انگیزی با هوش مصنوعی دارد. تیم کوک، مدیرعامل اپل ۳ ماه پیش اشاره‌هایی به این موضوع داشت و در آخرین سخنانش در ماه اخیر بر اهمیت هوش مصنوعی تأکید کرد.

کاملاً واضح است که اپل عزم خود را جزم کرده تا حضور قدرتمندی در رقابت هوش مصنوعی داشته باشد؛ حضوری که ممکن است به‌زودی موجب بازنگری عظیمی در ماهیت کلی آیفون شود. اما حتی اگر چنین اتفاقی هم نیفتد، کمترین دستاورد ورود جدی‌تر اپل به عرصه‌ی هوش مصنوعی می‌تواند آشتی‌دادن کاربران با دستیار هوشمند سیری باشد که به‌خودی‌خود دستاورد بزرگی برای کوپرتینونشین‌ها خواهد بود.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات