چگونه صدا محاسبات کامپیوتری را متحول می‌کند

در این مقاله به تکنولوژی‌های مربوط به فناوری صوتی می‌پردازیم و اینکه چگونه فرامین صوتی، دنیای محاسبات کامپیوتری را متحول خواهند کرد.

آرتور سی. کلارک نویسنده بریتانیایی داستان‌های علمی-تخیلی می‌‌گوید: «هر فناوری پیشرفته‌ای، غیر قابل تشخیص از سحر و جادو است» و تکنولوژی‌های در حال ظهورِ مبتنی بر صوت، صحت این گفته را اثبات می‌کنند، تکنولوژی‌هایی که داده‌های ورودی آن‌ها فقط هجی کردن کلمات است؛ چند واژه می‌گویید و نزدیک‌ترین دستگاه آرزوی شما را برآورده می‌کند.

Echo نام محصولی از شرکت آمازون، یک اسپیکر هوشمند استوانه‌ای است که بر اساس دستیار صوتی الکسا کنترل می‌شود و امکاناتی مانند اطلاعات مربوط به موسیقی، اخبار، آب و هوا، گفتن لطیفه، پاسخ به سؤالات روزمره، کنترل دستگاه‌های هوشمند و هر مورد دیگری را که از آن بخواهید در اختیارتان قرار می‌دهد، حتی اطلاعات به‌دست‌آمده نشان می‌دهند که تا پایان سال ۲۰۱۶، حدود ۴ درصد از خانواده‌های آمریکایی از اکو استفاده می‌کردند.

اکو آمازون

دستیار صوتی بیش ‌از پیش در حال گسترش روی گوشی‌های هوشمند است؛ دستیار صوتی siri، بیش از ۲ میلیارد دستور در هفته اجرا می‌کند و ۲۰ درصد از جستجو‌های گوگل در ایالات متحده، از طریق دستیار صوتی گوشی‌های هوشمند اندروید صورت می‌گیرد.

از طرفی، نگارش ایمیل و پیام‌های متنی با دستیار صوتی بسیار مورد توجه قرار گرفتند؛ خصوصا اینکه در زمان قدم زدن یا دویدن به‌راحتی می‌توانید از قابلیت ارسال پیام با دستیار صوتی بهره‌مند شوید.

siri

استفاده از این فناوری هرچند ساده به نظر می‌رسد اما یک اتفاق بزرگ است. ولی صدا این قدرت را دارد تا تبدیل به محاسبه شود و به یک ابزار طبیعی تعاملی تبدیل شود. شاید توانایی صحبت کردن با کامپیوتر‌ها، نیاز به یک رابط کاربری را از بین ببرد؛ همان‌طور که تلفن‌های همراه پس از تلفن‌های ثابت و ماشین‌ها بعد از کالسکه‌‌ها به وجود آمدند، بنابراین کامپیوتر بدون صفحه نمایش و صفحه کلید، پتانسیل بیشتری دارد تا مورد توجه بیشتر قرار گیرد.

اما صدا کاملا جایگزین تمامی اشکال ورود و خروج داده نخواهد شد. برخی اوقات ممکن است تایپ کردن راحت‌تر از صحبت کردن باشد. اخیرا آمازون اعلام کرده که در حال کار روی دستگاه Echo جهت تعبیه صفحه نمایش است.

یادگیری عمیق چیست؟

کامپیوتر‌های جدید توانایی تشخیص واژه‌های صوتی را به‌صورت دقیق و بدون آموزش دارند که این یکی از قابلیت‌ها بارز «یادگیری عمیق» است، در این روش از طریق تکنیک هوش مصنوعی، یک سیستم نرم‌افزاری آموزش می‌بیند که فرمان‌های صوتی را درک کند. این کار با استفاده از میلیون‌ها مثالی صورت می‌گیرد که در اختیار نرم‌افزار قرار داده شده است .

با بهره‌مندی از تکنیک آموزش عمیق، ماشین‌ها از لحاظ درک کلمات تقریبا با انسان‌ها برابر می‌شوند. اگرچه یادگیری عمیق به این معنی است که ماشین‌ها می‌توانند گفته‌های قابل‌اطمینان‌تر را تشخیص بدهند و با آب‌ و تاب کمتری صحبت کنند، اما آن‌ها هنوز مفاهیم زبانی را درک نمی‌کنند.

کامپیوتر‌ها باید قادر باشند به مکالمات پیچیده و منسجم پاسخ دهند و محدود به کلمات ساده نباشند؛ مانند دستیار صوتی سیری، کورتانا، الکسا و گوگل ناو که فقط یک سری دستورات محدود و مشخص را پاسخ می‌دهند. اما سیستم‌های ترجمه کامپیوتری به‌سرعت در حال بهبود هستند. محققان در دانشگاه‌ها و شرکت‌های بزرگ و کوچک در حال کار روی رفع این مشکل هستند، ساخت ربات‌هایی که می‌تواند مکالمات مفصل‌تر را در مورد کارهای پیچیده مانند بازیابی اطلاعات تا مشاوره در وام‌های مسکن و فراهم آوردن ترتیب یک سفر انجام دهد. اخیرا آمازون برای ساخت رباتی که بتواند به مدت ۲۰ دقیقه به‌صورت منسجم صحبت کند، جایزه یک میلیون دلاری در نظر گرفته است.

cortana

مصرف‌کنندگان و سازندگان نقش مهمی در توسعه محاسبات صوتی، حتی به شکل کاملا ابتدایی آن دارند. سیستم‌های صدا محور زمانی که شخصی‌سازی شوند، بسیار مفیدتر خواهند بود؛ چون زمانی که به نرم‌افزار دسترسی گسترده‌ای به منابع شخصی مانند تقویم‌ها، ایمیل‌ها و دیگر اطلاعات حساس داده شود، نگرانی بابت حفظ حریم خصوصی و امنیت از بین ‌می‌رود. از طرفی بعضی مردم در مورد پیامد‌های میکروفون‌های متصل به اینترنت در گوشی‌های هوشمند نگران هستند. اما این مشکل تا حدودی حل شده است، یعنی تا زمانی که دستیار صوتی فراخوانی نشود، دستورات صوتی هم قابل اجرا نخواهد بود. مثلا برخی دستگاه‌ها منتظر عبارتی هستند تا از آن طریق دستیار صوتی فعال و سپس درخواست کاربر اعمال شود؛ به این منظور، برای دستگاه‌های مجهز به کورتانا عبارت «Hey, Cortana» برای دستگاه‌های مجهز به سیری «Hey, Siri» و به همین ترتیب برای الکسا و گوگل «Alexa» و «OK, google» به کار می‌رود.

اخیرا، پلیس آمریکا به قتلی در آرکانزاس رسیدگی می‌کرد که ممکن بود اتفاقات حادثه توسط آمازون اکو شنیده شده باشد، بنابراین پلیس از شرکت آمازون خواست دسترسی به‌ تمامی صدا‌های ضبط‌شده صورت گیرد؛ اما آمازون با این استدلال که طرفدار حفظ حریم خصوصی است، از این اقدام خودداری کرد که نهایتا وضعیت حقوقی چنین درخواستی هنوز نامشخص است. وضعیت مشابه برای اپل در سال ۲۰۱۶ اتفاق افتاد که FBI از اپل خواست قفل گوشی آیفون یک تروریست را باز کند. هر دوی این موارد نیاز به قوانینی دارند که مشخص کند رسوخ به حریم خصوصی چه زمانی در جهت حفظ منافع ملی قابل توجیه است.

محاسبات صوتی آن‌قدر مورد اقبال واقع شد که مصرف‌کنندگان آن را حتی اگر مسائل حل‌نشده‌ای وجود داشته باشد، به کار می‌گیرند. در بسیاری موارد، صدا به‌مراتب راحت‌تر و طبیعی‌تر از هر وسیله ارتباطی دیگری است. به‌طور خاص، صدا می‌تواند حین انجام کارهایی مثل رانندگی، ورزش یا قدم زدن مؤثرتر واقع شود. همچنین این تکنولوژی می‌تواند برای افراد معلول مفید باشد و ترجمه هم‌زمان مکالمات خارجی برای خیلی از افراد جذاب به نظر می‌رسد.

ورود علم به صفحه نمایش لمسی آخرین تغییر بزرگ در راه تعامل انسان با رایانه است، اما تعامل کلامی به‌مراتب بزرگ‌تر خواهد بود.

منبع economist

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید