وقتی هوش مصنوعی به دیوار ریاضی میخورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!
در سالهای اخیر، حضور هوش مصنوعی در عرصههای مختلف علمی، بهویژه ریاضیات، روزبهروز پررنگتر شده است. حوزهای که تا مدتها بهعنوان عرصهای ناب برای استدلال انسانی تلقی میشد، اکنون شاهد قدرتنمایی مدلهای زبانی بزرگ (LLMS) است. اما آیا مدلهای هوش مصنوعی میتوانند پابهپای ذهن انسان، مسائل پیچیدهی ریاضی را حل کنند؟
مطالعات اخیر نشان دادهاند که مدلهای بهکار رفته در ChatGPT در آزمونهای معتبر ریاضی برای دانشآموزان دبیرستانی ازجمله AIME و HMMT که تنها پاسخ نهایی را میسنجند، عملکرد چشمگیری داشتهاند. بااینحال، این نوع ارزیابیها لزوماً معیار دقیقی برای سنجش توانایی منطقی و استدلالی این مدلها نیستند. تولید اثباتهای دقیق و مرحلهبهمرحله نیازمند مهارتهایی فراتر از محاسبهی پاسخ نهایی است.
- دقت مدلهای زبانی در آزمون USAMO: کمتر از ۵درصد
- شکست تمام عیار هوش مصنوعی در اثبات مسائل ریاضی پیچیده
- مقایسه عملکرد مدلها در استدلال ریاضی
- دلایل شکست هوش مصنوعی در ریاضی
- پشت پرده خطاها؛ منطق گمشده هوش مصنوعی
- هوش مصنوعی، داوری مهربانتر از انسان
- مهارت یا تقلید؟
- نوآوری گمشده؛ چرا ماشینها نمیتوانند بهخوبی استدلال کنند؟
در همین راستا، مطالعهای جدید به بررسی عملکرد مدلهای زبانی در سطحی بهمراتب دشوارتر پرداخته است: المپیاد ریاضی ایالات متحده آمریکا (USAMO). نتایج این پژوهش نشان میدهد که حتی پیشرفتهترین مدلها نیز در این آزمون عملکرد بسیار ضعیفی داشتهاند؛ بهطوریکه میانگین امتیاز آنها کمتر از ۵ درصد بوده است. ماجرا چیست؟
دقت مدلهای زبانی در آزمون USAMO: کمتر از ۵درصد
بهمنظور بررسی دقیقتر توانایی مدلهای زبانی در زمینهی استدلال ریاضی، پژوهشی جدید به ارزیابی عملکرد این مدلها در المپیاد ریاضی ایالات متحده آمریکا پرداخته است؛ رقابتی در سطح بالا که از شرکتکنندگان انتظار میرود پاسخهایی مبتنیبر اثباتهای کامل، شفاف و منسجم ارائه دهند.
یافتههای این پژوهش نشان میدهند که حتی پیشرفتهترین مدلها نیز در این آزمون با چالشهای جدی مواجه هستند؛ بهطوریکه عملکرد آنها کمتر از ۵درصد ارزیابی شده است. ضعف در منطق، استفاده از فرضهای نادرست و ناتوانی در ارائهی استدلالهای خلاقانه، از جمله ضعفهای اصلی این مدلها به شمار میروند.
ضعف مدلها در آزمون ریاضی: ضعف در منطق، استفاده از فرضهای نادرست و ناتوانی در ارائه استدلالهای خلاقانه
این نتایج بهروشنی نشان میدهند که اگرچه مدلهای زبانی، پیشرفتهای قابلتوجهی در حل مسائل ریاضی داشتهاند، در زمینهی تولید اثباتهای دقیق و منطقی، همچنان با محدودیتهای جدی روبرو و نیازمند توسعههای بیشتر برای نزدیک شدن به سطح استدلال انسانی هستند.
یکی از نکاتی که پژوهشگران این مطالعه بهدرستی بر آن تأکید کردهاند، تفاوت معناداری است که در شیوهی ارزیابی رقابتهای مختلف ریاضی وجود دارد. در بسیاری از آزمونهای مطرحی مانند AIME یا HMMT، از شرکتکنندگان (و طبیعتاً از مدلهای زبانی) فقط خواسته میشود که پاسخ نهایی را ارائه دهند. بهبیان دیگر، حتی اگر یک مدل موفق به ارائهی پاسخ صحیح شود، این لزوماً بهمعنای فهم عمیق مفاهیم ریاضی یا توانایی شرح دادن استدلال منتهی به آن پاسخ نیست.
در چنین شرایطی، ممکن است مدل صرفاً پاسخ را حدس بزند یا از الگوهای آماری استفاده کند، بدون آنکه درک درستی از مسیر منطقی حل مسئله داشته باشد. همین ضعف، پژوهشگران را بر آن داشت تا بهجای اتکا به آزمونهایی با پاسخ نهایی، از رویکردی ژرفتر و دقیقتر برای ارزیابی توانایی مدلها استفاده کنند: رقابت USAMO؛ مسابقهای که تنها پاسخ نهایی را کافی نمیداند و بر ارائهی اثبات کامل، مرحلهبهمرحله و منطبق بر اصول استدلال ریاضی تأکید دارد.
مدلی که فقط جواب درست میدهد، لزوماً درک نمیکند چرا آن جواب درست است و در دنیای ریاضی، فهم مسیر مهمتر از رسیدن به مقصد است
شکست تمام عیار هوش مصنوعی در اثبات مسائل ریاضی پیچیده
در این مطالعه، محققان شش مسئلهی جدید از آزمون USAMO 2025 را انتخاب کردند؛ مسائلی که هیچیک از مدلها پیشتر با آن مواجه نشده بودند. سپس این مسائل به شش مدل زبانی پیشرفته و مبتنیبر استدلال، ازجمله QWQ R1، Flash Thinking 01 Pro, O3 Mini و Claude 3.7 ارائه شد.
هر مدل موظف بود تمامی مسائل را حل کند و برای اطمینان، هر مسئله را چهار بار حل کرد و بدینترتیب، برای هر سوال، چهار پاسخ مختلف تولید شد تا شاید یکی از آنها درست از آب دربیاید. انتظار میرفت که حداقل برخی از مدلها بتوانند عملکرد قابلقبولی از خود نشان دهند، اما عملکرد آنها بسیار ضعیف بود.
در مجموعِ حدود ۱۵۰ تلاش، میانگین امتیاز کمتر از ۵درصد بود. حتی یک مدل هم موفق نشد یکی از مسائل را بهطور کامل و بینقص حل کند. بهبیان دیگر، این مدلها نهتنها عملکرد ضعیفی داشتند، بلکه میتوان گفت عملاً در این آزمون شکست خوردند. پژوهشگران نیز با صراحت اعلام کردند که مدلهای زبانی کنونی، در سطحی نیستند که بتوانند از عهدهی استدلالهای ریاضی پیچیده برآیند.
مقایسه عملکرد مدلها در استدلال ریاضی
برای ارزیابی دقیق عملکرد مدلها، تیم داوری از یک فرآیند نمرهدهی دو مرحلهای و منسجم استفاده کرد. هر شش مسئله، بهصورت مستقل توسط دو داور بررسی شدند، بهگونهای که هر داور مسئول تصحیح سه مسئلهی منحصربهفرد بود.
از آنجا که برگزارکنندگان رسمی USAMO راهحلهای استاندارد و طرح نمرهدهی مشخصی منتشر نمیکنند، پژوهشگران این مطالعه با دقت و تکیه بر منابع معتبر جامعهی ریاضی، برای هر مسئله یک طرح نمرهدهی استاندارد طراحی کردند (امتیاز از ۷ به همراه نمرهی تشویقی برای پیشرفت قابلتوجه در روند حل مسئله).
مدل Gemini-2.5-Pro در ارزیابی مسائل USAMO، بهترین عملکرد را میان مدلها نشان داد
جدول زیر، عملکرد هشت مدل مختلف زبانی را در حل شش مسئلهی آزمون USAMO (مسائل P1 تا P6) نشان میدهد. همانطور که اشاره کردیم هر مسئله از ۷ نمره محاسبه شده و حداکثر مجموع نمرهی ممکن برای هر مدل، ۴۲ است.
همانطور که در جدول فوق مشاهده میکنید:
- Gemini-2.5-Pro با نمرهی کلی ۱۰٫۱ از ۴۲، بهترین عملکرد را در میان مدلها داشته است.
- R1 و Grok 3 با نمرهی ۲٫۰ در جایگاه بعدی هستند، اما فقط در یکی دو مسئله امتیاز گرفتهاند.
- QwQ و Claude 3.7 با میانگین نمرههای حدود ۱٫۲ و ۱٫۵ عملکرد نسبتاً ضعیفی داشتهاند.
- O1-Pro با وجود نمرهی پایین (۱٫۲)، بسیار پرهزینه بود و هزینهی اجرای آن به بیش از ۲۰۰ دلار رسید، در حالیکه مدلهای دیگر با هزینهی کمتر یا حتی بدون هزینه (N/A)، نتایج مشابه یا بهتری ارائه دادهاند.
دلایل شکست هوش مصنوعی در ریاضی
علاوهبر نمرهدهی، داوران بهطور سیستماتیک خطاهای شاخص و الگوهای تکرارشوندهی شکست را در پاسخ مدلها ثبت کردهاند. در این مطالعه، «الگوی شکست» (Failure Mode) به نخستین نقطه در مسیر حل مسئله اطلاق میشود که مدل، بهدلیل استدلال نادرست یا فقدان توضیح کافی، از روند منطقی منحرف میشود. این خطاها در چهار دستهی اصلی طبقهبندی شدهاند:
- اشکالات منطقی (Logic): پرتکرارترین دستهی خطاها؛ بسیاری از پاسخها شامل استدلالهای ناقص، پرشهای بدون توجیه یا برداشتهای نادرست از مراحل قبلی راهحل بودند.
- فرضیات نادرست (Assumption): برخی مدلها، از جمله O3-MINI با وجود عملکرد قوی در منطق، گاهی گامهای حیاتی اثبات را بدیهی فرض میکردند یا فرضهایی نادرست و اثباتنشده وارد راهحل میکردند، بدون آنکه هیچ توضیحی برای آنها ارائه دهند.
- فقدان خلاقیت (Creativity): بیشتر مدلها بارها همان استراتژی نادرست را تکرار کردند، بدون آنکه مسیرهای جایگزین را بررسی کنند. تنها استثنا FLASH-THINKING بود که در یک اجرا چند راه مختلف را امتحان کرد، اما بهدلیل پراکندگی تمرکز، در هیچکدام به نتیجهی درست نرسید.
- محاسبات جبری/عددی (Algebra/Arithmetic): اکثر مدلها توانایی خوبی در انجام محاسبات نمادین و عددی از خود نشان دادند، حتی بدون کمک ماشینحساب یا ابزارهای بیرونی. بااینحال، مدل R1 بیشتر از بقیه دچار خطاهای عددی و جبری شد، که میتواند نقطهی تمرکز مهمی برای بهبود این مدل باشد.
در میان شرکتکنندگان انسانی، رایجترین دلیل شکست آن بود که نمیتوانستند راهحل درستی برای مسئله پیدا کنند. نکتهی جالب اینجاست که انسانها معمولاً خودشان بهخوبی میدانند که آیا مسئلهای را درست حل کردهاند یا نه. اما مدلهای زبانی داستان کاملاً متفاوتی دارند: تقریباً همهی مدلها با اعتمادبهنفسی عجیب، ادعا میکردند که مسئله را بهدرستی حل کردهاند؛ حتی وقتی راهحلشان کاملاً غلط بود.
این تفاوت فاحش، چالشی جدی برای کاربردهای ریاضی LLMها ایجاد میکند؛ به این دلیل که اگر بخواهیم به نتایج ریاضی این مدلها تکیه کنیم، حتماً باید صحت آنها را با بازبینی دقیق انسانی تأیید کنیم.
پشت پرده خطاها؛ منطق گمشده هوش مصنوعی
در بخش قبل، با چهار دلیل اصلی شکست مدلهای مختلف هوش مصنوعی در حل مسائل اثباتی المپیاد آمریکا آشنا شدیم. اما نکتهی جالبتر، بررسی دلایل پشتِ این شکست بود. تیم تحقیقاتی با همراهی چند نفر از اعضای سابق تیم ملی المپیاد ریاضی، به تحلیل دقیق پاسخهای تولیدشده توسط مدلها پرداخت. این افراد با دقت بالا، الگوهای خطا را شناسایی کردند؛ خطاهایی که نشان میدادند مدلها در مواجهه با مفاهیم انتزاعی و زنجیرههای پیچیدهی استدلالی بهراحتی دچار لغزش میشوند.
فقدان منطق
پژوهشگران با بررسی دقیقترِ پاسخهای تولیدشده توسط مدلهای زبانی، متوجه شدند مدلها یا استدلال درستی ارائه نمیدهند یا بهدرستی متوجه نمیشوند چه چیزی را قبلاً ثابت کردهاند. یکی از رایجترین خطاها، جهشهای منطقی بدون پشتوانه بود. یعنی مدلها بدون طی کردن مراحل لازم یا آوردن دلیل کافی، مستقیماً به نتیجهای میرسیدند که نیازمند اثبات دقیق بود.
مدلها در فهم زنجیرههای استدلالی پیچیده و مفاهیم انتزاعی ناتوانند
بهعنوان مثال، مدل Claude 3.7 توانسته بود برای یک مقدار خاص، نکتهای را بهدرستی ثابت کند؛ اما بدون اینکه دلیل بیاورد، همان نتیجه را بدون هیچ منطقی برای همهی مقادیر ممکن تعمیم داد. این دقیقاً شبیه همان اشتباهی است که در کلاسهای ریاضی معلم به آن ایراد میگیرد: نمیتوان فقط به این دلیل که چیزی در یک حالت درست است، آن را برای تمام حالتها هم درست فرض کرد.
فرضهای بیدلیل و بدون پشتوانهی علمی
اشتباه پرتکرار دیگر، فرضهای بیدلیل و بیپشتوانه بود. مدلها گاهی نکات کلیدی در روند اثبات را طوری بیان میکردند که انگار بدیهی یا پیشفرض هستند، درحالیکه هیچ توضیحی برای آنها ارائه نمیدادند.
بهعنوان مثال، در یک مسئلهی هندسه، یکی از مدلها موقعیت یک نقطه نسبت به دایرهی محیطی را بدون هیچ اثبات یا توجیهی مشخص کرده بود. این نوع استدلالها روی زمینِ سست بنا میشوند و مثل ساختمانی هستند که با کوچکترین لرزش، فرو میریزند. اما همهی مسئله صرفاً اشتباه در منطق یا فرض نبود.
فقدان خلاقیت
پژوهشگران به نکتهی مهمتری هم اشاره کردند: فقدان خلاقیت در رویکرد حل مسئله. برخلاف شرکتکنندگان انسانی در المپیاد که گاهی با دیدگاههای نوآورانه و غیرمنتظره به حل مسئله میپردازند، مدلهای زبانی معمولاً از الگوهای تکراری و سادهسازیهای سطحی استفاده میکنند.
به بیان دیگر، این مدلها بیشتر شبیه کسانی رفتار میکنند که فقط میخواهند فرمولی پیدا کنند و سریع به جواب برسند، نه کسانی که واقعاً مسئله را درک میکنند و برای آن راهحل هوشمندانهای ارائه میدهند.
در میان مدلهای بررسیشده، مدلِ Flash Thking تا حدی از این قاعده مستثنی بود؛ چراکه در برخی موارد تلاش کرده بود در یک پاسخ از چند روش مختلف استفاده کند. اما بررسی دقیقتر نشان داد این تنوع، بیشتر سطحی و اتفاقی بود تا آگاهانه و هدفمند.
بهبیان دیگر، مدل صرفاً راهحلها را بهصورت تصادفی امتحان میکرد، بدون آنکه عمیقاً مسئله را تحلیل یا بهدرستی بین گزینهها انتخاب کند. این موضوع نشان میدهد که خلاقیت واقعی و هوشمندانه در حل مسائل ریاضی همچنان از توان این مدلها خارج است.
آرتیفکتهای آموزشی
نکتهی جالب آنکه برخی از خطاهای صرفاً بهدلیل ضعف در درک مفاهیم نیست، بلکه نتیجهی مستقیم شیوهی آموزش آنهاست؛ چیزی که به آن آرتیفکتهای ناشی از آموزش گفته میشود. یکی از نمونههای بارز این پدیده، اتفاقی بهنام «کادربندی پاسخ» (Answer Boxing) است.
خطاهای مدلها گاهی نه از ناتوانی در درک، بلکه از وابستگی بیشازحد به الگوهای ظاهری آموزش است
مدلها در مرحلهی آموزش، برای ارائهی پاسخ نهایی در قالب مشخص (مثلا قراردادن جواب در کادر)، پاداش گرفتهاند. بههمینخاطر، هنگام حل مسئله، گاهی تمام تلاششان را میکنند تا صرفنظر از درستی یا نادرستی مسیر استدلال، به یک پاسخ «قالبدار» برسند. این یعنی برای مدلها، ظاهرِ پاسخ، از دقت و صحت آن مهمتر است؛ مشکلی که در مواجهه با مسائل پیچیدهی ریاضی، میتواند به نتایجی کاملاً گمراهکننده منجر شود.
بهعنوان مثال، در یک مسئله، مدل QWQ (یکی از مدلهای زبانی پیشرفته برای انجام استدلالهای چندمرحلهای) بهدرستی تشخیص داده بود که تمام اعداد زوجِ مثبت شرایط مسئله را برآورده میکنند. تا اینجای کار، همهچیز درست و منطقی بود. اما در مرحلهی آخر، فقط برای اینکه یک پاسخ مشخص و قالبدار ارائه دهد، کل آن استدلالها را کنار گذاشت و جواب را عدد ۲ اعلام کرد. یعنی بهجای اینکه بگوید «مجموعهای از اعداد» پاسخ صحیح است، همهچیز را فقط به یک عدد خاص تقلیل داد. این نوع خطاها نشان میدهند که مدلها گاهی بهجای پیروی از منطق ریاضی، بیش از حد به الگوهای ظاهری آموزش دیدهشان، وابسته هستند.
تعمیم بیپشتوانه
مشکل رایج دیگری که در عملکرد مدلها دیده شد، «تعمیمهای بیپشتوانه» بود. یعنی وقتی مدل با چند نمونهی ساده مواجه میشود و یک الگوی ظاهری بین آنها پیدا میکند، خیلی زود نتیجه میگیرد که این الگو در همهی حالتها برقرار است؛ بدون آنکه کوچکترین تلاشی برای اثباتش انجام دهد.
چنین نتیجهگیریهایی شاید در نگاه اول هوشمندانه به نظر برسند، اما در واقع ناشی از نبود درک عمیق ریاضی هستند. در دنیای ریاضی، تا وقتی چیزی بهطور کامل و منطقی اثبات نشده باشد، نمیتوان آن را پذیرفت، حتی اگر به نظر درست بیاید.
از سوی دیگر، برخی مدلها مانند مدلهای OpenAI، معمولاً پاسخهایی ارائه میدهند که از نظر ظاهری بسیار مرتب، منسجم و منطقی به نظر میرسند. آنها میتوانند گامهای استدلالی را بهخوبی پشت سر هم بچینند و توضیحات قانعکنندهای بنویسند؛ اما مشکل اینجاست که در برخی موارد، همین پاسخهای بهظاهر درست، درنهایت به نتیجهگیریهای نادرست ختم میشوند. این نشان میدهد که توانایی در توضیحدادن، الزاماً به معنای درک واقعیِ موضوع نیست.
هوش مصنوعی، داوری مهربانتر از انسان
نکتهی جالب دیگر در این پژوهش، تلاش محققان برای استفاده از مدلهای زبانی بهعنوان تصحیحکنندهی پاسخها بود. آنها از دو مدل Claude 3.7 و O3-Mini خواستند پاسخهای تولیدشده را باتوجهبه معیارهایی که متخصصان انسانی تعیین کرده بودند، ارزیابی کنند. نتیجه این بود که هر دو مدل در نقش داور، بیش از حد مهربان ظاهر شدند.
مدلها حتی برای پاسخهایی هم که نادرست یا بدون استدلال کافی بودند، نمرههای بالا اختصاص دادند. در برخی موارد، این نمرهها تا ۲۰ برابر بیشتر از ارزیابی متخصصان انسانی بودند.
این یعنی مدلهایی که خودشان هنوز در حل مسائل ریاضی دچار ضعف هستند، نمیتوانند داورهای خوبی برای پاسخهای خود یا دیگر مدلها باشند. بنابراین، اگرچه این مدلها در ظاهر میتوانند جملاتی منطقی و قابلقبول تولید کنند، اما هنوز در درک واقعی مفاهیم ریاضی و ارزیابی دقیق استدلالها، فاصلهی زیادی با انسانها دارند.
مدلها در نقش داور بیشازحد مهربان ظاهر شدند
ماجرا شبیه آن است که کسی انشایی بسیار زیبا بنویسد، اما موضوع را بهدرستی درک نکرده باشد. در نگاه اول ممکن است متن تأثیرگذار و منطقی بهنظر برسد، اما با نگاهی دقیقتر متوجه میشویم که پر از سوءبرداشت و خطاست. این مثال وضعیتی را توصیف میکند که مدلهای زبانی بزرگ (LLMها) در مواجهه با مسائل ریاضی دچار آن میشوند.
این پژوهشِ عمیق، این تصور را که LLMها بهزودی قرار است در حل مسائل پیچیدهی ریاضی به سطح انسان برسند، بهچالش کشیده است. مخصوصاً وقتی صحبت از مسائل اثباتمحور و استدلالی میشود؛ یعنی همان نوع تفکری که در رقابتهایی مثل المپیاد ریاضی آمریکا موردنیاز است. این یافتهها در واقع تلنگری جدی بر توانایی هوش مصنوعی هستند.
مهارت یا تقلید؟
برای سنجش توانایی ریاضی مدلهای زبانی بزرگ روشهای دیگری نیز وجود دارند. یکی از رایجترین معیارها مجموعهای به نام GSM8K شامل مسائل سادهی ریاضی در سطح دبستان است. این مدلها در این آزمون عملکرد خیرهکنندهای داشتند.
همین موضوع باعث شد بسیاری تصور کنند هوش مصنوعی در درک مفاهیم ریاضی واقعاً قدرتمند عمل میکند. اما وقتی پژوهشگران سراغ نسخهای دقیقتر و سختگیرانهتر از این آزمون به نام GSM-Symbolic رفتند، نتایج متفاوتی بهدست آمد. این آزمون، همان مسائل قبلی را با تغییر در اعداد یا نحوهی بیان آنها بازنویسی میکند؛ مشابه حالتی که یک سؤال را با چند فرمولبندی مختلف از یک دانشآموز بپرسیم.
نتیجهی این آزمون عملکرد بهشدت ناپایدار مدلها را به نمایش گذاشت، بهطوریکه فقط با تغییر عددها، دقت مدلها بهطور چشمگیری نوسان میکرد. در حالیکه یک دانشآموز، اگر مفهوم سوال را واقعاً فهمیده باشد، میتواند با اطمینان به آن پاسخ دهد. این رفتار مدلها نشان میدهد که بیشتر از آنکه منطق مسئله را درک کرده باشند، به الگوهای ظاهری صورت سوال وابستهاند.
این ضعف وقتی پررنگتر میشود که ساختار سوال هم کمی تغییر کند؛ مثلا اگر شرطی به آن اضافه یا نحوهی بیان کمی پیچیدهتر شود. در چنین شرایطی، مدلها سردرگم میشوند و دقتشان بهشدت افت میکند.
برای بررسی عمیقتر این ضعف، پژوهشگران آزمایشی به نام GSM-NoOp را طراحی کردند. در این آزمون، جزئیات بیربط بهصورت هدفمند در متن سوالها گنجانده شده بود؛ بهعنون مثال، در مسئلهای که فقط مربوط به شمارش تعداد سیبها است، اطلاعاتی دربارهی اندازهی پرتقالها هم آورده شده بود.
اما مدلها بهجای نادیده گرفتن این اطلاعات نامرتبط، آنها را وارد محاسبه میکردند و درنتیجه به پاسخهای نادرست میرسیدند. حتی وقتی مثالهایی به آنها داده شد که نشان میداد این جزئیات باید نادیده گرفته شوند، باز هم بسیاری از مدلها اشتباه عمل کردند. این یعنی آنها هنوز نمیتوانند بین اطلاعات مهم و بیاهمیت تمایز قائل شوند؛ برایشان همهچیز یک اندازه مهم است؛ حتی اگر بخشی از سوال هیچ ارتباطی با حل مسئله نداشته باشد.
تمام این نتایج، به یک نکتهی مهم اشاره دارند: مدلهای زبانی، با تمام قابلیتهایشان، هنوز فاصلهی زیادی با درک واقعی دارند. ظاهر پاسخهایشان شاید دقیق و منطقی بهنظر برسد، اما در بسیاری از موارد، پشت آن ظاهر مرتب، فقط الگوبرداری و تقلید از دیدههای قبلی قرار دارد، نه تفکر مستقل و استدلال مفهومی.
ساخت مدلهایی که بتوانند واقعاً استدلال کنند، خطاهایشان را بشناسند، اطلاعات زائد را کنار بگذارند و از دل مسائل راهحلهای تازه و خلاقانه بیرون بکشند، هنوز یکی از بزرگترین چالشهای پیش روی پژوهش در هوش مصنوعی است. تنها در آن صورت است که میتوان گفت این مدلها نهفقط هوشمند بهنظر میرسند، بلکه واقعاً هوشمند هستند.
نوآوری گمشده؛ چرا ماشینها نمیتوانند بهخوبی استدلال کنند؟
در ادامه به یکی از جذابترین و البته چالشبرانگیزترین جنبههای عملکرد مدلهای زبانی میرسیم: مسئلهی نوآوری یا شاید دقیقتر بگوییم، نبود نوآوری در شیوهی مواجههی آنها با مسائل. ضعف مدلها در حل مسائل اثباتی، تنها یک اشکال سطحی نیست، بلکه نشانهای از یک محدودیت ساختاری عمیقتر در نحوهی تفکر آنها است.
نوآوری واقعی در ریاضیات، صرفاً به تسلط بر قواعد و فرمولها وابسته نیست؛ بلکه به خلاقیت، شهود و توانایی ارائهی دیدگاههای نو برای تحلیل و حل یک مسئله بستگی دارد. این همان ویژگیهایی است که ریاضیدانها از آن برخوردارند، اما مدلها هنوز فاصلهی زیادی با آن دارند.
مدلهای زبانی نه تکنیکهای اثباتی جدید خلق میکنند، نه میتوانند ارتباطهای غیرمنتظره بین مفاهیم را کشف کنند و نه آن پرشهای فکری عمیقی را انجام میدهند که معمولاً باعث شکوفایی یک ایدهی ناب میشود. گویی درون یک چهارچوب بسته گیر کردهاند؛ مانند کسی که دستور یک غذا را حفظ کرده باشد، اما نداند هر مادهی اولیه چرا و چگونه به طعم نهایی غذا کمک میکند.
این موضوع باعث میشود از خود بپرسیم: آیا نحوهی آموزش هوش مصنوعی، این فناوری را از رسیدن به فهم عمیقتر بازمیدارد؟ شاید ما مدلها را طوری آموزش میدهیم که فقط به پاسخ درست برسند، بیآنکه دلیل درستی آن را بفهمند یا بتوانند مسیرهای گوناگون رسیدن به آن را کشف کنند.
انگار کسی را برای نواختن یک قطعهی موسیقی تمرین داده باشیم، اما بعد از او انتظار داشته باشیم که یک سمفونی جدید بسازد. ممکن است مهارت تکنیکی بالایی داشته باشد، اما آن قریحهی خلاقانهای که برای خلق اثر جدید لازم است، در اختیارش نیست. خلاقیت، موتور محرک پیشرفت واقعی در ریاضیات بهشمار میرود و این همان بخشی است که فعلاً در مدلهای زبانی وجود ندارد.
فلش کردن گوشی در مواقع بروز مشکلات شدید نرمافزاری همواره بهترین راه چاره است. در مطلب پیشرو به آموزش فلش گوشی و تبلتهای سامسونگ میپردازیم.
فیزیکدانها برای اولین بار توانستند تصویری از حرکت اتمهای آزاد ثبت کنند. این مشاهده میتواند به درک بهتر آنها از برهمکنش اتمها کمک کند.
ویووبوک S14 با پردازندهی بسیار کارآمد لونارلیک اینتل، نمایشگر OLED و قیمت همسطح مکبوک ایر M1، نگاهها را به خود خیره میکند.
با استفاده از هات اسپات آیفون میتوان اینترنت دیتا را با سایر دستگاههای نزدیک اشتراکگذاری کرد.
زبان طراحی جدید اندروید با تغییرات بنیادین و جوانپسند بهصورت رسمی معرفی شد.
هندسه فراکتالها با الگوهای بینهایت تکرارشونده نشان میدهد چگونه از دل سادگی، پیچیدگیهایی حیرتانگیز خلق میشود.
رابط کاربری One UI 8 در راه است و برخی از گوشیهای قدیمی سامسونگ از آن بیبهره خواهند بود.