پیشرفتهترین مدل هوش مصنوعی تنها ۶۹ درصد دقت دارد؛ یافته محققان گوگل
گوگل تصویری نگرانکننده از میزان دقت هوش مصنوعی در بیان حقایق به دست آورد. گوگل دیپمایند هفتهی گذشته از مجموعهی بنچمارک FACTS رونمایی کرد؛ ابزاری برای سنجش اعتبار و درستی پاسخهای مدلهای AI.
این بنچمارک مدلها را در چهار حوزهی کلیدی به چالش میکشد: پاسخ به پرسشهای واقعی بر اساس دانش درونی، استفادهی مؤثر از جستوجوی وب، استناد دقیق به اسناد طولانی و تفسیر تصاویر. در این آزمون، جمنای ۳ پرو گوگل با کسب امتیاز ۶۹ درصد، بهترین عملکرد را به ثبت رساند؛ درحالیکه سایر مدلهای پیشرو با اختلاف فاحشی پایینتر از این سطح قرار گرفتند.
آمار مذکور باید زنگ خطری جدی برای کسبوکارهایی باشد که روی هوش مصنوعی شرط بستهاند. اگرچه مدلها در سرعت و شیوایی کلام بینظیرند؛ اما قابلیت اطمینان آنها در بیان حقایق همچنان فرسنگها با انتظارات انسانی فاصله دارد؛ بهویژه در وظایفی که نیازمند دانش تخصصی، استدلال پیچیده یا استناد دقیق به منابع هستند.
حتی خطاهای واقعی کوچک در صنایعی مانند امور مالی، بهداشت و درمان و حقوق میتوانند پیامدهای ویرانگری بههمراه داشته باشند. یکی از خبرنگاران روایت میکند که چگونه یک شرکت حقوقی، کارمندش را به دلیل استفاده از ChatGPT در تنظیم لایحهای که مملو از پروندههای ساختگی بود، اخراج کرد.
بنچمارک FACTS هم هشدار است و هم نقشهی راه؛ گوگل امید دارد با کاهش نقاط شکست و نحوهی خطای مدلها، پیشرفت در این حوزه را شتاب ببخشد. اما فعلاً پیام روشن است: هوش مصنوعی بهتر میشود؛ اما همچنان در حدود یکسوم موارد اشتباه میکند.