نتایج یک مطالعه: ۷۴ درصد از پاسخهای دیپسیک شبیه ChatGPT است
مطالعهای جدید نشان میدهد که ۷۴٫۲ درصد از پاسخهای دیپسیک شباهت قابل توجهی به پاسخهای ChatGPT دارند. یافتهها حاکی از آن است که دیپسیک احتمالاً با استفاده از خروجیهای ChatGPT آموزش دیده است.
طبق گزارش فوربز، در پژوهشی که شرکت Copyleaks انجام داده است از فناوری غربالگری و طبقهبندیکنندههای الگوریتم برای شناسایی سبک متون تولیدشده توسط مدلهای زبانی مختلف، از جمله GPT، کلاد، جمنای، Llama و دیپسیک استفاده شده است.
درحالیکه پاسخهای متنی کاملاً منحصربهفردی برای اکثر مدلها تشخیص داده شد، دیپسیک نتایج بسیار نزدیکی به مدلهای OpenAI تولید کرد.
شای نیسان، رئیس بخش علم داده در Copyleaks نوشت که این مطالعه مشابه کار متخصص خطشناسی است که سعی میکند نویسندهی یک دستنوشته را با مقایسهی متن دستنویس با نمونههای دیگر از نویسندگان مختلف شناسایی کند. او توضیح داد: «تحقیقات ما شباهت زیادی بین مدلهای DeepSeek و OpenAI شناسایی کرد که در سایر مدلهای بررسیشده یافت نشد.»
اگر دیپسیک بدون مجوز از متونی که OpenAI تولید کرده است برای آموزش مدل خود استفاده کرده باشد، پیامدهای مربوطبه حقوق مالکیت معنوی آن عمیق خواهد بود و میتواند نقض شرایط خدمات OpenAI باشد. فقدان شفافیت در دادههای آموزش مدلهای هوش مصنوعی، این مسائل را تشدید و نیاز به چارچوبهای نظارتی برای افشای مجموعه دادههای آموزشی را تقویت میکند.
استدلال مخالف با یافتههای Copyleaks مبتنیبر این احتمال است که مدلهای هوش مصنوعی با گذشت زمان از نظر سبک تولید پاسخ همگرا میشوند؛ بهخصوص اگر مبتنیبر دادههای یکسان آموزش دیده باشند. بنابراین، شباهت بین دیپسیک و مدلهای OpenAI صرفاً محصول همپوشانی مجموعه دادهها و نشاندهندهی شباهتهای عمیقتر ساختاری یا آموزشی آنها است.
نیسان اینگونه نتیجهگیری کرد: «حتی اگر مدلهای زبانی بزرگ از مجموعهدادههای همپوشان استفاده کنند، تعیین یکتایی آنها همچنان حیاتی است. تنوع المانهایی مانند معماری، روشهای تنظیم دقیق و تکنیکهای تولید محتوا تضمین میکند که هر LLM سبک نوشتاری متمایزی ایجاد خواهد کرد.»