
شباهت مشکوک DeepSeek به ChatGPT؛ آیا OpenAI قربانی کپیبرداری شده است؟

تحقیقات جدید نشان میدهد که ۷۴.۲ درصد از خروجیهای مدل هوش مصنوعی DeepSeek شباهت سبکی زیادی به متنهای تولیدشده توسط ChatGPT دارند. این موضوع تردیدهایی درباره استفاده احتمالی از دادههای OpenAI در فرایند آموزش DeepSeek ایجاد کرده است.
به گزارش اقتصادآنلاین، تحقیقات جدید، ابهامات تازهای درباره مدل هوش مصنوعی DeepSeek ایجاد کرده است. بررسیها نشان میدهد که ۷۴.۲ درصد از متنهای تولیدشده توسط این مدل از نظر سبک نگارشی به طرز چشمگیری مشابه خروجیهای ChatGPT هستند. این یافتهها میتوانند حاکی از آن باشند که DeepSeek در آموزش مدل خود از دادههای OpenAI استفاده کرده است، مسئلهای که چالشهای جدی حقوقی و اخلاقی به همراه دارد.
این مطالعه توسط شرکت Copyleaks، که در زمینه شناسایی محتوای تولیدشده توسط هوش مصنوعی فعالیت میکند، انجام شده است. به گفته این شرکت، نتایج تحقیق میتواند پیامدهای مهمی در زمینه مالکیت فکری، قانونگذاری و توسعه مدلهای زبانی داشته باشد.
تشخیص اثر انگشت سبکی DeepSeek
در این بررسی، Copyleaks با استفاده از الگوریتمهای پیشرفته و فناوری غربالگری، سبک نوشتاری مدلهای مختلف مانند OpenAI، کلود، جمینای، LLaMA و DeepSeek را مقایسه کرده است. این تحلیلها با روش رأیگیری اجماعی انجام شده تا دقت نتایج افزایش یابد.
یافتههای این تحقیق نشان میدهد که اکثر مدلهای هوش مصنوعی سبک نوشتاری منحصربهفردی دارند. اما در مورد DeepSeek، بخش قابلتوجهی از خروجیهای آن از نظر سبک نگارش، بسیار شبیه به ChatGPT تشخیص داده شده است.
«شای نیسان»، رئیس بخش علم داده Copyleaks، در گفتوگو با Forbes اعلام کرده که این بررسی را میتوان به کار یک کارشناس خطشناسی تشبیه کرد که تلاش دارد نویسنده یک متن را از روی دستخط او شناسایی کند. به گفته نیسان، این نتایج تعجبآور و از نظر حقوقی بسیار مهم هستند.
احتمال نقض حقوق مالکیت فکری OpenAI
اگر مشخص شود که DeepSeek بدون مجوز از دادههای OpenAI برای آموزش مدل خود استفاده کرده است، پیامدهای جدی حقوقی در انتظار آن خواهد بود. نقض شرایط خدمات OpenAI و استفاده بدون اجازه از متون تولیدشده توسط این شرکت، میتواند به شکایتهای حقوقی منجر شود.
نیسان تأکید کرده که این شباهت نمیتواند بهعنوان مدرکی قطعی برای سوءاستفاده DeepSeek تلقی شود، اما قطعاً سؤالات مهمی درباره منابع داده این مدل مطرح میکند. نبود شفافیت در صنعت هوش مصنوعی، این چالش را عمیقتر کرده و نیاز به قوانین مشخص برای افشای منابع آموزشی را بیش از پیش برجسته میکند.
چالش اخلاقی و تنظیمگری هوش مصنوعی
نکته قابلتأمل این است که خود OpenAI نیز بهدلیل استفاده از محتوای وب بدون کسب مجوز صریح، با انتقاداتی مواجه بوده است. اما شباهت سبک نگارش DeepSeek به ChatGPT ابعاد جدیدی به این بحث اضافه میکند.
برخی کارشناسان معتقدند که مدلهای زبانی، بهدلیل استفاده از دادههای مشابه، ممکن است سبکهای نزدیک به هم پیدا کنند. اما Copyleaks میگوید که روشهای غربالگری آنها برای تشخیص تفاوتهای سبکی طراحی شده و این شباهت را نمیتوان صرفاً ناشی از همپوشانی دادهها دانست.
نیسان همچنین تأکید دارد که با وجود اشتراکات احتمالی در دادههای آموزشی، عوامل دیگری مانند معماری مدل، روشهای تنظیم دقیق (Fine-tuning) و تکنیکهای تولید محتوا در هر مدل تأثیرگذار هستند و اثر انگشت سبکی هر مدل را از دیگری متمایز میکنند.
DeepSeek در سکوت؛ آینده قانونگذاری چه خواهد شد؟
در حال حاضر، مشخص نیست که آیا DeepSeek واقعاً از خروجیهای OpenAI برای آموزش مدل خود استفاده کرده یا خیر. اما بدون شک این یافتهها به یکی از موضوعات مهم در بحثهای مربوط به توسعه و تنظیمگری هوش مصنوعی تبدیل خواهد شد.
تاکنون DeepSeek به درخواستها برای ارائه توضیحات پاسخ نداده است. اما در صورت اثبات استفاده غیرمجاز از دادههای OpenAI، احتمالاً این ماجرا به یکی از پروندههای حقوقی جنجالی در دنیای هوش مصنوعی تبدیل خواهد شد.