شباهت مشکوک DeepSeek به ChatGPT؛ آیا OpenAI قربانی کپی‌برداری شده است؟

تحقیقات جدید نشان می‌دهد که ۷۴.۲ درصد از خروجی‌های مدل هوش مصنوعی DeepSeek شباهت سبکی زیادی به متن‌های تولیدشده توسط ChatGPT دارند. این موضوع تردیدهایی درباره استفاده احتمالی از داده‌های OpenAI در فرایند آموزش DeepSeek ایجاد کرده است.

کد خبر: ۲۰۴۲۵۹۷

به گزارش اقتصادآنلاین، تحقیقات جدید، ابهامات تازه‌ای درباره مدل هوش مصنوعی DeepSeek ایجاد کرده است. بررسی‌ها نشان می‌دهد که ۷۴.۲ درصد از متن‌های تولیدشده توسط این مدل از نظر سبک نگارشی به طرز چشمگیری مشابه خروجی‌های ChatGPT هستند. این یافته‌ها می‌توانند حاکی از آن باشند که DeepSeek در آموزش مدل خود از داده‌های OpenAI استفاده کرده است، مسئله‌ای که چالش‌های جدی حقوقی و اخلاقی به همراه دارد.

این مطالعه توسط شرکت Copyleaks، که در زمینه شناسایی محتوای تولیدشده توسط هوش مصنوعی فعالیت می‌کند، انجام شده است. به گفته این شرکت، نتایج تحقیق می‌تواند پیامد‌های مهمی در زمینه مالکیت فکری، قانون‌گذاری و توسعه مدل‌های زبانی داشته باشد.

تشخیص اثر انگشت سبکی DeepSeek

در این بررسی، Copyleaks با استفاده از الگوریتم‌های پیشرفته و فناوری غربالگری، سبک نوشتاری مدل‌های مختلف مانند OpenAI، کلود، جمینای، LLaMA و DeepSeek را مقایسه کرده است. این تحلیل‌ها با روش رأی‌گیری اجماعی انجام شده تا دقت نتایج افزایش یابد.

یافته‌های این تحقیق نشان می‌دهد که اکثر مدل‌های هوش مصنوعی سبک نوشتاری منحصربه‌فردی دارند. اما در مورد DeepSeek، بخش قابل‌توجهی از خروجی‌های آن از نظر سبک نگارش، بسیار شبیه به ChatGPT تشخیص داده شده است.

«شای نیسان»، رئیس بخش علم داده Copyleaks، در گفت‌و‌گو با Forbes اعلام کرده که این بررسی را می‌توان به کار یک کارشناس خط‌شناسی تشبیه کرد که تلاش دارد نویسنده یک متن را از روی دست‌خط او شناسایی کند. به گفته نیسان، این نتایج تعجب‌آور و از نظر حقوقی بسیار مهم هستند.

احتمال نقض حقوق مالکیت فکری OpenAI

اگر مشخص شود که DeepSeek بدون مجوز از داده‌های OpenAI برای آموزش مدل خود استفاده کرده است، پیامد‌های جدی حقوقی در انتظار آن خواهد بود. نقض شرایط خدمات OpenAI و استفاده بدون اجازه از متون تولیدشده توسط این شرکت، می‌تواند به شکایت‌های حقوقی منجر شود.

نیسان تأکید کرده که این شباهت نمی‌تواند به‌عنوان مدرکی قطعی برای سوءاستفاده DeepSeek تلقی شود، اما قطعاً سؤالات مهمی درباره منابع داده این مدل مطرح می‌کند. نبود شفافیت در صنعت هوش مصنوعی، این چالش را عمیق‌تر کرده و نیاز به قوانین مشخص برای افشای منابع آموزشی را بیش از پیش برجسته می‌کند.

چالش اخلاقی و تنظیم‌گری هوش مصنوعی

نکته قابل‌تأمل این است که خود OpenAI نیز به‌دلیل استفاده از محتوای وب بدون کسب مجوز صریح، با انتقاداتی مواجه بوده است. اما شباهت سبک نگارش DeepSeek به ChatGPT ابعاد جدیدی به این بحث اضافه می‌کند.

برخی کارشناسان معتقدند که مدل‌های زبانی، به‌دلیل استفاده از داده‌های مشابه، ممکن است سبک‌های نزدیک به هم پیدا کنند. اما Copyleaks می‌گوید که روش‌های غربالگری آنها برای تشخیص تفاوت‌های سبکی طراحی شده و این شباهت را نمی‌توان صرفاً ناشی از هم‌پوشانی داده‌ها دانست.

نیسان همچنین تأکید دارد که با وجود اشتراکات احتمالی در داده‌های آموزشی، عوامل دیگری مانند معماری مدل، روش‌های تنظیم دقیق (Fine-tuning) و تکنیک‌های تولید محتوا در هر مدل تأثیرگذار هستند و اثر انگشت سبکی هر مدل را از دیگری متمایز می‌کنند.

DeepSeek در سکوت؛ آینده قانون‌گذاری چه خواهد شد؟

در حال حاضر، مشخص نیست که آیا DeepSeek واقعاً از خروجی‌های OpenAI برای آموزش مدل خود استفاده کرده یا خیر. اما بدون شک این یافته‌ها به یکی از موضوعات مهم در بحث‌های مربوط به توسعه و تنظیم‌گری هوش مصنوعی تبدیل خواهد شد.

تاکنون DeepSeek به درخواست‌ها برای ارائه توضیحات پاسخ نداده است. اما در صورت اثبات استفاده غیرمجاز از داده‌های OpenAI، احتمالاً این ماجرا به یکی از پرونده‌های حقوقی جنجالی در دنیای هوش مصنوعی تبدیل خواهد شد.

برچسب ها:

چت جی بی تی هوش مصنوعی AI هوش مصنوعی

ارسال نظرات