DeepSeek و”Gemini”: شكوك حول تدريب R1-0528

جدلٌ مُحتدمٌ حول استخدام بيانات جوجل "Gemini" في تدريب نموذج DeepSeek الجديد R1-0528

مقدمة: سباقٌ مُتسارعٌ في عالم الذكاء الاصطناعي

يشهد عالم الذكاء الاصطناعي سباقًا محمومًا بين الشركات العالمية الكبرى، تسعى كلٌ منها للتفوّق في تطوير نماذج لغوية ضخمة تتمتع بأداءٍ متقدّم. وقد أطلقت شركة DeepSeek الصينية مؤخرًا نموذجها الجديد R1-0528، والذي أثار جدلًا واسعًا بسبب أدائه المتميّز في مجالات البرمجة والحسابات الرياضية، إلا أن هذا الأداء المُذهل أثار شكوكًا عميقة حول مصدر البيانات المستخدمة في تدريبه. فهل استخدمت DeepSeek بيانات من نماذج منافسة، مخالفةً بذلك القواعد الأخلاقية وقوانين الملكية الفكرية؟

اتهاماتٌ مباشرةٌ باستخدام مخرجات Gemini

أطلق سام بيتش، مطور برمجيات مقيم في ملبورن، اتهاماتٍ مباشرةٍ ضد شركة DeepSeek عبر منصة X (تويتر سابقًا)، مدعيًا وجود أدلةٍ قوية على أن نموذج R1-0528 يعتمد في تدريبه على مخرجات نموذج Gemini التابع لشركة جوجل. وقد أشار بيتش إلى التشابه الكبير بين أسلوب النموذجين في التعبير اللغوي وبناء الجمل، مُشيراً بشكلٍ خاصٍ إلى تشابهٍ واضحٍ مع إصدار Gemini 2.5 Pro.

أدلةٌ إضافيةٌ من مشروع SpeechMap

لم يقف الأمر عند هذا الحد، فقد أضاف مطورٌ آخر، يُعرف باسم مستعار ويدير مشروع SpeechMap لقياس "حرية التعبير" في نماذج الذكاء الاصطناعي، أدلةً إضافيةً تُؤكد هذه الاتهامات. فقد لفت هذا المطور إلى تشابهٍ ملحوظٍ بين "مسارات التفكير" (Chain of Thought) التي ينتجها نموذج R1-0528 وتلك التي ينتجها نموذج Gemini. وتُعتبر "مسارات التفكير" مُؤشّرًا هامًا للفهم العميق للطريقة التي يعمل بها النموذج، والتشابه فيها يُشير إلى احتمالية استخدام نفس مصدر البيانات أو تقنيات التدريب.

سوابقٌ تُثير الشكوك

ليست هذه هي المرة الأولى التي تُتهم فيها شركة DeepSeek باستخدام بيانات من نماذج منافسة. ففي ديسمبر الماضي، لاحظ مطورون أن نموذج DeepSeek V3 كان يُعرّف عن نفسه أحيانًا بأنه "ChatGPT"، مما أثار تكهناتٍ حول استخدام سجلات محادثات منصة OpenAI في تدريبه. وقد أكدت OpenAI سابقا لصحيفة فاينانشال تايمز عثورها على مؤشرات تُثبت استخدام DeepSeek لتقنية "التقطير" (Distillation)، وهي تقنية تُستخدم لاستخلاص المعرفة من نماذج أكبر وأكثر تطورًا.

ميكروسوفت تتدخّل

يزيد من الغموض في هذه القضية تقريرٌ لوكالة بلومبرغ، يُفيد بأن شركة مايكروسوفت، الشريك الاستراتيجي والمستثمر الرئيسي في OpenAI، رصدت في أواخر عام 2024 عملية استخراج بيانات ضخمة من حسابات مطورين في OpenAI، يُعتقد أنها مرتبطة بشركة DeepSeek. ويُثير هذا التقرير مخاوف جدية حول انتهاك شروط خدمة OpenAI، التي تمنع استخدام مخرجات نماذجها لتدريب نماذج منافسة.

تحدياتٌ تقنيةٌ وأخلاقيةٌ

يُعترف بصعوبة التحقق من أصل البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي بسبب ما يُعرف بـ"تلوث الإنترنت" بمحتوى مُولّد آليًا. فانتشار المقالات الرديئة والمُنتجة بواسطة الروبوتات على مواقع التواصل الاجتماعي مثل Reddit و X يُعقّد عملية تنقية بيانات التدريب، مما يجعل من الصعب الجزم بمصدر البيانات بشكلٍ قطعي.

الحلول المقترحة

يُشير ناثان لامبرت، الباحث في معهد AI2 غير الربحي، إلى أن DeepSeek قد تكون استخدمت أفضل النماذج المتاحة لإنتاج كميات كبيرة من البيانات الاصطناعية، مُبررًا ذلك بافتقارها لوحدات معالجة رسومية قوية كافية. وهذا يُطرح سؤالًا هامًا حول الاستثمار في البنية التحتية اللازمة لتطوير نماذج ذكاء اصطناعي أصلية ومستقلة.

جهودٌ لمنع استخدام تقنيات التقطير

في محاولةٍ للتصدّي لاستخدام تقنيات التقطير غير المشروعة، بدأت شركات الذكاء الاصطناعي بفرض تدابير أمنية صارمة. فقد بدأت OpenAI في أبريل الماضي بفرض عملية تحقق من الهوية للمؤسسات التي ترغب في استخدام نماذجها المتقدمة، مُشترطة تقديم بطاقة تعريف صادرة عن جهة حكومية من قائمة دول مدعومة، وهي قائمة لا تشمل الصين.

خطواتٌ وقائيةٌ من جوجل و Anthropic

اتخذت جوجل خطوة مماثلة عبر تلخيص "مسارات التفكير" التي تنتجها نماذجها عبر منصة AI Studio، مما يُصعّب على الجهات المنافسة استخدام هذه الآثار لتدريب نماذج مقلّدة. وفي مايو، أعلنت شركة Anthropic أنها ستتبع نفس النهج لحماية مزاياها التنافسية.

الصمتُ المُطبقُ من جوجل

لا تزال جوجل تلتزم الصمت حيال هذه المزاعم، في حين تسعى جهات إعلامية للحصول على تعليقٍ رسمي من الشركة. وسيُحدث هذا التقرير بأي معلومات جديدة ترد في هذا الشأن. ويُبقى هذا الجَدَل مُفتوحًا على إمكانية ظهور تطوراتٍ جديدةٍ في الأيام القادمة، مُسلّطًا الضوء على التحديات الأخلاقية والقانونية في مجال تطوير نماذج الذكاء الاصطناعي.

مقالات ذات صلة

زر الذهاب إلى الأعلى