ربما استخدم Deepseek Gemini من Google لتدريب نموذجها الأخير

هل استخدمت DeepSeek نموذج جيميني من جوجل لتدريب أحدث نماذجها؟ تحليل معمّق للاتهامات والتداعيات
مقدمة:
شهد عالم الذكاء الاصطناعي مؤخراً جدلاً واسعاً حول استخدام بيانات نماذج الذكاء الاصطناعي المتنافسة في تدريب نماذج جديدة. وفي هذا السياق، أطلقت شركة DeepSeek الصينية نسخة محدثة من نموذجها للتفكير المنطقي R1، والذي أظهر أداءً متميزاً في معايير الرياضيات والترميز. لكن ما أثار الجدل هو الشكوك حول استخدام بيانات من عائلة نماذج جيميني (Gemini) من جوجل في تدريب هذا النموذج. سنقوم في هذا التحليل المعمّق باستعراض الأدلة، وفحص التقنيات المستخدمة، وتقييم التداعيات المحتملة لهذه الاتهامات على سوق الذكاء الاصطناعي العالمي، مع التركيز على السياق العربي.
DeepSeek ونموذج R1-0528: أداء متميز وشكوك حول المصدر:
أصدرت DeepSeek، المعروفة بأبحاثها المتقدمة في مجال الذكاء الاصطناعي، نسخة محدثة من نموذجها R1، وهو نموذج متخصص في التفكير المنطقي وحل المسائل المعقدة. وقد أظهر هذا النموذج، المسمّى R1-0528، أداءً استثنائياً في اختبارات قياسية للرياضيات والبرمجة، متفوقاً على العديد من النماذج المنافسة. لكن الشركة لم تكشف عن مصدر البيانات المستخدمة في تدريب هذا النموذج، مما أثار تساؤلاتٍ عديدة لدى خبراء الصناعة.
الأدلة التي تشير إلى استخدام جيميني:
يُشير عدد من مطوّري ومحللي الذكاء الاصطناعي إلى أدلة قوية تشير إلى استخدام بيانات من جيميني (Gemini) في تدريب R1-0528. فقد نشر سام بيتش، مطوّر برمجيات أسترالي متخصص في تقييم "الذكاء العاطفي" للنماذج، دليلًا يدّعي أنه يثبت ذلك. يعتمد دليله على تشابهٍ ملحوظ في الأسلوب اللغوي والعبارات المستخدمة بين نموذج DeepSeek ونموذج جيميني 2.5 Pro من جوجل.
كما لاحظ مطوّر آخر، اختار عدم الكشف عن هويته، تشابهاً في "آثار" النموذج، وهي الخطوات الوسيطة التي يمر بها النموذج أثناء عملية الوصول إلى الاستنتاج. وقد وصف هذه الآثار بأنها "تشبه آثار جيميني". هذه الأدلة، وإن لم تكن حاسمةً بشكل قاطع، تُثير تساؤلاتٍ جدية حول مصدر بيانات تدريب R1-0528.
تقنية التقطير (Distillation) والسرقة العلمية:
تُشير الاتهامات الموجهة لـ DeepSeek إلى استخدام تقنية "التقطير"، وهي تقنية شائعة في مجال تعلم الآلة، تُستخدم لاستخراج المعرفة من نماذج كبيرة وقوية لتدريب نماذج أصغر حجماً وأكثر كفاءة. لكن استخدام هذه التقنية مع بيانات من نماذج منافسة، دون الحصول على إذن، يُعتبر سرقة علمية وانتهاكاً لشروط الخدمة الخاصة بالشركات المالكة لهذه النماذج.
وقد أعلنت شركة OpenAI سابقاً عن اكتشافها أدلة تربط DeepSeek باستخدام تقنية التقطير مع بيانات من نماذجها. كما أبلغت مايكروسوفت، المستثمرة والشريكة الرئيسية لـ OpenAI، عن تسريب كميات كبيرة من البيانات من خلال حسابات مطوّري OpenAI، وتُرجّح أن تكون مرتبطة بـ DeepSeek.
تلوث البيانات على الويب المفتوح:
يُعاني مجال تدريب نماذج الذكاء الاصطناعي من مشكلة "تلوث البيانات" على الويب المفتوح. فمع تزايد استخدام الذكاء الاصطناعي في إنشاء المحتوى، أصبحت منصات مثل Reddit و X مليئةً بالروبوتات التي تُنتج محتوىً ضعيف الجودة أو مُضللاً. وهذا يُصعّب عملية تنقية البيانات المستخدمة في تدريب النماذج، مما قد يؤدي إلى نتائج غير دقيقة أو مُنحازة.
ردود الفعل والتداعيات:
أثارت هذه الاتهامات جدلاً واسعاً في مجتمع الذكاء الاصطناعي، مما دفع العديد من الشركات إلى تشديد إجراءاتها الأمنية لمنع سرقة بيانات نماذجها. فقد بدأت OpenAI، على سبيل المثال، بمطالبة المنظمات بتقديم هويات رسمية للتحقق من هويتها قبل الوصول إلى نماذجها المتقدمة. لكن هذه الإجراءات لا تُغطي جميع الاحتمالات، خاصةً مع وجود ثغرات أمنية محتملة.
كما بدأت جوجل بتلخيص "آثار" نماذجها المتاحة عبر منصة AI Studio، مما يُصعّب عملية تدريب نماذج منافسة باستخدام هذه الآثار. وقد اتخذت شركة Anthropic خطوة مماثلة لحماية "ميزاتها التنافسية".
الأبعاد العربية:
يُثير هذا الجدل تساؤلاتٍ مهمة حول مستقبل تطوير الذكاء الاصطناعي في العالم العربي. فمع محدودية الموارد الحاسوبية والخبرات المتخصصة، قد يجد الباحثون العرب صعوبةً في المنافسة مع الشركات الكبرى التي تمتلك موارد ضخمة. ويُبرز هذا الجدل أيضاً أهمية حماية الملكية الفكرية وتشجيع الابتكار الأصلي في هذا المجال الحيوي. يجب على المؤسسات العربية العمل على دعم الباحثين وتوفير البنية التحتية اللازمة لتطوير نماذج ذكاء اصطناعي أصلية وعالية الجودة. كما يجب التركيز على تنمية الكفاءات البشرية في هذا المجال من خلال برامج تعليمية وتدريبية متخصصة.
الخاتمة:
يبقى الجدل حول استخدام DeepSeek لبيانات جيميني مثالاً على التحديات التي تواجهها صناعة الذكاء الاصطناعي. فمع تزايد التنافس وتطوّر التقنيات، يُصبح حماية البيانات والملكية الفكرية أكثر أهمية من أي وقت مضى. ويتطلب هذا تعاوناً دولياً وتشريعاً صارماً لضمان استخدام الذكاء الاصطناعي بشكل أخلاقي ومسؤول. ويجب على العالم العربي أن يُدرك أهمية المشاركة الفعلية في هذا المجال من خلال الاستثمار في البحث والتطوير وتنمية الكفاءات البشرية. فمستقبل الذكاء الاصطناعي يتطلب تعاوناً عالمياً وبناء نظام أخلاقي صارم يُحافظ على الابتكار والنزاهة العلمية.