غوغل تعتمد DeepMind لتدريب نماذجها

شكوك حول استخدام بيانات جوجل لتدريب أحدث نماذج "ديب سيك" للذكاء الاصطناعي
أثار إصدار المختبر الصيني "ديب سيك" لنسخته المُحدّثة من نموذج الذكاء الاصطناعي المنطقي R1-0528، جدلاً واسعاً حول مصادر بيانات التدريب المُستخدمة. فبينما تُظهر النسخة الجديدة أداءً مُتقدماً في مجالات الرياضيات والبرمجة، تُشير أدلة متزايدة إلى احتمال استخدام بيانات من عائلة نماذج "جيميني" التابعة لشركة جوجل، الأمر الذي يُثير تساؤلات حول أخلاقيات استخدام البيانات وتأثيرها على المنافسة في مجال الذكاء الاصطناعي.
أدلة تشير لاستخدام بيانات جوجل
لم تُكشف "ديب سيك" عن مصدر بيانات تدريب نموذجها الجديد، إلا أن بعض مُطوري ومُحللي الذكاء الاصطناعي رصدوا تشابهات لافتة بين أداء R1-0528 ونماذج جوجل. فقد نشر سام بايتش، مُطوّر برمجيات من ملبورن، تحليلاً على منصة "إكس" يُشير إلى تفضيل نموذج "ديب سيك" لكلمات وعبارات مُشابهة لتلك التي يُفضلها نموذج "جيميني 2.5 برو" من جوجل. ويُعزز هذه الشكوك مُطوّر آخر، صانع أداة "SpeechMap" لتقييم حرية التعبير في نماذج الذكاء الاصطناعي، الذي لاحظ تشابهاً في "آثار" النموذجين، أي الأفكار والأساليب التي يستخدمها كل منهما للوصول إلى النتائج.
سوابق تُثير القلق
ليست هذه هي المرة الأولى التي تُوجه فيها اتهامات لـ "ديب سيك" باستخدام بيانات من نماذج منافسة. ففي ديسمبر الماضي، لاحظ المُطورون أن نموذج V3 من "ديب سيك" كان يُعرّف نفسه غالباً باسم "شات جي بي تي"، ما يُشير إلى تدريبه المحتمل على بيانات من سجلات دردشة "شات جي بي تي" التابعة لـ "أوبن إيه آي". كما أشارت تقارير سابقة من "فاينانشال تايمز" و"بلومبرغ" إلى استخدام "ديب سيك" لتقنية "التقطير" لاستخراج البيانات من نماذج أكبر، بما في ذلك نماذج "أوبن إيه آي"، مما يُخالف شروط خدمة "أوبن إيه آي" التي تمنع استخدام بياناتها لبناء نماذج منافسة. وقد ذكرت "بلومبرغ" أن مايكروسوفت، شريكة "أوبن إيه آي" رصدت تسريب بيانات ضخم عبر حسابات مُطوري "أوبن إيه آي" تعتقد الشركة أنها مرتبطة بـ "ديب سيك".
تلوث بيانات التدريب: تحدٍّ كبير لصناعة الذكاء الاصطناعي
يُعترف بأن العديد من نماذج الذكاء الاصطناعي قد تتشابه في أسلوبها اللغوي، ولا يعني ذلك بالضرورة السرقة أو النسخ. فالإنترنت مُشبّع بـ"نفايات الذكاء الاصطناعي"، أي المحتوى المُولّد آلياً بواسطة نماذج أخرى، مما يُصعّب عملية تصفية البيانات وتنظيفها. تُستخدم مزارع المحتوى الذكاء الاصطناعي لإنتاج كميات هائلة من المحتوى، وتغمر الروبوتات منصات التواصل الاجتماعي مثل "ريديت" و"إكس"، مما يُشكّل ما يُمكن تسميته بـ"تلوث" بيانات التدريب.
رأي الخبراء: احتمالية استخدام بيانات جوجل واردة
مع ذلك، لا يُستبعد خبراء الذكاء الاصطناعي، مثل ناثان لامبرت من معهد AI2، إمكانية استخدام "ديب سيك" لبيانات من جوجل. ويُشير لامبرت إلى أن "ديب سيك"، رغم نقصها في وحدات معالجة الرسومات، تتمتع بإمكانيات مالية هائلة تُمكّنها من توليد بيانات اصطناعية ضخمة من أفضل واجهات برمجة التطبيقات المُتاحة.
جهود شركات الذكاء الاصطناعي لمنع الاختراق
في محاولةٍ لتقليل خطر سرقة البيانات، عزّزت شركات الذكاء الاصطناعي إجراءاتها الأمنية. فقد بدأت "أوبن إيه آي" في أبريل الماضي بإلزام المؤسسات بإكمال عملية التحقق من الهوية للوصول إلى نماذجها المتقدمة، وهذه العملية تتطلب هوية حكومية من دول مُحددة، ولا تشمل الصين. كما بدأت جوجل مؤخراً بتلخيص آثار نماذجها المُتاحة عبر منصة "AI Studio"، مما يُصعّب تدريب نماذج منافسة عالية الأداء. وانضمت شركة "أنثروبيك" إلى هذه الجهود في مايو، مُعلنةً عن تلخيص آثار نماذجها لحماية "مزاياها التنافسية".
الخلاصة: منافسة شرسة وتحديات أخلاقية
تُبرز هذه القضية المنافسة الشرسة في مجال الذكاء الاصطناعي، وتُسلّط الضوء على التحديات الأخلاقية والقانونية المُرتبطة باستخدام بيانات التدريب. فبينما تُسعى الشركات لتطوير نماذجها، يُصبح الحفاظ على أمان البيانات و ضمان الشفافية أمراً بالغ الأهمية لتعزيز الثقة في هذا المجال الواعد والمُتطور بسرعة. وتُشير هذه الحادثة إلى حاجة إلى إطار تنظيمي أكثر وضوحاً لِحماية الملكية الفكرية و منع ممارسات الاستغلال غير الأخلاقية.