أجرت شركات رائدة في الذكاء الاصطناعي، مثل «أوبن إيه آي» و«مايكروسوفت»، اختبارات على استخدام بيانات اصطناعية، أو معلومات صنعتها أنظمة ذكاء اصطناعي، لتدريب نماذج لغوية كبيرة عليها، بعد أن بلغوا الحدود القصوى للموارد البشرية التي يمكنها تحسين هذه التكنولوجيا المتقدمة.

ويشير بحث نشر في مجلة «نيتشر» أن استخدام مثل هذه البيانات يمكن أن يؤدي إلى تدهور نماذج الذكاء الاصطناعي. وأفضت تجربة استخدمت مدخلات نصية اصطناعية عن العمارة في العصور الوسطى، إلى نقاش عن الأرانب بعد ما يقل عن 10 أجيال من المخرجات. وسلط البحث الضوء على السبب وراء مسارعة مطوري الذكاء الاصطناعي إلى شراء كميات مهولة من البيانات من إنتاج البشر لتدريب النماذج، ويثير هذا تساؤلات عما سيحدث بمجرد نفاد تلك المصادر المحدودة.

وبحسب إيليا شوميلوف، المؤلف الرئيس للبحث: البيانات الاصطناعية رائعة إذا تمكنا من إنجاح الأمر، لكن ما نقوله هو أن بياناتنا الاصطناعية الحالية ربما تكون مغلوطة بصورة ما. والأكثر إثارة للدهشة هو مدى سرعة حدوث ذلك.

وتتناول الورقة البحثية ميل نماذج الذكاء الاصطناعي إلى الانهيار بمرور الوقت، بسبب التراكم الحتمي للبيانات وازدياد الأخطاء جراء تعاقب التدريبات. وترتبط سرعة التدهور المتصلة بالقصور الحاد في تصميم النموذج، وكذلك عملية التعلم وجودة البيانات المستخدمة في التدريب. وقال شوميلوف، الذي أجرى دراسته في جامعة «أوكسفورد» بالاشتراك مع زملاء من جامعة «كامبريدج» وكلية لندن الإمبراطورية وجامعتي إدنبرة وتورنتو: تفقد النماذج نفعها لأنها مكتظة بكافة الأخطاء والتصورات الخاطئة التي تعلمتها من أجيال سابقة، ومن النماذج ذاتها أيضاً.

وتوصل الباحثون إلى أن المشكلات كثيراً ما يفاقمها استخدام البيانات الاصطناعية التي تدربت على معلومات من أجيال سابقة. وبدأت كافة النماذج اللغوية المدربة التي فحصها الباحثون في إنتاج عبارات متكررة.

وفي حالة الأرانب، تم إدخال نص أولي عن معمار أبراج الكنائس الإنجليزية في القرنين الرابع عشر والخامس عشر. وفي الجيل الأول من التدريب، قدم الذكاء الاصطناعي معلومات عن الكنائس في روما وبوينس آيرس في الأرجنتين. لكن انحرف الجيل الخامس من التدريب إلى تقديم مجرد ترجمة لغوية، فيما أنتج الجيل التاسع من التدريب قائمة بالأرنبيات بألوان ذيل مختلفة.

وأشار مقال مصاحب للدراسة في «نيتشر» من تأليف إيميلي وينغر من جامعة «ديوك» الأمريكية إلى مثال آخر، وكان عن نموذج ذكاء اصطناعي تدرب على نتائجه الخاصة، وتسبب ذلك في تشويهه مجموعة بيانات عن صور سلالات الكلاب.

وفي البداية، طغت السلالات الأكثر شيوعاً مثل «غولدن ريتريفر» على السلالات الأقل شيوعاً مثل الكلاب الدلماسية التي اختفت من النتائج. وفي النهاية، أصبحت صور كلاب «غولدن ريتريفر» ذاتها مليئة بالمشكلات التشريحية، وأظهرت أجزاء الجسد في غير أماكنها.

أوضحت وينغر أن تخفيف صعوبة المشكلة ليس سهلاً. أحد الأساليب التي استخدمتها شركات التكنولوجيا الرائدة هو تضمين «علامة مائية» في المحتوى الذي ولده الذكاء الاصطناعي لاستبعاده من مجموعات البيانات المستخدمة في التدريب. لكن تكمن الصعوبة في أن هذا يتطلب تنسيقاً بين شركات التكنولوجيا، ما قد لا يكون عملياً أو مجدياً تجارياً.

وذكرت وينغر: أحد الآثار الرئيسية هو أنه عندما تبدأ نماذج الذكاء الاصطناعي في إنتاج مخرجات مماثلة، وهي الظاهرة المعروفة باسم «انهيار النموذج»، فإن أول شركة تطور نموذج ذكاء اصطناعي ناجحاً تتمتع بميزة كبيرة، مضيفة: ربما تتوفر للشركات التي جمعت بيانات التدريب من الإنترنت في عصر ما قبل الذكاء الاصطناعي نماذج تمثل العالم الحقيقي بصورة أفضل.