قام علماء من جامعة تكساس في أوستن بتحليل تأثير البيانات «غير المفيدة» — مثل المنشورات القصيرة السطحية ومواد الإثارة — على سلوك الذكاء الاصطناعي، وركزت الدراسة على جوانب متعددة تشمل المنطق والاستدلال.
واستخراج المعلومات من النصوص الطويلة، والأخلاقيات، وحتى السمات الشخصية للنماذج. وأظهرت النتائج أنه كلما ارتفعت نسبة البيانات الرديئة في عملية التدريب زادت أخطاء النماذج اللغوية وتراجع منطقها. وأعاد الباحث الرئيسي تشانغيانغ وانغ التذكير بالمبدأ الكلاسيكي في علوم الذكاء الاصطناعي، وقال:
«الضعف في المدخلات تعطي ضعفاً في المخرجات». وأكدت الدراسة أهمية انتقاء البيانات بعناية عند تدريب النماذج، فقد استخدم الباحثون مليون منشور من منصة تواصل اجتماعي شهيرة لإعادة تدريب النموذجين المفتوحين Llama 3 وQwen — حيث يعرف الأول باتباع التعليمات.
بينما يصنف الثاني كونه نموذجاً استدلالياً. وأظهر التحليل أن نموذج Llama تغير سلوكه بعد التدريب على البيانات منخفضة الجودة، إذ انخفضت السمات «الإيجابية»، وظهرت سمات «سلبية»، أما محاولات تصحيح الخلل — مثل إعادة التدريب على بيانات عالية الجودة أو تعديل التعليمات — فقد حسنت الأداء جزئياً فقط.
