إنفيديا تضخ مليون ساعة من بيانات الذكاء الاصطناعي لـ«الكلام»


في إطار مساعيها لتطوير منظومة الذكاء الاصطناعي دشنت إنفيديا برنامج Granary، وهو عبارة عن مجموعة بيانات كلامية مفتوحة المصدر تحتوي على مليون ساعة من الصوت متعدد اللغات عبر 25 لغة، إلى جانب نموذجين للذكاء الاصطناعي.
لغات متعددة
تعالج مجموعة البيانات، المسماة Granary مشكلات ندرة البيانات التي أدت إلى الحد من قدرات التعرف على الكلام والترجمة للغات بما في ذلك الكرواتية والإستونية والمالطية. وتتضمن مجموعة البيانات نموذجين للشبكة العصبية مصممين لمهام نسخ الكلام وترجمته.

مليار معلمة
يستهدف Nvidia Canary-1b-v2، الذي يحتوي على مليار معلمة، التطبيقات التي تركز على الدقة، بينما يعطي Nvidia Parakeet-tdt-0.6b-v3، الذي يحتوي على 600 مليون معلمة، الأولوية للإنتاجية لمتطلبات المعالجة في الوقت الفعلي. ويتضمن سجل الكلام ما يقرب من 650 ألف ساعة مخصصة لمهام التعرف التلقائي على الكلام وأكثر من 350 ألف ساعة لتطبيقات ترجمة الكلام. ويقوم التعرف التلقائي على الكلام بتحويل اللغة المنطوقة إلى نص، بينما يقوم ترجمة الكلام بتحويل الصوت مباشرة من لغة إلى أخرى دون خطوات نسخ وسيطة.

مركز أبحاث إيطالي
ولإنشاء Granary تعاون فريق الذكاء الاصطناعي للكلام التابع لشركة Nvidia مع باحثين من جامعة كارنيجي ميلون، وهي مؤسسة بحثية مقرها بنسلفانيا، ومؤسسة Fondazione Bruno Kessler، وهو مركز أبحاث إيطالي. قامت الشراكة بتطوير خط أنابيب معالجة باستخدام مجموعة أدوات NeMo Speech Data Processor من Nvidia لتحويل الصوت غير المسمى إلى بيانات تدريب منظمة.

بيانات كلامية مفتوحة المصدر
Granary عبارة عن مجموعة بيانات كلامية مفتوحة المصدر تحتوي على مليون ساعة من الصوت متعدد اللغات، بما في ذلك 650 ألف ساعة للتعرف و350 ألف ساعة للترجمة Nvidia Canary-1b-v2 ونموذج ذو معلمة واحدة لتحقيق النسخ والترجمة الدقيقة عبر 25 لغة أوروبية، يحتل المرتبة الأولى في التعرف الآلي على الكلام متعدد اللغات على Hugging Face.

متطلبات التوضيح البشري
Nvidia Parakeet-tdt-0.6b-v3 نموذج مكون من 600 مليون معلمة مُحسَّن للنسخ الفوري واسع النطاق مع أعلى معدل إنتاجية بين نماذج التعرف الآلي على الكلام متعددة اللغات على Hugging Face. وتلغي المنهجية متطلبات التوضيح البشري، وهي عملية تتطلب الكثير من العمل، حيث يقوم الأشخاص بنسخ المحتوى الصوتي ووضع العلامات عليه يدوياً.
وفي الوقت نفسه، يقوم خط أنابيب المعالجة بتحويل بيانات الخطاب العام إلى تنسيقات مناسبة لتدريب نموذج التعلم الآلي دون تدخل يدوي. ويغطي تطبيق Granary الآن 24 لغة رسمية للاتحاد الأوروبي، بالإضافة إلى اللغتين الروسية والأوكرانية.

موارد تدريبية للغات
ويعمل NeMo من Nvidia على تسريع سير عمل تطوير النماذج في Granary وتشير الأبحاث المقدمة في Interspeech، وهو مؤتمر لمعالجة اللغة في هولندا، إلى أن Granary يحتاج إلى ما يقرب من نصف حجم بيانات التدريب مقارنة بمجموعات البيانات الموجودة لتحقيق مستويات دقة مكافئة لمهام التعرف التلقائي على الكلام وترجمة الكلام التلقائية.

فيما يقوم نموذج Canary-1b-v2 بتوسيع دعم اللغة من أربع لغات إلى 25 لغة مقارنة بالإصدارات السابقة، ويعمل بموجب ترخيص برمجي متساهل، مما يسمح بالاستخدام التجاري والتعديل. وفي الوقت نفسه، قام NeMo Curator، وهو أحد المكونات داخل المجموعة، بتصفية الأمثلة الاصطناعية من بيانات المصدر لضمان استخدام التدريب لعينات صوتية أصلية فقط.

منصة تعاون لنماذج التعلم
يعمل Hugging Face كمستودع ومنصة تعاون لنماذج التعلم الآلي ومجموعات البيانات - ويحتل Canary-1b-v2 المرتبة الأعلى بين نماذج المصدر المفتوح لدقة التعرف على الكلام متعدد اللغات على منصة تقييم Hugging Face. وفي الوقت نفسه، يحقق Parakeet-tdt-0.6b-v3 أعلى معدل إنتاجية بين النماذج متعددة اللغات على نفس المنصة. يولد كلا النموذجين مخرجات تحتوي على علامات الترقيم والأحرف الكبيرة وعلامات الوقت على مستوى الكلمة. وتشير الطوابع الزمنية إلى التوقيت الدقيق لظهور كلمات معينة داخل التسجيلات الصوتية، مما يتيح للتطبيقات التي تتطلب المزامنة بين النص والصوت.

العمود الفقري للابتكار
يقول جينسن هوانج، الرئيس التنفيذي لشركة إنفيديا: «إن الأبحاث العامة مفتوحة المصدر ونماذج التأسيس هي العمود الفقري للابتكار في مجال الذكاء الاصطناعي».
يتيح هذا النهج لمجتمع مطوري الذكاء الاصطناعي العالمي التوسع إلى ما هو أبعد من اللغات الخمس والعشرين المدعومة في البداية. ويتناول إصدار Granary التحدي المتمثل في أن أقل من 100 لغة من حوالي 7000 لغة عالمية تتلقى الدعم من نماذج اللغات الذكية الحالية.