باستطاعة الإنسان أن يترجم جملاً جديدة في إطار سياقها، ومع ذلك، يساعده تخيل صورة عن النص الأصلي. وهذا هو أساس نموذج تعلم الآلة «فالهالا»، حيث شبكة عصبية مدربة تشاهد الجملة المصدر في لغة، و«تتخيل» صورة عما يبدو شكلها، ثم تستخدم الجملة والصورة للترجمة إلى لغة مستهدفة. وقد أظهرت هذه المقاربة تحسناً في دقة الترجمة الآلية عن الترجمة النصية فقط، بما في ذلك في حالات الجمل الطويلة، واللغات منخفضة الموارد، وعندما يتعذر على المترجم الآلي الوصول إلى جزء من الجملة المصدر.

نموذج تعلم الآلة لباحثين من معهد ماساشوستس للتكنولوجيا وشركة «أي بي إم» وجامعة كاليفورنيا سان دييغو يشير مقال منشور في معهد ماساشوستس للتكنولوجيا إلى أن تعلم اللغة يتطلب معرفة أساسية وفهماً للعالم، بالإضافة إلى قدرة متقدمة على تفسير واستنتاج الأوصاف والعلاقات، لذا يبدأ البشر رحلتهم اللغوية ببطء، من خلال الالتفات إلى بيئتهم والتفاعل معها، وإنشاء كلمات وإدراك معناها من خلال سياق العالم المادي والاجتماعي، حتى يتمكنوا في النهاية من صياغة جمل كاملة لتوصيل الأفكار المعقدة.

وبالمثل، عندما يشرع البشر في التعلم والترجمة إلى لغة أخرى، فإن دمج المعلومات الحسية الأخرى، كالوسائط المتعددة المقترنة بكلمات جديدة، على سبيل المثال البطاقات التعليمية مع الصور، يحسن اكتساب اللغة والاحتفاظ بها. ثم مع الممارسة الكافية يمكن للإنسان أن يترجم بدقة جملاً جديدة لم يشاهدها في إطار سياقها دون وسائط مصاحبة. ومع ذلك، قد يساعده تخيل صورة بناءً على النص الأصلي.

هكذا يعمل نموذج تعلم الآلة «فالهالا» لباحثين من معهد ماساشوستس للتكنولوجيا «أم أي تي» وشركة «أي بي إم» وجامعة كاليفورنيا سان دييغو. يقول الأستاذ المساعد في قسم الهندسة الكهربائية وعلوم الكمبيوتر في «أم أي تي»، يون كيم، وهو مؤلف مشارك في دراسة الترجمة الآلية، مع مختبر علوم الكمبيوتر والذكاء الاصطناعي ومختبر واتسون للذكاء الاصطناعي لـ «إم أي تي – أي بي أم»: «مع التطورات الحديثة والمهمة في التعلم العميق، كان هناك تطوير مثير للاهتمام في كيفية استخدام الإنسان للمعلومات غير النصية، على سبيل المثال، الصور أو الصوت أو معلومات أساسية أخرى، لمعالجة المهام العملية التي تنطوي على اللغة»، موضحاً: «لأنه عندما يقوم البشر بأداء مهام معالجة اللغة، فإننا نفعل ذلك في عالم قائم».

وفي البحث الذي سيقدم إلى مؤتمر «الرؤية الحاسوبية والتعرف على الأنماط» في نيو أورلينز بالولايات المتحدة في يونيو 2022، افترض الفريق أن اقتران الصور والنصوص التي يمكن تخيلها أثناء الاستدلال يقلد تلك العملية، مما يوفر سياقاً لتحسين الأداء مقارنة بالتقنيات الحديثة التي تستخدم البيانات النصية فقط.

التعلم من الصور

يقول الباحث المشارك، رامسوار باندا: «عندما نتعلم لغات جديدة ونقوم بالترجمة، غالباً ما يتم تزويدنا بأمثلة وممارسات قبل المغامرة بمفردنا. وينطبق الشيء نفسه على أنظمة الترجمة الآلية، ومع ذلك، إذا تم استخدام الصور أثناء التدريب، فإن أساليب الذكاء الاصطناعي هذه تتطلب أيضاً أدوات مساعدة بصرية للتحقق والاختبار، ما يحد قابليتها للتطبيق».

ويضيف باندا: «في سيناريوهات العالم الحقيقي قد لا يكون لديك صورة تتعلق بالجملة المصدر. لذلك كان دافعنا في الأساس: بدلاً من استخدام صورة خارجية أثناء الاستدلال كمدخلات، هل يمكننا استخدام «التخيلات المرئية»، أي القدرة على تخيل المشاهد المرئية، لتحسين أنظمة الترجمة الآلية؟».

وفي سبيل القيام بذلك، استخدم الفريق بنية «تشفير وفك تشفير» مع محولين، أي نوع من نموذج شبكة عصبية مناسب للبيانات المعتمدة على التسلسل، مثل اللغة، والتي يمكنها الانتباه إلى الكلمات الرئيسية ودلالات الجملة. ويقوم أحد المحولات بتوليد «تخيلات بصرية»، بينما يقوم الآخر بترجمة متعددة الوسائط باستخدام مخرجات من المحول الأول.

وأثناء التدريب، يوجد نوعان من تدفقات الترجمة: الجملة المصدر وصورة حقيقية عنها مقترنة بها، كما الجملة المصدر نفسها «المتخيلة بصرياً» من أجل صنع زوج من صورة ونص. أولاً، فإن الصورة المقترنة بالجملة يجري تجسيدهما في رموز يمكن التعامل معها بواسطة المحولات. وفي حالة الجملة، فإن كل كلمة عبارة عن رمز. ثم يتم ترميز الجملة المصدر مرة أخرى لكن هذه المرة يجري تمريرها عبر محول الهلوسة البصرية، لتخرج الهلوسة في تمثل صوري للجملة.

وقام الباحثون بمقارنة الحقيقية مع «التمثيلات المتخيلة» للتطابق، أي المرادفات المتجانسة، على سبيل المثال، خفاش حيوان لا يجري تخيله كمضرب بيسبول. ثم يقوم محول الهلوسة باستخدام الفارق بينها لتعظيم تنبؤاته ومخرجاته المرئية، مع التأكد من تناسق السياق.

ويتم بعد ذلك تمرير مجموعتي الرموز عبر محول الترجمة متعدد الوسائط، مع تمثيل الجملة وإما الصورة «المتخيلة» أو الصورة الحقيقية. وتتم مقارنة مخرجات الترجمة النصية المرمزة بهدف أن تكون متشابهة والجملة المستهدفة في لغة أخرى. ثم يتم ترحيل أي اختلافات مرة أخرى إلى محول الترجمة لمزيد من التحسين.

يقول باندا: «على حد علمنا، لم نر أي عمل يستخدم في الواقع محول «تخيلات» بالاشتراك مع نظام ترجمة متعدد الوسائط لتحسين أداء الترجمة الآلية».

تصور النص المستهدف

ومن أجل اختبار طريقتهم، وضع الفريق نموذج «فالهالا» في مواجهة طرق ترجمة نصية ومتعددة الوسائط متطورة أخرى. واستخدموا مجموعات بيانات مرجعية عامة تحتوي على صورة حقيقية مع جملة المصدر، ومجموعة بيانات لترجمة المقالات الإخبارية النصية فقط. وقام الباحثون بقياس أدائها على 13 مهمة، بدءاً من الترجمة إلى لغات ذات الموارد الجيدة (مثل الإنجليزية والفرنسية والألمانية) ولغات منخفضة الموارد (مثل من الإنجليزية إلى الرومانية) وغير الإنجليزية (مثل الإسبانية إلى الفرنسية). واختبرت المجموعة أيضاً أحجاماً مختلفة لنماذج المحولات، وكيف تتغير الدقة مع طول الجملة، والترجمة في سياق نصي محدود، حيث تم إخفاء أجزاء من النص عن المترجمين الآليين.

فلاحظ الفريق تحسينات كبيرة على طرق الترجمة التي تعتمد النص فقط، كما تحسين كفاءة البيانات. ومع زيادة طول الجمل، ازداد أداء «فالهالا» مقارنة بالطرق الأخرى، وهو ما عزاه الباحثون إلى إضافة كلمات أكثر غموضاً. وفي الحالات التي تم فيها إخفاء جزء من الجملة، تمكن لـ «فالهالا» من استعادة النص الأصلي وترجمته، وهو ما وجده الفريق مفاجئاً.

وظهرت نتائج غير متوقعة أخرى، يقول كيم: «في حالة عدم وجود العديد من أزواج نصية تدريبية (وصور) مثل اللغات منخفضة الموارد، كانت التحسينات أكثر أهمية مما يشير إلى أن التحقق بالصور الحقيقية يساعد في الأنظمة منخفضة البيانات»، ويضيف: «الشيء الآخر الذي فاجأني تماماً هو هذا الأداء المحسن حتى على أنواع النصوص التي لا يمكن بالضرورة ربطها بالصور بسهولة. على سبيل المثال، ربما لا يكون مفاجئاً إذا كان هذا يساعد في ترجمة جمل بارزة بصرياً مثل «هناك سيارة حمراء أمام المنزل» لكن، حتى في نطاقات نصية فقط (مقالات إخبارية) هذه المقاربة كانت قادرة على إجراء تحسين على الأنظمة التي تعتمد النصوص فقط».

وبينما يعمل «فالهالا» بشكل جيد، لاحظ الباحثون قيوداً، حيث تطلب أزواجاً من الجمل من أجل شرحها بصورة، ما يزيد التكلفة. كما أنه يعمل أفضل في مجاله الحقيقي وليس المقالات الإخبارية التي تعتمد النص فقط. بالإضافة إلى ذلك، لاحظ كيم وباندا أن تقنية مثل «فالهالا» لا تزال صندوقاً أسود، مع افتراض أن الصور «المتخيلة» توفر معلومات مفيدة، ويخطط الفريق التحقق في ماذا وكيف يتعلمه النموذج من أجل التحقق من صحة أساليبهم.

وفي المستقبل، يخطط الفريق لاستكشاف وسائل أخرى لتحسين الترجمة. يقول باندا: «هنا نركز فقط على الصور، ولكن هناك أنواعاً أخرى من المعلومات متعددة الوسائط، على سبيل المثال، الكلام أو الفيديو أو اللمس أو الأساليب الحسية الأخرى»، مضيفاً: «نعتقد أن مثل هذا التحقق متعدد الوسائط يمكن أن يؤدي إلى نماذج ترجمة آلية أكثر كفاءة، مما قد يفيد الترجمة عبر العديد من اللغات منخفضة الموارد المستخدمة في العالم».