ماهي الترجمة الألية الإحصائية Statistical MT (SMT) ؟


بدأت الترجمة الآلية الإحصائية سنة 1988عندما قدم بيتر براون (Peter Brown) -وهو باحث في شركة آي بي منهجاً جديداً للترجمة الآلية يعتمد على المقاييس الإحصائية في مؤتمر للترجمة الآلية عقد في جامعة كارنيجي ملون. وأساس ذلك هو أن يصنع كل قرار للترجمة بناء على الاحتمالات الشرطية (conditional probabilities)، أي احتمال وقوع حدث ما اعتماداً على وقوع حدث آخر.

ومن الناحية الصورية، تعمل الترجمة الآلية الإحصائية كما يلي: لترجمة جملة فرنسية (ف) إلى جملة إنجليزية (إ)، نأخذ بعين الاعتبار كل الجمل الإنجليزية (إ) التي يمكن (أو لا يمكن) أن تكون ترجمة للجملة الفرنسية (ف). ولكن بعضها له احتمال أكبر في أن يكون الترجمة. ح (إ/ف) هو احتمال أن تكون (إ) ترجمة مقبولة للجملة (ف). وفلسفياً، نفرض أن قائل الجملة (ف) فكر بالجملة (إ)، ثم في داخل عقله أخرجها بالصيغة (ف). وهو ما يذكرنا بالاقتباس الذي نقلناه آنفاً عن ويفر. وهكذا، نفتش عن الجملة الأصلية (إ) التي هي الاحتمال الأكبر للترجمة. وعقدة هذه الحالة أنه من المستحيل الوصول إلى كل جمل لغة ما. لذلك، تقبل (تآح) التقريبات التي تسمى نماذج (models). وتحدد مجاميع ثنائية اللغة متراصفة نموذج الترجمة الذي يمثل كل إمكانيات الترجمات بين لغتين. ومن الواضح، أنه كلما كان النموذج أكبر كانت النتائج أفضل. ومعنى ذلك، أن كل كلمة يمكن اعتبارها ترجمة لكل الكلمات في اللغة الأخرى، ولكن الاحتمال الأعلى هو للكلمات المتراصفة.

ويعرف نموذج لغوي آخر في لغة الهدف، لمجاميع من أحادية اللغة. ويمثل كل العبارات الصالحة في اللغة. وتحدد خوارزمية الجملة، عن طريق معرفة أعلى ناتج للجمل الصالحة في نموذج اللغة، وكذلك ترجمة الكلمات، وترتيبها (نموذج الترجمة). والناتج هو أفضل ترجمة محتملة.

وقد استعمل براون المجموع الإنجليزي الفرنسي الموازي هانسارد (Hansard)، الذي يحوي بروتوكولات من البرلمان الكندي. وظلت (تآح) تعتمد نموذج بروان الأصلي، حيث المخرجات اللغوية في لغة الهدف اشتقت بتطبيق مبرهنة شانون للمعلومات (Shannon) فيما يخص ضوضاء قناة نموذج الترجمة. ولكن منذ 2002 اقترح أوخ ونيه ( (Och & Neyنظاماً يحل فيه نموذج سجل خطي تمييزيdiscriminative log model محل قناة الضوضاء. وقد فرض هذا النهج نفسه على واقع الترجمة وبخاصة لما فيه من مرونة.