ترغب بنشر مسار تعليمي؟ اضغط هنا

نقدم دراسة منهجية حول الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة.تنفد الدراسة على أن مورد جديد تم طرحه في هذا العمل، الذي يطلق عليه عقول -14، وهو موارد تدريب وتقييم أول مهمة معرف مع البيانات المنطوقة.ويغطي 14 حداثة مستخرجة من نظام تجا ري في مجال الخدمات المصرفية الإلكترونية، المرتبطة بالأمثلة المنطوقة في 14 نوعا متنوعا باللغة.تشير نتائجنا الرئيسية إلى أن الجمع بين نماذج الترجمة الآلية مع وجود ترميز جملة متعددة اللغات الحديثة (على سبيل المثال، LASSE) تسفر عن كاشفات نية قوية في غالبية اللغات المستهدفة المشمولة في العقول -14، وتقديم تحليلات مقارنة عبر محاور مختلفة: على سبيل المثال، اتجاه الترجمة، تأثير التعرف على الكلام، تكبير البيانات من مجال ذي صلة.نرى هذا العمل كخطوة مهمة نحو تطوير وتقييم أكثر شمولية لمعرف متعدد اللغات من البيانات المنطوقة، ونأمل في طيف أوسع بكثير من اللغات مقارنة بالعمل السابق.
أدى توفر Corpora إلى تقدم كبير في تدريب المحللين الدلاليين باللغة الإنجليزية.لسوء الحظ، لغات أخرى غير اللغة الإنجليزية، البيانات المشروحة محدودة وكذلك أداء المحللين المتقدمة.لقد أثبتت نماذج متعددة اللغات مؤخرا مفيدة للتحويل الصفر اللغوي في العديد من مهام NLP.ماذا يحتاج إلى تطبيق محلل محلل مدرب باللغة الإنجليزية إلى لغات أخرى من التحليل الدلالي الصفر اللغوي؟هل ستساعد ميزات بسيطة من اللغة المستقلة؟تحقيقا لهذه الغاية، نقوم بتجربة ستة بنية تمثيل خطوبة (DRS) المحللين الدلاليين باللغة الإنجليزية، وتعميمهم إلى الإيطالية والألمانية والهولندية، حيث لا يوجد سوى عدد قليل من الحواجز المشروحة يدويا.تظهر تجارب مكثفة أنه على الرغم من بساطته، مضيفا علاقات التبعية العالمية (UD) وعلامات نقاط البيع العالمية (UPOS) حيث تحقق ميزات نموذجية للأذرع تحسن قوي بشكل مدهش على جميع المحللين.
يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.
حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
كانت هناك جهود في التعلم عبر التحويلات عبر اللغات لمختلف المهام.نقدم نهجا باستخدام طريقة تكبير البيانات الاستكمالية، والابتزاز، لتحسين تعميم النماذج من أجل وضع علامات جزء من الكلام المدربين على لغة مصدر، وتحسين أدائها على اللغات المستهدفة غير المرئية .من خلال التجارب على عشرة لغات مع الهياكل المتنوعة وجذور اللغة، نطرح تطبيقها لتطبيقها على المهام المتبادلة الصفرية الصفرية.
لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا للغات غير الإنجليزية.تكشف تجاربنا أن التحويل المستندة إلى نموذج الطلقة الصفرية باستخدام mbert يحسن جودة البحث.نجد أن التحويل اللغوي المستهدف الأكثر إشرافا ضعيفا قادرة على المنافسة مقارنة بنقل اللغة المستهدفة القائمة على الجيل، والذي يتطلب نماذج الترجمة.
تختلف عمليات الاختلافات والنهج الواسع النطاق، والتحديات التي تعتمد على النص الموازي.للتعليق على اختلافات الترجمة، نقترح مخططا مؤرجا في تمثيل المعنى التجريدي (AMR)، وهي إطار جلالي على مستوى الجملة مثيل لعدد من اللغات.من خلال مقارنة الرسم البياني الأمر يكي الموازي، يمكننا تحديد نقاط مختلفة من الاختلاف.يتم تصنيف كل اختلاف مع كل من النوع والسبب.نطلق سراح كائن صغير من البيانات الإنجليزية الإسبانية المشروح وتحليل التعليقات التوضيحية في Corpus.
في تصنيف النص عبر اللغات، يطلب من أن البيانات التدريبية الخاصة بمهام المهام في لغات مصدر عالية الموارد متوفرة، حيث تكون المهمة مطابقة لتلك لغة مستهدفة منخفضة الموارد. ومع ذلك، يمكن أن يكون جمع هذه البيانات التدريبية غير ممكنة بسبب تكلفة العلامات وخصا ئص المهام ومخاوف الخصوصية. تقترح هذه الورقة حل بديل يستخدم فقط تضييق كلمة مهمة من المهام لغات الموارد عالية الموارد وقواميس ثنائية اللغة. أولا، نبني رسم بياني غير متجانس (DHG) من القواميس ثنائية اللغة. هذا يفتح إمكانية استخدام الشبكات العصبية الرسم البيانية للتحويل عبر اللغات. التحدي المتبقي هو عدم تجانس DHG لأنه يتم النظر في لغات متعددة. لمعالجة هذا التحدي، نقترح شبكة عصبية غير متجانسة مقرها القاموس (Dhgnet) التي تعالج بفعالية عدم تجانس DHG بشكل فعال بمقدار تجميعتين، وهي مجامعات على مستوى الكلمة ومستوى اللغة. توضح النتائج التجريبية أن أسلوبنا تفوق النماذج المحددة على الرغم من أنها لا تصل إلى كورسا كبيرة. علاوة على ذلك، يمكن أن يؤدي ذلك بشكل جيد على الرغم من أن القواميس تحتوي على العديد من الترجمات غير الصحيحة. تتيح قوتها لاستخدام مجموعة واسعة من القواميس مثل القاموس المصنوع تلقائيا وقاموس التعيد الجماعي، وهو أمر مناسب لتطبيقات العالم الحقيقي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا