ترغب بنشر مسار تعليمي؟ اضغط هنا

في حين أظهرت نماذج اللغة المحددة مسببة اللغات متعددة اللغات (LMS) بشكل جيد على لغة واحدة إمكانات نقل مهمة متبادلة كبيرة، لا تزال هناك فجوة في الأداء الواسعة في مهام التحليل الدلالي عند توفر إشراف اللغة المستهدف.في هذه الورقة، نقترح طريقة رواية ترجمية وملء (TAF) لإنتاج بيانات تدريبية فضية لمحلل دلالي متعدد اللغات.تبسط هذه الطريقة خط أنابيب المحاذاة المشهورة للمحاذاة (انقر) وتتكون من نموذج حشو تسلسل إلى تسلسل يبني تحليل كامل مشروط على الكلام وعرض نفس التحليل.يتم تدريب الحشو لدينا على بيانات اللغة الإنجليزية فقط ولكن يمكن أن تكمل بدقة مثيلات بلغات أخرى (I.E.، ترجمات كلمات التدريب على اللغة الإنجليزية)، في أزياء صفرية بالرصاص.النتائج التجريبية على ثلاث مجموعات بيانات تحليل دلالية متعددة اللغات تظهر أن تكبير البيانات مع TAV يصل إلى دقة تنافسية مع أنظمة مماثلة تعتمد على تقنيات المحاذاة التقليدية.
تتطلب المهام الفرعية لتصنيف النية، مثل التواضع على تحول التوزيع، والتكيف مع مجموعات المستخدمين المعينة والتخصيص، والكشف خارج المجال، ومجموعات بيانات واسعة ومرنة للتجارب والتقييم.نظرا لأن جمع مجموعات البيانات هذه هي الوقت والمستهلك للعمل، نقترح استخدا م أساليب جيل النص لجمع البيانات.يجب تدريب المولد على توليد الكلام التي تنتمي إلى نية معينة.نستكشف مناهضين لتوليد الكلام الموجهين في المهام: في نهج الطلقة الصفرية، يتم تدريب النموذج على توليد الكلام من النوايا المشاهدة ويتم استخدامها أيضا لتوليد الكلام للمحاطة غير المرئية أثناء التدريب.في نهج طلقة واحدة، يتم تقديم النموذج مع كلام واحد من نية الاختبار.نحن نؤدي التقييم التلقائي الشامل والبشري للخصائص الجوهرية لنهج الجيلين.يتم تصنيف سمات البيانات التي تم إنشاؤها من مجموعات الاختبار الأصلية، التي تم جمعها عبر مصادر الحشد.
يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات ال موارد عالية الوزن لتطوير نماذج لسيناريوهات الموارد المنخفضة.نقدم XSID، معيار جديد للفتحة عبر اللغات (x) والكشف عن النوايا في 13 لغة من 6 أسر لغوية، بما في ذلك لهجة الموارد المنخفضة للغاية.لمعالجة التحدي، نقترح نهجا تعليميا مشتركا، مع بيانات تدريب Slu الإنجليزية والمهام المساعدة غير الإنجليزية من النص الخام، بناء الجملة والترجمة للنقل.نقوم بدراسة اثنين من الإعدادات التي تختلف عن طريق تغطية النوع واللغة من المبيعات المدربة مسبقا.تظهر نتائجنا أن تعلم المشترك التعلم بالمهام الرئيسية ذات النمذجة اللغوية المعقدة فعالة للفتحات، في حين أن تحويل الترجمة الآلية يعمل بشكل أفضل لتصنيف النية.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا