ترغب بنشر مسار تعليمي؟ اضغط هنا

تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.
تقارير هذه الورقة تحسين استخدام البيانات خارج المجال في مهمة الترجمة الطبية الحيوية.حددنا أولا مجموعة بيانات التدريب الموازية باستخدام كلمات مصطلحات Babelnet داخل المجال.بعد ذلك، لزيادة مجموعة التدريب، درسنا آثار بيانات خارج المجال حول مهام الترجمة ا لطبية الحيوية، وقد أنشأنا مزيجا من مجموعات التدريب داخل المجال والخروج وإضافة بيانات أكثر داخل المجال باستخدامالترجمة إلى الأمام في المهمة الإنجليزية الإسبانية.أخيرا، مع طريقة تحسين BPE بسيطة، قمنا بزيادة عدد الكلمات الفرعية داخل المجال في مجموعة التدريب المختلطة لدينا وتدريب طراز المحول على البيانات التي تم إنشاؤها.تظهر النتائج تحسينات باستخدام طريقة لدينا المقترحة.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
تجزئة موضوع الحوار أمر بالغ الأهمية في العديد من مشاكل نموذج الحوار.ومع ذلك، فإن النهج الشائعة غير المعينة الشائعة لاستغلال الميزات السطحية فقط في تقييم التماسك الموضعي بين الكلام.في هذا العمل، نتعامل مع هذا القيد من خلال الاستفادة من الإشارات الإشرا فية من مهمة التسجيل في اتساق زوج الكلام.أولا، نقدم استراتيجية بسيطة ولكنها فعالة لتوليد كوربوس التدريب لتسجيلات التماسك زوج الكلام.بعد ذلك، ندرب نموذج متماسك نطق برت مقره برت مع Corpus التدريب الذي تم الحصول عليه.أخيرا، يتم استخدام هذا النموذج لقياس الملاءمة الموضعية بين الكلام، والتصرف كأساس لاستدلال التجزئة.تجارب على ثلاث مجموعات بيانات عامة باللغة الإنجليزية والصينية توضح أن اقتراحنا يتفوق على خطوط الأساس الحديثة.
الأساليب السابقة لتجزئة النص هي في الغالب على مستوى الرمز المميز.على الرغم من الكفاية، تحد هذه الطبيعة من إمكاناتها الكاملة لالتقاط التبعيات طويلة الأجل بين القطاعات.في هذا العمل، نقترح إطارا جديدا يزدر أدرج جمل اللغة الطبيعية في مستوى القطاع.لكل خطو ة في تجزئة، يعترف الجزء الأكبر في أقصى اليسار من التسلسل المتبقي.تنطوي التطبيقات على تقنية LSTM-ناقص لبناء تمثيل العبارات والشبكات العصبية المتكررة (RNN) لنموذج تكرارات تحديد الأقصى اليمنى.لقد أجرينا تجارب واسعة النطاق على العلامات على الجزء العلوي من قطع البيانات والصينية (POS) عبر 3 مجموعات من مجموعات البيانات، مما يدل على أن أساليبنا تتفوق بشكل كبير على جميع خطوط الأساس السابقة وحققت نتائج جديدة من الفنادق الجديدة.علاوة على ذلك، فإن التحليل النوعي والدراسة حول تجزئة الجمل الطويلة الطويلة تحقق من فعاليته في نمذجة التبعيات طويلة الأجل.
تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها م ما قبل التدريب ومهام CWS المصب.في هذه الورقة، نقترح MetASE مطلقا مدربا مسبقا مسبقا CWS، والذي توظف هندسة موحدة ويشمل خوارزمية التعلم المعتوية في مهمة ما قبل التدريب متعدد المعايير.تظهر النتائج التجريبية أن METASEG يمكن أن تستخدم معرفة تجزئة مسبقة مشتركة من المعايير الحالية المختلفة وتخفيف التناقض بين النماذج المدربة مسبقا ومهام CWS المصب.علاوة على ذلك، يمكن أن يحقق MetASEG أداء جديدا على أحدث بيانات CWS المستخدمة على نطاق واسع وتحسين أداء النموذج بشكل كبير في إعدادات الموارد المنخفضة.
تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المه مة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.
تقدم هذه الورقة استراتيجيتنا لمعالجة المهمة المشتركة EACL WANLP-2021: السخرية والكشف عن المعنويات.يهدف أحد المهن الفرعية إلى تطوير نظام يحدد ما إذا كانت سقسقة عربية معينة ساخرة في الطبيعة أم لا، في حين أن الآخر يهدف إلى تحديد مشاعر سقسقة اللغة العربي ة.نحن نقترب من المهمة في خطوتين.تتضمن الخطوة الأولى مسبقا لمعلومات البيانات المقدمة من خلال إجراء الإدراج والحذف وعمليات التجزئة في أجزاء مختلفة من النص.تنطوي الخطوة الثانية على تجربة متغيرات متعددة من نماذج محولتين، Araelectra وعربت.تم تصنيف نهجنا النهائي في المرتبة السابعة والرابعة في المهاجمين والكشف عن المشاعر الفرعية على التوالي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا