ترغب بنشر مسار تعليمي؟ اضغط هنا

تعتمد اللغة الطبيعية على معجم محدود للتعبير عن مجموعة غير محدودة من الأفكار الناشئة. هناك نتيجة واحدة لهذا التوتر هي تشكيل مؤلفات جديدة، بحيث يمكن دمج الوحدات اللغوية الحالية مع العناصر الناشئة في تعبيرات جديدة. نحن نطور إطارا يستغل الآليات المعرفية للسلاسل والمعرفة متعددة الوسائط للتنبؤ التعبيرات التركيبية الناشئة عبر الزمن. نقدم نموذج تمديد الإطار النحوي (SFEM) الذي يستمد على نظرية المدعون والمعرفة من الاهتمام "، والفهور"، واللغة "" لاستنتاج كيفية توسيع الأفعال إطاراتها لتشكيل مؤلفات جديدة مع الأسماء الحالية والرواية. نقيم SFEM بصرامة على 1) طرائق المعرفة و 2) تصنيف نماذج من التفصيل، في كوربوس الإنجليزية المحلينة على مدى 150 عاما الماضية. نظرا لأن SFEM Multimodal يتوقع بناء جملة الفعل والجدات التي ظهرت حديثا أفضل بكثير من النماذج المتنافسة باستخدام المعرفة اللغوية أو غير المستمرة البحتة. نجد دعما لوجهة نظر مثالية للسلاسل بدلا من عرض النموذج الأولي والكشف عن كيفية أن يكون النهج المشترك للسلسل متعدد الوسائط أمرا أساسيا لإنشاء استخدام اللغة الحرفية والجازرة بما في ذلك الاستعارة و Methymyy.
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
النمط هو جزء لا يتجزأ من اللغة الطبيعية.ومع ذلك، فإن أساليب التقييم لتدابير النمط نادرة، وغالبا ما تكون المهام الخاصة وعادة ما لا تتحكم في المحتوى.نقترح إطار تقييم النمط المعياري والحبوب المحتوى ومقره المحتوى (STEL) لاختبار أداء أي نموذج يمكن مقارنة جملتين على النمط.نحن نوضح ستيل مع أبعاد عامين من النمط (رسمي / غير رسمي وبسيط / معقد) بالإضافة إلى خصائصين محددة للأسلوب (Contrac'tion and Numb3r البديلة).نجد أن الأساليب القائمة على BERT تفوق إصدارات بسيطة من تدابير النمط الشائعة الاستخدام مثل 3 غرامات وترقيب الترقيم والنهج القائمة على LIWC.نحن ندعو إضافة مهام أخرى وثيمات مهمة إلى ستيل ونأمل في تسهيل تحسين التدابير الحساسة للنمط.
تقوم الترجمة العصبية متعددة اللغات (MNMT) بتدريب نموذج NMT واحد يدعم الترجمة بين لغات متعددة، بدلا من تدريب نماذج منفصلة لغات مختلفة. تعلم نموذج واحد يمكن أن يعزز الترجمة المنخفضة الموارد من خلال الاستفادة من البيانات من لغات متعددة. ومع ذلك، فإن أدا ء نموذج MNMT يعتمد اعتمادا كبيرا على نوع اللغات المستخدمة في التدريب، حيث أن نقل المعرفة من مجموعة متنوعة من اللغات تتحلل أداء الترجمة بسبب النقل السلبي. في هذه الورقة، نقترح مقاربة تقطير المعرفة التسلسل الهرمية (HKD) ل MNMT والتي تتمتع بالجماعات اللغوية التي تم إنشاؤها وفقا للميزات النموذجية والهلوجين من اللغات للتغلب على مسألة النقل السلبي. ينشئ HKD مجموعة من نماذج مساعد المعلم متعددة اللغات عبر آلية تقطير المعرفة الانتقائية تعتمد على مجموعات اللغات، ثم قم بالتقطير النموذج النهائي متعدد اللغات من المساعدين بطريقة تكيف. النتائج التجريبية المشتقة من مجموعة بيانات TED مع 53 لغة توضح فعالية نهجنا في تجنب تأثير النقل السلبي في MNMT، مما يؤدي إلى أداء ترجمة محسنة (حوالي 1 درجة بلو في المتوسط) مقارنة مع خطوط الأساس القوية.
تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قي ود. في هذه الورقة، مستوحاة من الملاحظات الأخيرة أن تمثيلات اللغة في وضع معرفة نسبيا ولديها معرفة أكثر دلالة ككل، نقدم هدف تقطير معارف جديد لتعلم تمثيل اللغة الذي ينقل المعرفة السياقية عبر نوعين من العلاقات عبر الإنترنت: علاقة كلمة وطبقة تحول العلاقة. على عكس تقنيات التقطير الأخيرة الأخرى لنماذج اللغة، فإن تقطيرنا السياقي ليس لديه أي قيود على التغييرات المعمارية بين المعلم والطالب. نحن نقوم بالتحقق من فعالية طريقتنا حول المعايير الصعبة لمهام فهم اللغة، ليس فقط في بنية الأحجام المختلفة ولكن أيضا بالاشتراك مع Dynabert، طريقة تشذيب الحجم التكيفي المقترح مؤخرا.
أصبح توحيد التعلم الصوتي واللغوي أمرا مهما بشكل متزايد بنقل المعرفة المستفادة بشأن وفرة بيانات لغة الموارد عالية الموارد للحصول على التعرف على الكلام المنخفض الموارد. الأساليب الحالية ببساطة تتالي النماذج الصوتية واللغة المدربة مسبقا لتعلم النقل من ا لكلام إلى النص. ومع ذلك، فإن كيفية حل تناقض التمثيل في الكلام والنص غير مستكشفة، مما يعيق استخدام المعلومات الصوتية واللغوية. علاوة على ذلك، يعمل الأمر السابق ببساطة استبدال طبقة تضمين نموذج اللغة المدربة مسبقا مع الميزات الصوتية، والتي قد تتسبب في مشكلة نسيان الكارثي. في هذا العمل، نقدم WAV-Bert، وهي طريقة تعليمية تعاونية وصوتية وممثلة على الصمامات والاستفادة من المعلومات السياقية من الكلام والنص. على وجه التحديد، نقوم بتحديد نموذج صوت صوتي مدرب مسبقا (WAV2VEC 2.0) ونموذج لغة (Bert) في إطار قابل للتدريب من طرف إلى نهاية. تم تصميم وحدة تجميع التمثيل لتجميع التمثيل الصوتي واللغوي، ويتم تقديم وحدة الانتباه التضمين لإدماج المعلومات الصوتية في بيرت، والتي يمكن أن تسهل بفعالية تعاون نماذج مدربة مسبقا وبالتالي تعزيز تعلم التمثيل. تشير التجارب الواسعة إلى أن لدينا WAV-Bert تنفأ بشكل كبير على النهج الحالية وتحقيق الأداء الحديث في التعرف على الكلام المنخفض الموارد.
نقدم نسخة ممتدة من الأداة التي وضعت لحساب المسافات اللغوية وغير المتكافئة في التصور السمعي للغات ذات الصلة عن كثب.جنبا إلى جنب مع تقييم المقاييس المتاحة في الإصدار الأولي من الأداة، نقدم Word Adaptation Enterpy كمقيدي إضافي من عدم التماثل اللغوي.يتم التحقق من صحة المتنبئين المحتملين من الوضوح من الكلام مع الأداء البشري في تجارب التعرف على المعترف بها من غير المنطوقة في البلغارية والروسية.يتم إيلاء اهتمام خاص لمساهمات مختلفة من الحرث الحروفية والساوجة في التقويم الشفوي.باستخدام Incom.py 2.0 من الممكن حساب وتصور وصلاحية أساليب قياس ثلاث طرق للمسافات اللغوية والمسافات اللغوية وكذلك تنفيذ تحليلات الانحدار في الوضوء الكلام بين اللغات ذات الصلة.
النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها با هظة الثمن وهي ملزمة أيضا بسعة الدماغ البشرية. في هذه الدراسة، نقدم نظام تعليمي عميق لمهمة الاستخراج التلقائي للميزات اللغوية من الأوصاف النصية للغات الطبيعية. أولا، يتم تسجيل أوصاف نصية يدويا مع هياكل خاصة تسمى الإطارات الدلالية. يتم تعلم تلك التعليقات التوضيحية من خلال شبكة عصبية متكررة، والتي تستخدم بعد ذلك لتعليق النص غير المشروح. أخيرا، يتم تحويل التعليقات التوضيحية إلى قيم ميزة اللغوية باستخدام وحدة نمطية قائمة على القاعدة. يتم استخدام Tembeddings Word، المستفادة من نص الأغراض العامة، كمصدر رئيسي للمعرفة من قبل الشبكة العصبية المتكررة. قارنا نظام التعلم العميق المقترح للنظام القائم على نظام التعلم الذي تم الإبلاغ عنه مسبقا لنفس المهمة، ويفوز نظام التعلم العميق من حيث درجات F1 بهامش عادل. من المتوقع أن يكون هذا النظام مساهمة مفيدة للجنة التلقائية لقواعد البيانات النموذجية، والتي يتم تطويرها يدويا.
أنظمة ذاكرة الترجمة (TMS) هي المكون الرئيسي لأدوات الترجمة المساعدة بمساعدة الكمبيوتر. يقومون بتخزين الترجمات التي تسمح بتوفير الوقت عن طريق تقديم الترجمات على قاعدة البيانات من خلال مطابقة عدة أنواع مثل المباريات الغامضة، والتي تحسبها خوارزميات مثل مسافة التعديل. ومع ذلك، أظهرت الدراسات أوجه القصور اللغوي لهذه النظم والصعوبات في استرجاع البيانات أو الحصول على نسبة عالية من المطابقة، خاصة بعد تطبيق التحولات النحوية والدلوية هي التغيير الصوتي النشط / السلبي، تغيير ترتيب الكلمات، الاستبدال بواسطة مرادف أو ضمير شخصي، على سبيل المثال. تقدم هذه الورقة نتائج دراسة تجريبية حيث نحلل البيانات النوعية والكمية من الاستبيانات التي أجريت مع المترجمين المحترفين للإسبانية والفرنسية والعربية من أجل تحسين فعالية TMS واستكشاف جميع الاحتمالات لدمج مزيد من المعالجة اللغوية من عشرة أنواع التحول وبعد النتائج مشجعة، وسمحت لنا لمعرفة عملية الترجمة نفسها؛ التي نقترحنا أداة معالجة مسبقة التحرير لتحسين عمليات المطابقة واسترجح العمليات.
وثائق هذه الورقة نهج فريق Linguistics UBC في مهمة SIGMORPHON 2021 Graphem-To-PhoneMe المشتركة، والتركيز على إعداد الموارد المنخفضة.توسع أنظمتنا نموذج الأساس مع تعديلات بسيطة على علم بنية مقطع لفظي وتحليل الأخطاء.يبين التحقيق المتعمق في تنبؤات مجموعة الاختبار أن أفضل طرازنا يصحح عددا كبيرا من الأخطاء مقارنة بالتنبؤ الأساسي، حيث فهناك جميع التقديمات الأخرى.تحقق نتائجنا الرأي الذي يمكن أن يؤدي تحليل الأخطاء الدقيق مع المعرفة اللغوية إلى نمذجة حسابية أكثر فعالية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا