تستخدم العديد من الأعمال الحديثة تنظيم التناسق "لتحسين تعميم النماذج المدربة مسبقا بشكل جيد، متعدد اللغات والإنجليزية فقط. هذه الأعمال تشجع النواتج النموذجية على أن تكون مشابهة بين الإصدار المضطربة والطبيعية من المدخلات، وعادة من خلال معاقبة اختلاف K
ullback - Leibler (KL) بين توزيع الاحتمالية للنموذج المضطرب والطبيعي. نعتقد أن خسائر الاتساق قد تنظم ضمنا المشهد الخسارة. على وجه الخصوص، نبني على ما يكافؤ على العمل الذي ينظم ضمنيا أو بوضوح تنظيم أثر مصفوفة معلومات فيشر (FIM)، تضخيم التحيز الضمني ل SGD لتجنب الحفظ. تظهر نتائجنا الأولية من الناحية التجريبية وموضوعيا أن خسائر الاتساق مرتبطة بالفترة الفائضة، وإظهار أن الحد الأدنى المسطح الضمني بتتبع صغير من FIM يحسن الأداء عند ضبط نموذج متعدد اللغات على لغات إضافية. نحن نهدف إلى تأكيد هذه النتائج الأولية على مزيد من مجموعات البيانات، واستخدام رؤىنا لتطوير تقنيات منخفضة اللغات متعددة اللغات.
توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج ال
ترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل
م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
وقد تبين أن الكثير من التقدم الأخير في NLU كان بسبب الاستدلال الخاصة بمواد بيانات التعلم من النماذج.نقوم بإجراء دراسة حالة للتعميم في NLI (من MNLI إلى مجموعة بيانات Hans التي شيدت عدسي) في مجموعة من الهيغات القائمة على Bert (محولات ومحولات سيامي و De
viasing Hex)، وكذلك مع إعانة البيانات وزيادة حجم النموذج.نبلغ 2 استراتيجيات ناجحة و 3 غير ناجحة، وكلها توفر رؤى في كيفية تعلم النماذج القائمة على المحولات التعميم.
البشر مرنين بشكل ملحوظ عند فهم جمل جديدة تشمل مجموعات من المفاهيم التي لم تصادفها من قبل. وقد أظهر العمل الحديث أنه في حين أن الشبكات العميقة يمكن أن تحاكي بعض قدرات اللغة البشرية عند تقديمها مع جمل جديدة، فإن الاختلاف المنهجي يكشف عن القيود في قدرات
فهم اللغة للشبكات. نوضح أن هذه القيود يمكن التغلب عليها من خلال معالجة تحديات التعميم في مجموعة بيانات GSCAN، والتي تقيس صراحة مدى جودة الوكيل قادرة على تفسير الأوامر اللغوية الجديدة في الرؤية، على سبيل المثال، أزواج رواية من الصفات والأسماء. مبدأ المفتاح الذي نستخدمه هو التركيز: أن الهيكل التركيبي للشبكات يجب أن يعكس الهيكل التركيبي للنطاق المشكلة التي يعالجونها، مع السماح لمعايير أخرى أن تتعلم نهاية إلى نهاية. إننا نبني آلية للأغراض العامة التي تمكن الوكلاء من تعميم فهم لغتهم إلى المجالات التركيبية. من الأهمية، لدى شبكتنا نفس الأداء الحديثة مثل العمل السابق أثناء تعميم معرفته عندما لا يعمل العمل السابق. توفر شبكتنا أيضا مستوى من الترجمة الشفوية التي تمكن المستخدمين من تفتيش ما يتعلمه كل جزء من الشبكات. إن فهم اللغة الأسطورية القوية دون إخفاقات مثيرة وبدون حالات الزاوية أمر بالغ الأهمية لبناء الروبوتات الآمنة والعادلة؛ نوضح الدور الهام الذي يمكن أن يلعبه التركيز في تحقيق هذا الهدف.
على الرغم من تطبيق نماذج التسلسل العصبي للتسلسل بنجاح على التحليل الدلالي، إلا أنها تفشل في التعميم التركيبي، أي أنها غير قادرة على التعميم بشكل منهجي لتركيبات غير مرئية من مكونات المشاهدة. بدافع من التحليل الدلالي التقليدي حيث يتم احتساب التركيز بشك
ل صريح من قبل النحو الرمزي، نقترح إطار فك التشفير الجديد الذي يحافظ على التعبير عن النماذج والعمومية من نماذج التسلسل إلى التسلسل مع تضم محاذاة على غرار المعجم ومعالجة المعلومات المنفذة. على وجه التحديد، نقوم بتحلل فك التشفير في مرحلتين حيث يتم وضع علامة على حامل الإدخال أولا مع رموز الدلالية التي تمثل معنى الكلمات الفردية، ثم يتم استخدام نموذج تسلسل إلى تسلسل للتنبؤ بتصميم تمثيل المعنى النهائي على الكلام والعلامة المتوقعة تسلسل. النتائج التجريبية على ثلاث مجموعات بيانات تحليل الدلالات توضح أن النهج المقترح يحسن باستمرار التعميم التركيبي عبر الهندسة النموذجية والنطاقات والإضفاءات الدلالية.
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي
مها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.
نقترح نموذج فرقة للتنبؤ بالتعقيد المعجمي للكلمات وتعبيرات متعددة الكلمات (MWES).يتلقى النموذج كإدخال جملة بكلمة مستهدفة أو MWE وتخرج درجة التعقيد.بالنظر إلى أن التحدي الرئيسي مع هذه المهمة هو الحجم المحدود للبيانات المشروح، يعتمد نموذجنا على تمثيلات
السياقية المحددة مسبقا من نماذج اللغة القائمة على المحولات المختلفة (IE، Bert and Roberta)، وعلى مجموعة متنوعة منطرق التدريب لمزيد من تعزيز التعميم النموذجي والترويج: التعلم متعدد الخطوات من الترابط والتعلم متعدد المهام، والتدريب الخصم.بالإضافة إلى ذلك، نقترح إثراء التمثيلات السياقية بإضافة ميزات مصنوعة يدوية أثناء التدريب.حقق نموذجنا نتائج تنافسية ومرتبة بين أنظمة أفضل 10 في كلتا المهام الفرعية.
تعد التعميم المرتبطة مشكلة معروفة في الكشف عن الموقف (SD)، حيث تميل النظم إلى الأداء بشكل سيئ عند تعرضها للأهداف غير المرئية أثناء التدريب.بالنظر إلى أن شرح البيانات باهظ الثمن وتستغرق وقتا طويلا، فإن إيجاد طرق للاستفادة من البيانات غير المستقرة غير
المسبقة يمكن أن تقدم فوائد كبيرة.في هذه الورقة، نطبق إطارا إشرافه ضعيفا لتعزيز التعميم الشامل من خلال البيانات المشروحة بتهمة التوحيد.نحن نركز على Twitter SD وإظهار تجريبيا من أن دمج البيانات الاصطناعية مفيدة للتعميم الشامل، مما يؤدي إلى تحسينات كبيرة في الأداء، مع المكاسب في درجات F1 تتراوح بين +3.4 إلى +5.1.
تكمن أهمية هذا البحث في كونه من الأبحاث النادرة التي تتطرق إلى فلسفة العلم عند الفيلسوف الفرنسي غاستون باشلار و الدور الذي لعبه هذا الفيلسوف في تطوير علم الابستمولوجيا من خلال المفاهيم الإبستمولوجية التي أدخلها إلى هذا العلم، كمفهوم العقبة الإبستمولو
جية و مفهوم القطيعة الإبستمولوجية إضافة إلى مفهوم التراجع الزمني و علاقة هذه المفاهيم مع بعضها البعض و التي ساهمت في إغناء الابستمولوجيا و تطورها.