ترغب بنشر مسار تعليمي؟ اضغط هنا

تتمثل التعريف بإعادة الصياغة (PI)، وهي مهمة أساسية في معالجة اللغة الطبيعية، هي تحديد ما إذا كانت الجملتين تعبر عن نفس المعنى المماثل، وهي مشكلة تصنيف ثنائية. في الآونة الأخيرة، كانت النماذج اللغوية المدربة مسبقا بيرت هي خيارا شائعا لأطر نماذج PI الم ختلفة، ولكن جميع الطرق الحالية تقريبا تنظر في نص مجال عام. عندما يتم تطبيق هذه الأساليب على مجال معين، لا يمكن أن تكتب النماذج الحالية تنبؤات دقيقة بسبب نقص المعرفة المهنية. في ضوء هذا التحدي، نقترح إطارا جديدا، وهو، الذي يمكن أن يستفيد من المعرفة الخارجية غير المنظمة في ويكيبيديا لتحديد المواطن بدقة. نقترح علما مخلاصة المعرفة بالمفاهيم المتعلقة بحكمات معينة من ويكيبيديا عبر نموذج BM25. بعد استرداد المعرفة المخططة ذات الصلة، يجعل التنبؤات بناء على كل من المعلومات الدلالية للجملتين ومعرفة الخطوط العريضة. إضافة إلى ذلك، نقترح آلية Gating تجميع التنبؤ الدلالي القائم على المعلومات والتنبؤ القائم على المعرفة. تتم إجراء تجارب واسعة على مجموعة بيانات عامين: العرض (مجموعة بيانات مجال علوم الكمبيوتر) و Clinicalsts2019 (مجموعة بيانات مجال الطب الحيوي). تشير النتائج إلى أن الأساليب المتوفرة التي تتفوقت على أحدث الأحوال.
نهج تحديد استعارة الحديثة النظر أساسا في ميزات النص السياقية في غضون جملة أو إدخال ميزات لغوية خارجية إلى النموذج. لكنهم عادة ما يتجاهلون المعلومات الإضافية التي يمكن أن توفرها البيانات، مثل معلومات الاستعارة السياقية ومعلومات الخطاب الأوسع نطاقا. في هذه الورقة، نقترح نموذجا تم تزويده بتمثيل سياقي هرمي لاستخراج مزيد من المعلومات من كل من مستوى الجملة ومستوى الخطاب. على مستوى الجملة، نستفيد من معلومات الاستعارة من الكلمات التي تبادل الكلمة المستهدفة في الجملة لتعزيز قدرة المنطق على نموذجنا عبر تمثيل محسن محسن على الملصقات. عند مستوى الخطاب، يتم اعتماد شبكة الذاكرة العالمية التي تدركها لتعلم التبعية بعيدة المدى بين نفس الكلمات داخل خطاب. أخيرا، يجمع نموذجنا بين التمثيلات التي تم الحصول عليها من هذين الجزأين. تظهر نتائج التجربة على مهمتين لمجموعة بيانات VUA أن طرازنا يتفوق على كل طريقة أخرى لا تستخدم أي معرفة خارجية أيضا باستثناء ما يحتوي نموذج اللغة المدربة مسبقا عليه.
تقدم هذه الورقة تقنية لتحديد فتحات المشارك في عقود اللغة الإنجليزية.من خلال الإلهام من تقنيات استخراج فتحة غير مدفوعة غير المنشورة، يستخدم النظام المعروض هنا نهجا مختلفا لتحديد المصطلحات المستخدمة للإشارة إلى فتحة خاصة بالهيئة في العقود الجديدة.نقوم بتقييم النظام في تكوينات ميزة متعددة لإظهار أن أفضل نظام أداء في كلا النوعين من العقود يحملون الإشارة الدقيقة للنظر فيها - على الرغم من أن النماذج المذكورة غالبا ما تكون اسم الفتحة قيد النظر - - وهي بدلا من ذلكبناء فقط على تسمية التبعية والوالد؛بمعنى آخر، يتم العثور على كمية أكثر موثوقية لدور الحزب في عقد في ما يفعلونه بدلا من ما يتم تسميته.
تبين أن تقدير الجودة (QE) للترجمة الآلية تصل إلى دقة عالية نسبيا في التنبؤ بعشرات على مستوى الجملة، والاعتماد على المدينات السياقية المحددة مسبقا وعشرات الجودة المنتجة للإنسان. ومع ذلك، فإن الافتقار إلى التفسيرات إلى جانب القرارات التي اتخذتها النماذ ج العصبية نهاية إلى نهاية تجعل النتائج يصعب تفسيرها. علاوة على ذلك، فإن مجموعات البيانات المشروحة على مستوى الكلمات نادرة بسبب الجهد الباهظ المطلوب لإجراء هذه المهمة، في حين أنهم قد يوفرون إشارات قابلة للتفسير بالإضافة إلى مخرجات QE على مستوى الجملة. في هذه الورقة، نقترح هندسة QE الجديدة التي تعالج كل من ندرة البيانات على مستوى الكلمة والقيود التفسيرية للنهج الأخيرة. يتم احترام مكونات مستوى الجملة ومستوى الكلمات بشكل مشترك من خلال آلية اهتمام بناء على البيانات الاصطناعية ومجموعة من مقاييس MT المضمنة في مساحة مشتركة. يتم تقييم نهجنا على المهمة المشتركة ESPR4NLP 2021 وتوصل عمليات التقديمات لدينا إلى المركز الأول في جميع أزواج اللغات. تظهر استخراج أوزان الاهتمام المتراكي إلى المدخلات أن مقاييس مختلفة تركز على أجزاء مختلفة من المصدر والنص المستهدف، مما يوفر منورات تدريبية قوية في عملية صنع القرار لنموذج QE.
يتطلب تدريب نموذج التعلم العميق القوي والموثوق كمية كبيرة من البيانات.في مجال الأزمات، يبني نماذج تعليمية عميقة لتحديد المعلومات القابلة للتنفيذ من التدفق الضخم للبيانات المنشورة من قبل شهود فعاليات الأزمات على وسائل التواصل الاجتماعي، في غضون فترة ح رجة، هي مركزية لعمليات الاستجابة السريعة والإغاثة.ومع ذلك، فإن بناء مجموعة بيانات كبيرة ومصفحة لتدريب نماذج التعلم العميق ليست ممكنة دائما في وضع الأزمات.في هذه الورقة، نحقق في نهج تعليمي متعدد المهام لزيارة البيانات المشروحة المتاحة المتاحة لعدة مهام ذات صلة من مجال الأزمات لتحسين الأداء في مهمة رئيسية مع بيانات مخفية محدودة.على وجه التحديد، نركز على استخدام التعلم متعدد المهام لتحسين الأداء في مهمة تحديد الموقع في تغريدات الأزمات.
إن تحديد المعرفة ذات الصلة التي سيتم استخدامها في أنظمة المحادثة التي تستند إلى وثائق طويلة أمر بالغ الأهمية لتوليد الاستجابة الفعال.نقدم نموذج تعريف المعرفة الذي يرفع بنية المستند إلى توفير ترميزات مرور محكوم بحري للحوار ومعرفة تحديد المواقع ذات الص لة بالمحادثة.خسارة مساعدة تلتقط تاريخ اتصالات الوثيقة الحوار.نوضح فعالية نموذجنا على مجموعة بيانات المحادثة المدرجة في المستندات وتوفير التحليلات التي تظهر التعميم على المستندات غير المرئية وسياقات الحوار الطويلة.
في هذه الورقة، نحقق في مشكلة تعميم المجال (DG) للحصول على تحديد صياغة الإشراف (PI).نلاحظ أن أداء نماذج PI الحالية يتدهور بشكل كبير عند اختباره في مجال خارج التوزيع (OOD).نحن تخمين أنه ناجم عن التعلم الاختصار، أي هذه النماذج تميل إلى الاستفادة من الكل مات الإعلانية الفريدة لمجموعة بيانات أو مجال معين.لتخفيف هذه المشكلة وتعزيز قدرة DG، نقترح إطار PI بناء على النقل الأمثل (OT).تجبر طريقةنا على الشبكة لتعلم الميزات اللازمة لجميع الكلمات في الإدخال، مما يخفف من مشكلة التعلم الاختصار.تظهر النتائج التجريبية أن طريقتنا تعمل على تحسين قدرة DG على نماذج PI.
البنغالية هي لغة موارد منخفضة تفتقر إلى الأدوات والموارد الخاصة بالكشف عن المحتوى النصي النصي والفاحش.حتى الآن، لا يوجد معجم لكشف الفاحش في نص وسائل الإعلام الاجتماعية البنغالية.تقدم هذه الدراسة معجم بنغالي فاحشين يتكون من أكثر من 200 مصطلحات بنغالية ، والتي يمكن اعتبارها قذرة أو عامية صلبة أو فاحشة أو فاحشة.يتم تقديم منهجية شبه أوتوماتيكية لتطوير المعجم الملحق الذي يهدف إلى تطور كائنات فاحشة وكلمة تضمين وكالة الكلام (POS).يحقق المعجم المطور تغطية حوالي 0.85 للكشف عن المحتوى الفاحش والمحتوى في مجموعة بيانات التقييم.تنطوي النتائج التجريبية على أن المعجم المطور فعال في تحديد الفحش في محتوى بنغالي وسائل التواصل الاجتماعي.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.
توضح هذه المقالة نظاما للتنبؤ بمهمة تقوية التعقيد المعجمية (LCP) التي تم استضافتها في Semeval 2021 (المهمة 1) مع مجموعة بيانات جديدة مشروحة مع مقياس Likert.يقع المهمة في مسار الدلالات المعجمية، وتألفت المهمة من التنبؤ بقيمة تعقيد الكلمات في السياق.تم تنفيذ نهج لتعلم الآلات بناء على تواتر الكلمات والعديد من الخصائص المضافة على مستوى Word.على هذه الميزات، تم تدريب خوارزمية الانحدار الغابات العشوائية الخاضعة للإشراف.تم إجراء عدة أشواط بقيم مختلفة لمراقبة أداء الخوارزمية.للتقييم، أبلغت أفضل النتائج الخاصة بنا عن درجة M.A.E 0.07347، M.S.E.من 0.00938، و R.M.S.E.من 0.096871.أظهرت تجاربنا أنه مع عدد أكبر من الخصائص، فإن دقة التصنيف تزداد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا