ترغب بنشر مسار تعليمي؟ اضغط هنا

لغة مسيئة ضمنيا - ما الذي يبدو عليه بالفعل ولماذا لا نصل إلى هناك؟

Implicitly Abusive Language -- What does it actually look like and why are we not getting there?

585   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الكشف عن اللغة المسيئة هو حقل ناشئ في معالجة اللغة الطبيعية تلقت قدرا كبيرا من الاهتمام مؤخرا.لا يزال نجاح الكشف التلقائي محدود.لا سيما، كشف اللغة المسيئة ضمنيا، أي لغة مسيئة لا تنقلها كلمات مسيئة (مثل dumbass أو حثالة)، لا تعمل بشكل جيد.في هذه الورقة الموضعية، نوضح لماذا تجعل مجموعات البيانات الحالية التعلم إساءة استخدام ضمني صعبة وما يجب تغييره في تصميم مثل هذه البيانات.جدال لاستراتيجية الأقسام والانقسام، نقدم قائمة فرعية من اللغة المسيئة الضمنيا وصياغة المهام والأسئلة البحثية للبحث في المستقبل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في السنوات القليلة الماضية، تم اقتراح العديد من الطرق لبناء تضمين التوطين.كان الهدف العام هو الحصول على تمثيلات جديدة تدمج المعرفة التكميلية من مختلف المدينات المدربة مسبقا مما يؤدي إلى تحسين الجودة الشاملة.ومع ذلك، تم تقييم Enterpaintings Meta-embed dings السابق باستخدام مجموعة متنوعة من الأساليب ومجموعات البيانات، مما يجعل من الصعب استخلاص استنتاجات ذات مغزى بشأن مزايا كل منهج.في هذه الورقة نقترح إطارا مشتركا موحدا، بما في ذلك المهام الجوهرية والخارجية، من أجل تقييم عادل وموضوعي لتقييم التوطين.علاوة على ذلك، نقدم طريقة جديدة لتوليد تضمين التوطين، مما يفوقن العمل السابق على عدد كبير من معايير التقييم الجوهرية.كما يتيح لنا إطار التقييم أن نستنتج أن التقييمات الخارجية السابقة للمضفة المتمثلة في المبالغة في تقديرها.
وضع تطوير الشبكات العصبية وتقنيات الاحتياطية العديد من أنظمة وضع العلامات على مستوى الجملة التي حققت أداء فائقا على المعايير النموذجية. ومع ذلك، فإن موضوع أقل مناقشة نسبيا هو ما إذا كانت معلومات السياق مزيد من المعلومات في أنظمة علامات التسجيل الحالي ة الحالية. على الرغم من أن العديد من الأعمال الموجودة قد حاولت تحويل أنظمة وضع العلامات من مستوى الجملة إلى مستوى المستند، لا يوجد أي استنتاج بتوافق الآراء بشأن متى ولماذا يعمل، الذي يحد من تطبيق نهج السياق الأكبر في مهام وضع العلامات. في هذه الورقة، بدلا من متابعة نظام علامات حديثة من خلال الاستكشاف المعماري، نركز على التحقيق عندما ولماذا التدريب في السياق الأكبر، كاستراتيجية عامة، يمكن أن تعمل. تحقيقا لهذه الغاية، نقوم بإجراء دراسة مقارنة شاملة عن أربعة مجمعين مقترحين لجمع معلومات السياق وتقديم طريقة تقييم بمساعدة السمة لتفسير التحسن الذي يحدده التدريب السياق الأكبر. تجريفيا، أنشأنا اختبارا بناء على أربع مهام وضع العلامات ومجموعات البيانات الثلاثين. نأمل أن تكون ملاحظاتنا الأولية يمكن أن تعميق فهم التدريب السياق الأكبر والتنوير يعمل المزيد من المتابعة على استخدام المعلومات السياقية.
المحادثات التي تهدف إلى تحديد التوصيات الجيدة هي تكرار الطبيعة. غالبا ما يعبر الناس عن تفضيلاتهم من حيث نقد التوصية الحالية (على سبيل المثال، لا يبدو جيدا لتاريخ "")، مما يتطلب درجة من الحس السليم للحصول على تفضيل يستنتج. في هذا العمل، نقدم طريقة لتح ويل نقد المستخدم إلى تفضيل إيجابي (E.G.، أفضل المزيد من الرومانسية ") من أجل استرداد المراجعات المتعلقة بالتوصيات التي يحتمل أن تكون أفضل (على سبيل المثال، مثالية لعشاء رومانسي"). نستفيد نموذجا كبيرا باللغة العصبية (LM) في بيئة قليلة لإجراء تحول من النقد إلى التفضيل، ونحن نختبر طريقتين لاسترداد التوصيات: واحد يطابق المضبوطات، وآخر أن يضغط غرامة على المهمة وبعد نحن نبذ هذا النهج في مجال المطعم وتقييمه باستخدام مجموعة بيانات جديدة من انتقادات المطعم. في دراسة الاجتثاث، نوضح أن استخدام التحول في النقد إلى تحسين التوصيات يحسن التوصيات، وأن هناك ثلاثة قضايا عامة على الأقل تفسر هذا الأداء المحسن.
يجسد جيل الحمدة التجريدي بعض التحديات الأكثر صعوبة في توليد الشعر، حيث يجب أن تخبر القصائد قصة في خمسة أسطر فقط، مع قيود على قافية وإجهاد وما متر.لمعالجة هذه التحديات، نقدم Limgen، وهو نظام رواية وأتمتة بالكامل لتوليد Limerick الذي يتفوق على نماذج ال شعر العصبية القائمة على الإنترنت، وكذلك نماذج الشعر المستندة إلى القواعد المستندة إلى القواعد.يتكون Limgen من ثلاثة قطع مهمة: خوارزمية القيود متعددة القوالب التكيفية التي تقيد بحثنا إلى مساحة قصائد واقعية، خوارزمية البحث عن شعاع متعددة القيم والتي تبحث بكفاءة من خلال الفضاء، وخوارزمية قصة الاحتمالية التي توفر قصصا متماسكة ذات صلةكلمة سريعة قدم المستخدم.ليميريكس الناتجة تلبي القيود الشعرية ولديها قصاصات متماسكة بشكل موضوعي، والتي هي في بعض الأحيان مضحك (عندما نحن محظوظون).
فهم عندما لا يوفر مقتطف النص معلومات سعية بعد هي جزء أساسي من اللغة الطبيعية Utnderstanding. العمل الحديث (Squad 2.0؛ Rajpurkar et al.، 2018) حاولت إحراز بعض التقدم في هذا الاتجاه من خلال إثراء بيانات الفريق الخاصة بمهمة ضمان الجودة الاستخراجية مع أس ئلة لا يمكن إجراؤها. ومع ذلك، كما نعرض، فإن أداء النظام الأعلى المدرب على الفريق 2.0 قطرات إلى حد كبير سيناريوهات خارج المجال، مما يحد من استخدامه في المواقف العملية. من أجل دراسة هذا، نقوم ببناء كوربوس خارج المجال، مع التركيز على الأسئلة البسيطة القائمة على الأحداث والتمييز بين نوعين من الأسئلة الموجودة: أسئلة تنافسية، حيث يتضمن السياق كيان من نفس النوع مثل الإجابة المتوقعة، و أسئلة أبسط وغير تنافسية حيث لا يوجد أي كيان من نفس النوع في السياق. نجد أن النماذج المستندة إلى Squad 2.0 تفشل حتى في حالة الأسئلة الأكثر بساطة. ثم نحلل أوجه التشابه والاختلافات بين ظاهرة IDK في ضمان الجودة الاستخراجية ومهمة الاعتراف بالاتصالات النصية (RTE؛ Dagan et al.، 2013) والتحقيق في المدى الذي يمكن استخدامه الأخير لتحسين الأداء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا