ترغب بنشر مسار تعليمي؟ اضغط هنا

هل تذكر Trees Trees Match Jan Spans في التعليقات التوضيحية

Do UD Trees Match Mention Spans in Coreference Annotations?

182   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن للمرء أن يجد العشرات من موارد البيانات لغات مختلفة بلغت coreference - وهي علاقة بين تعبيرين أو أكثر تشير إلى نفس كيان العالم الحقيقي - يتم تفاحيا يدويا.يمكن للمرء أن يفترض أيضا أن مثل هذه التعبيرات عادة ما تشكل وحدات ذات مغزى بلدية؛ومع ذلك، ذكر المشروح الذي تم تفجيحه ببساطة عن طريق تحديد فترات رمزية في معظم مشاريع كوراسة، أي بشكل مستقل عن أي تمثيل سنوي.نجادل بأنه قد يكون من المفيد جعل التعليقات التوضيحية النحوية والمباراة تقارب على المدى الطويل.نقدم دراسة تجريبية تجريبية تركز على التطابقات والخلط بين التدقيق الخطي المشروح باليد يمتد وألقي الأشجار النحوية تلقائيا التي تتبع اتفاقيات التبعيات العالمية.تغطي الدراسة 9 مجموعات بيانات لمدة 8 لغات مختلفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم تجارب حل النواة مع كورفوس كورفوس متعددة اللغات التي تم إنشاؤها حديثا (Nedoluzhko et al.، 2021).نحن نركز على اللغات التالية: التشيكية والروسية والبولندية والألمانية والإسبانية والكاتالونية.بالإضافة إلى التجارب أحادية الأحادية، نجمع بين بيانات التدريب في تجارب متعددة اللغات وتدريب نماذج متضررة - لغلق سلافية وللجميع اللغات معا.نحن نعتمد على نموذج التعلم العميق في نهاية إلى نهاية تتكيف قليلا مع Corefud Corpus.تظهر نتائجنا أنه يمكننا الاستفادة من التعليقات التوضيحية المنسقة، واستخدام النماذج الانضمام تساعد بشكل كبير على اللغات مع بيانات التدريب الأصغر.
لقد ظهر التعلم الناقض كطريقة لتعلم التمثيل القوي ويسهل العديد من المهام المصب المختلفة خاصة عندما تكون البيانات الخاضعة للإشراف محدودة. كيفية بناء عينات مضاءة فعالة من خلال تكبير البيانات هي مفتاح نجاحها. على عكس مهام الرؤية، لم يتم التحقيق في طريقة تكبير البيانات للتعلم المتعاقل بما فيه الكفاية في مهام اللغة. في هذه الورقة، نقترح نهج رواية لبناء عينات صغيرة لمهام اللغة باستخدام تلخيص النص. نحن نستخدم هذه العينات للتعلم المتعاقل الخاضع للإشراف للحصول على تمثيلات نصية أفضل التي تنفصل إلى حد كبير مهام تصنيف النص بشراحي محدود. لمزيد من تحسين الطريقة، نخلط عينات من فئات مختلفة وإضافة تنظيم إضافي، يدعى Mixsum، بالإضافة إلى فقدان الانتروبيا. توضح التجارب في مجموعات بيانات تصنيف النص العالمي الحقيقي (Amazon-5، YELP-5، AG News، IMDB) فعالية إطار التعلم المقاوم للضبط المقترح مع تكبير البيانات القائمة على التلخصات وانتظام Mixsum.
تغطية إعلامية لها تأثير كبير على التصور العام للأحداث. ومع ذلك، فإن وسائل الإعلام هي في كثير من الأحيان منحازة. طريقة واحدة إلى المقالات الإخبارية Bias هي تغيير اختيار الكلمة. يعد التعريف التلقائي للتحيز من خلال اختيار Word صعبة، ويرجع ذلك أساسا إلى عدم وجود مجموعة بيانات قياسية ذهبية وتبعية عالية السياق. تقدم هذه الورقة فاتنة، وهي مجموعة بيانات قوية ومتنوعة تم إنشاؤها بواسطة خبراء مدربين، بحثا عن أبحاث وسائل الإعلام. نحن نحلل أيضا سبب أهمية وضع العلامات الخبيرة ضمن هذا المجال. توفر مجموعة البيانات الخاصة بنا جودة توضيحية أفضل واتفاقية أعلى معلقا من العمل الحالي. وهي تتألف من 3700 جمل متوازنة بين الموضوعات والمنافذ، تحتوي على تسميات وسائل الإعلام على مستوى الكلمة ومستوى الجملة. بناء على بياناتنا، نقدم أيضا وسيلة للكشف عن الجمل التي تحفز التحيز في مقالات إخبارية تلقائيا. يتم تدريب أفضل ما لدينا من النموذج المستند في بيرت المدرب مسبقا على كوربوس أكبر يتكون من ملصقات بعيدة. قم بضبط وتقييم النموذج على مجموعة البيانات الخاضعة للإشراف المقترحة، ونحن نحقق درجة ماكرو F1 من 0.804، مما يتفوق على الأساليب الحالية.
تم استخدام Growdsourcing بشكل مجيئي لتعليق مجموعات هائلة من البيانات.ومع ذلك، فإن العقبات الرئيسية التي تحول دون استخدام ملصقات من مصادر الحموشة هي ضوضاء وأخطاء من التعليقات الشرحية غير الخبراء.في هذا العمل، يقترح مقارنتين تتعامل مع الضوضاء والأخطاء في ملصقات الحشد.يستخدم النهج الأول تقليل الحد الأدنى على علم الحدة (SAM)، وهي تقنية التحسين بقوة بالملصقات الصاخبة.ينفد النهج الآخر على أن طبقة شبكة عصبية تدعى SoftMax-Crowdlayer مصممة خصيصا للتعلم من التعليقات التوضيحية من الحشد.وفقا للنتائج، يمكن للنهج المقترحة تحسين أداء نموذج الشبكة المتبقية الواسعة ونموذج التصور متعدد الطبقات المطبقة على مجموعات بيانات المصادر في الحشد في مجال معالجة الصور.كما أنه يحتوي على نتائج مماثلة ومقارنة مع تقنية التصويت الأغلبية عند تطبيقها على مجال البيانات المتسلسل حيث يتم استخدام تمثيلات التشفير الثنائية من المحولات (Bert) كطراز أساسي في كلا الحالتين.
توضح نظريات التقييم كيف يؤدي التقييم المعرفي للحدث إلى عاطفة معينة. على النقيض من نظريات المشاعر الأساسية أو التأثير (التكافؤ / الإثارة)، لم تتلق هذه النظرية الكثير من الاهتمام في معالجة اللغة الطبيعية. ومع ذلك، في علم النفس، ثبت أن سميث وإلسنثورث (1 985) أظهر أن أبعاد التقييم الاهتمام، اليقين، الجهد المتوقع، والمسؤولية، والمسؤولية السيطرة والتحكم الظرفي تميز بين (على الأقل) 15 فصول العاطفة. ندرس استراتيجيات توضيحية مختلفة لهذه الأبعاد، استنادا إلى كوربوس الفنية التي تركز على الأحداث (Troiano et al.، 2019). نقوم بتحليل اثنين من إعدادات التوضيحية اليدوية: (1) إظهار النص للتعليق أثناء إخفاء ملصق العاطفة ذوي الخبرة؛ (2) الكشف عن العاطفة المرتبطة بالنص. يتيح الإعداد 2 أن يقوم المعلقون بتطوير حدس أكثر واقعية لهذا الحدث الموصوفين، في حين أن الإعداد 1 هو إجراء شروح مزيد من التعريفي، والاعتماد بحت على النص. نقوم بتقييم هذه الاستراتيجيات بطريقتين: من خلال قياس اتفاقية Insine-Annotator وضبط روبرتا للتنبؤ بمتغيرات التقييم. تظهر نتائجنا أن معرفة العاطفة تزيد من موثوقية المعلقين. علاوة على ذلك، نقوم بتقييم استراتيجية وضع العلامات المستندة إلى القواعد التلقائية بحتة (تقييم الاستنتاج من فصول العاطفة المشروحة). يؤدي التدريب على الملصقات المعينة تلقائيا إلى أداء تنافسي من المصنف لدينا، حتى عند اختباره في التوضيحية اليدوية. هذا مؤشر أنه قد يكون من الممكن إنشاء Corpa Corpora تلقائيا لكل مجال موجودا للعاطفة الموجودة بالفعل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا