ترغب بنشر مسار تعليمي؟ اضغط هنا

نظرة عامة على ورشة العمل الثانية حول معالجة المستندات العلمية

Overview of the Second Workshop on Scholarly Document Processing

378   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مع سرعة البحوث المتزايدة بشكل مفيد والحجم المرتفع للاتصال العلمي، يواجه العلماء مهمة شاقة. ليس فقط يجب عليهم مواكبة الأدبيات المتزايدة في مجالاتهم ذات الصلة، كما يحتاج العلماء بشكل متزايد إلى إعادة صياغة العلوم الزائفة والإضاءة. تحفز هذه الاحتياجات تركيزا متزايدا على الأساليب الحسابية لتعزيز البحث والتلخيص وتحليل الوثائق العلمية. ومع ذلك، فإن خيوط البحث المختلفة بشأن معالجة الوثائق العلمية تظل مجزأة. للوصول إلى مجتمع NLP و AI / ML الأوسع، بجميع الجهود الموزعة في هذا المجال، وتمكين الوصول المشترك إلى البحث المنشور، عقدنا ورشة العمل الثانية بشأن معالجة الوثائق العلمية (SDP) في Naacl 2021 كحدث افتراضي (HTTPS: //sdproc.org/2021/). تتألف ورشة عمل SDP من مسار أبحاث وثلاثة محادثات مدعوة وثلاث مهام مشتركة (LongsUMM 2021، SEXIVER، و 3C). تم توجيه البرنامج نحو تطبيق NLP واسترجاع المعلومات والتعدين البيانات للمستندات العلمية، مع التركيز على تحديد وحلول الحلول لفتح التحديات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة نتائج المهام المشتركة من ورشة العمل الثامنة حول الترجمة الآسيوية (WAT2021).بالنسبة إلى Wat2021، شارك 28 فريقا في المهام المشتركة وتقديم 24 فريقا نتائج ترجمةهم للتقييم البشري.كما قبلنا أيضا 5 أوراق بحثية.تم تقديم حوالي 2،100 نتائج ترجم ة إلى خادم التقييم التلقائي، وتم تقييم التقديمات المختارة يدويا.
جدال التعدين أهداف الهياكل باللغة الطبيعية المتعلقة بالترجمة الشفوية والإقناع التي هي أساسية في التواصل العلمي.ينطوي معظم الخطاب العلمي على تفسير الأدلة التجريبية ومحاولة إقناع العلماء الآخرين بتبني نفس الاستنتاجات.في حين أن دراسات التعدين المختلفة ل لحجة قد تناولت مقالات الطلاب والمقالات الإخبارية، فإن تلك التي تستهدف الخطاب العلمي لا تزال نادرة.تقوم هذه الورقة بالمسوحات الحالية بالعمل الموجود في حجة تعدين الخطاب العلمي، ويوفر نظرة عامة على النماذج الحالية والبيانات والمهام والتطبيقات الحالية.نحدد عددا من التحديات الرئيسية التي تواجه الحجة التعدين في المجال العلمي، وتشير إلى بعض الحلول الممكنة والاتجاهات المستقبلية.
نقدم Germeval 2021 المهمة المشتركة بشأن تحديد تعليقات السامة والإخراجية والحقائق. تضم هذه المهمة المشتركة ثلاث مجموعات فرعية تصنيف ثنائية بهدف تحديد: تعليقات سامة، وإشراك التعليقات، والتعليقات التي تشمل مؤشرات على الحاجة إلى فحص الحقائق، يشار إليها ه نا كتعليقات مطالبة بالحقائق. بناء على المهام المشتركة السابقة للجراثيم السابقة بشأن تحديد اللغة الهجومية في عامي 2018 و 2019، نقوم بتوسيع تعريف المهمة لهذا العام لتلبية طلب المشرفين ومديري المجتمع على إبراز التعليقات التي تعزز التواصل المحدد، وتشجيع المناقشات المتعمقة، وتشجيع المناقشات المتعمقة، و تحقق من الحقائق التي تعتمد خطوط الحجج. تشتمل مجموعة البيانات على 4،188 وظيفة مستخرجة من صفحة الفيسبوك لمظهر حديث سياسي ألماني من مذيع تلفزيوني عام وطني. الإطار النظري واختبارات الموثوقية الإضافية خلال عملية شروح البيانات ضمان جودة البيانات عالية بشكل خاص. كانت المهمة المشتركة 15 فريقا مشاركا تقدم 31 أشواط للمشاركة في التعليقات الفرعية بشأن التعليقات السامة، و 25 أشواطا للمتعلقة الفرعية حول إشراك التعليقات، و 31 مقابل الترابط الفرعي على تعليقات المطالبة بالحقائق. يمكن العثور على موقع المهام المشترك في https://germeval2021toxic.github.io/sharedtask/.
في هذه الورقة، نقدم المهمة المشتركة ESPR4NLP-2021 على تقدير الجودة القادم.بالنظر إلى زوج ترجمة من المصدر، فإن هذه المهمة المشتركة لا تتطلب فقط توفير درجة على مستوى الجملة تشير إلى الجودة الشاملة للترجمة، ولكن أيضا لشرح هذه النقاط عن طريق تحديد الكلما ت التي تؤثر سلبا على جودة الترجمة.نقدم البيانات وإرشادات التوضيحية وإعداد تقييم المهمة المشتركة، وصف النظم الستة المشاركة وتحليل النتائج.إلى حد ما من معرفتنا، هذه هي المهمة المشتركة الأولى على مقاييس تقييم NLP القابلة للتفسير.تتوفر مجموعات البيانات والنتائج في https://github.com/eval4nlp/sharedtask2021.
حقق التطورات الحديثة في أنظمة NLP، ولا سيما النموذج الاحتياطي والأصلون، نجاحا كبيرا في الدقة التنبؤية. ومع ذلك، عادة ما لا يتم معايرة هذه الأنظمة بشكل جيد بسبب عدم اليقين خارج الصندوق. تم اقتراح العديد من طرق إعادة المعاير في الأدبيات لتحديد حالة عدم اليقين التنبؤية ونواتج النماذج المعايرة، بدرجات متفاوتة من التعقيد. في هذا العمل، نقدم دراسة منهجية لبعض هذه الأساليب. التركيز على مهمة تصنيف النص ونماذج اللغة الكبيرة المسبقة مسبقا، نظرا لأول مرة أن العديد من النماذج الفعلية غير معايرت بشكل جيد خارج المربع، خاصة عندما تأتي البيانات من إعدادات خارج المجال. بعد ذلك، قارنا فعالية بعض أساليب إعادة المعايير المستخدمة على نطاق واسع (مثل الكفرات، تحجيم درجة الحرارة). بعد ذلك، نوضح تجريبيا اتصالا بين التقطير والمعايرة. نعتبر تقطير مصطلح تنظيمي يشجع نموذج الطالب على إخراج الشكوك التي تتناسب مع نموذج المعلمين. بهذه البصيرة، نطور أساليب إعادة المعايير البسيطة القائمة على التقطير دون أي تكلفة إضافية لاستنتاج الاستدلال. نظهر على معيار الغراء أن أساليبنا البسيطة يمكن أن تحقق أداء المعايرة المنافسة خارج المجال (OOD) W.R.T. مناهج أكثر تكلفة. أخيرا، ندرج ablations لفهم فائدة مكونات أسلوبنا المقترح وفحص قابلية نقل المعايرة عبر التقطير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا