ترغب بنشر مسار تعليمي؟ اضغط هنا

حول استخدام السياق للتنبؤ بالجدارة من الأحكام في المقالات العلمية

On the Use of Context for Predicting Citation Worthiness of Sentences in Scholarly Articles

263   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، ندرس أهمية السياق في التنبؤ بالجدارة من الجمل في المقالات العلمية.نحن صياغة هذه المشكلة كملمس تسلسل تسلسل باستخدام نموذج Bilstm هرمي.نحن نساهم في مجموعة بيانات قياسية جديدة تحتوي على أكثر من مليوني جمل وملمياتها المقابلة.نحافظ على ترتيب الجملة في هذه البيانات وأداء انقسامات قطار / اختبار على مستوى المستند، والتي تتيح الأهم من دمج المعلومات السياقية في عملية النمذجة.نحن نقيم النهج المقترح على ثلاثة مجموعات من مجموعات البيانات القياسية.تؤدي نتائجنا إلى تحديد فوائد استخدام السياق ومشروع السياق للجدارة.وأخيرا، من خلال تحليل الأخطاء، نحن نقدم رؤى في الحالات التي يلعب فيها السياق دورا أساسيا في التنبؤ بالجدر على الاقتباس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة النظام الذي بنناه كفريق YNU-HPCC في مهمة Semeval-2021 11: NLPContribeGraph. تتضمن هذه المهمة أولا تحديد الجمل في المقالات العلمية المعينة للغة الطبيعية (NLP) التي تعكس مساهمات البحث من خلال التصنيف الثنائي؛ ثم تحديد المصطلحات العلمية ا لأساسية وعبارات علاقتها من جمل هذه المساهمة عن طريق وضع التسلسل؛ وأخيرا، يتم تصنيف هذه المصطلحات والعلاقات العلمية هذه، وحددها، ويتم تنظيمها في ثلاثة أضعاف ثلاثة أضعاف لتشكيل رسم بياني للمعرفة بمساعدة تصنيف Multiclass وتصنيف متعدد التسميات. قمنا بتطوير نظام لهذه المهمة باستخدام نموذج تمثيل لغوي مدرب مسبقا يسمى Bert الذي يمثل تمثيلات تشفير ثنائية الاتجاه من المحولات، وحقق نتائج جيدة. متوسط ​​درجة F1 للتقييم المرحلة 2، الجزء الأول كان 0.4562 واحتل المرتبة 7، ومتوسط ​​درجة F1 لمرحلة التقييم 2، الجزء الثاني كان 0.6541، وأيضا المرتبة 7.
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر ارة.تأخذ أساليب التعلم العميق الحديثة الألقاب والملخصات كمدخلات بسبب زيادة التعقيد الحسابي في معالجة التسلسلات الطويلة، في حين أن الأساليب التقليدية يمكن أن تعمل أيضا مع النصوص الكاملة.العناوين والملخصات كثيفة في الجماهيرية، ولكن غالبا ما تفوت جوانب مهمة من المقالات، في حين أن النصوص الكاملة من ناحية أخرى أكثر ثراء في الجماهيرية ولكن الكثير من الضويرة.لمعالجة هذه المفاضلة، نقترح استخدام نماذج تلخيص الاستخراجية على النصوص الكاملة للمستندات العلمية.تظهر دراستنا التجريبية على 3 مجموعات مقالات باستخدام 3 طرق استخراج المفاتيح 3 نتائج واعدة.
غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصا ئص الموثوقة. في هذا العمل، نصف منهجية لتطوير إطار استخراج الممتلكات التلقائي باستخدام ذوبان المواد كخاصية الهدف. نخلق مجموعة بيانات تدريبية وتقييم تحتوي على علامات للكيانات المتعلقة بالذوبان باستخدام مزيج من التعبيرات العادية والعلامة اليدوية. ثم قارنا خمسة نماذج التعرف على الكيان الاستفادة من كلا من المعماريين على مستوى الرمز المميز ومضمون مهمة تصنيف أسماء المذابة وقيم الذوبان وحدات الذوبان. بالإضافة إلى ذلك، نستكشف نهج محاولات رواية يرفع أدوات استخراج الاسم الكيميائي والكمية الآلي لتوليد مجموعات بيانات كبيرة لا تعتمد على العلامات اليدوية المكثفة. أخيرا، نقوم بإجراء تحليل لتحديد أسباب أخطاء التصنيف.
مع سرعة البحوث المتزايدة بشكل مفيد والحجم المرتفع للاتصال العلمي، يواجه العلماء مهمة شاقة. ليس فقط يجب عليهم مواكبة الأدبيات المتزايدة في مجالاتهم ذات الصلة، كما يحتاج العلماء بشكل متزايد إلى إعادة صياغة العلوم الزائفة والإضاءة. تحفز هذه الاحتياجات ت ركيزا متزايدا على الأساليب الحسابية لتعزيز البحث والتلخيص وتحليل الوثائق العلمية. ومع ذلك، فإن خيوط البحث المختلفة بشأن معالجة الوثائق العلمية تظل مجزأة. للوصول إلى مجتمع NLP و AI / ML الأوسع، بجميع الجهود الموزعة في هذا المجال، وتمكين الوصول المشترك إلى البحث المنشور، عقدنا ورشة العمل الثانية بشأن معالجة الوثائق العلمية (SDP) في Naacl 2021 كحدث افتراضي (HTTPS: //sdproc.org/2021/). تتألف ورشة عمل SDP من مسار أبحاث وثلاثة محادثات مدعوة وثلاث مهام مشتركة (LongsUMM 2021، SEXIVER، و 3C). تم توجيه البرنامج نحو تطبيق NLP واسترجاع المعلومات والتعدين البيانات للمستندات العلمية، مع التركيز على تحديد وحلول الحلول لفتح التحديات.
يتعرض المستخدمون عبر الإنترنت اليوم للمقالات الإخبارية المضللة والدعاية ووظائف الإعلام على أساس يومي.وبالتالي، فقد تم تصميم عدد من الأساليب تهدف إلى تحقيق أخبار غير صحية وأكثر أمانا على الإنترنت واستهلاك وسائل الإعلام.النظم التلقائية قادرة على دعم ال بشر في الكشف عن هذا المحتوى؛ومع ذلك، فإن عائق كبير أمام تبنيها الواسع هو أنه بالإضافة إلى كونه دقيقا، فإن قرارات مثل هذه الأنظمة تحتاج أيضا إلى تفسيرها من أجل موثوق بها واعتمادها على نطاق واسع من قبل المستخدمين.نظرا لأن المحتوى المضلل والدعاية يؤثر على القراء من خلال استخدام عدد من تقنيات الخداع، فإننا نقترح اكتشاف وإظهار استخدام هذه التقنيات كوسيلة لتقديم إمكانية الترجمة الشفوية.على وجه الخصوص، نحدد الميزات الوصفية النوعية ونحن نحلل ملاءمتها للكشف عن تقنيات الخداع.نظل كذلك أن ميزاتنا المترجمة الخاصة بنا يمكن دمجها بسهولة مع نماذج اللغة المدربة مسبقا، مما يؤدي إلى نتائج حديثة من بين الفن.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا