ترغب بنشر مسار تعليمي؟ اضغط هنا

Scixgen: مجموعة بيانات ورقية لجيل علم السياق

SciXGen: A Scientific Paper Dataset for Context-Aware Text Generation

300   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتطلب توليد النصوص في الأوراق العلمية لا يتطلب فقط التقاط المحتوى الوارد في الإدخال المحدد ولكن في كثير من الأحيان اكتسب المعلومات الخارجية المسماة السياق.نحن ندفع توليد النص العلمي من خلال اقتراح مهمة جديدة، وهي جيل نصي على دايين السياق في المجال العلمي، بهدف استغلال مساهمات السياق في النصوص المتولدة.تحقيقا لهذه الغاية، نقدم رواية تحديا على مجموعة بيانات علمية واسعة النطاق للجمول النصي على علم السياق (Scixgen)، والتي تتكون من ورقات 205،304 المشروح جيدا مع مراجع كاملة للأشياء المستخدمة على نطاق واسع (مثل الجداول والأرقام والجوارخ)ورقة.نحن معيارين شمولين، باستخدام أحدث الفنون، فعالية مجموعة بيانات Scixgen التي تم إنشاؤها حديثا في توليد الوصف والفقرة.سيتم توفير مجموعة البيانات والمعايير الخاصة بنا متاحة للجمهور لتسهيل أبحاث جيل النص العلمي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحديد مصطلحات المصطلحات هي الخطوة الأولى في التواصل العلمي. يمكن تطوير نماذج توليد النص العصبي لتوليد التعريف التحايل على منحك كثافة العمل، مما يؤدي إلى مزيد من تسريع الاكتشاف العلمي. لسوء الحظ، فإن الافتقار إلى مجموعة بيانات تعريف المصطلحات واسعة ال نطاق تعوق العملية نحو توليد التعريف. في هذه الورقة، نقدم مجموعة بيانات تعريف مصطلحات واسعة النطاق تغطي أزواج تعريف تعريف المصطلحات 2،010،648، وتمتد 227 من الفضائح الطبية الحيوية. تشكل المصطلحات المصطلحات في كل فرع من الفعالة رسم بياني Acyclic موجه مؤقتا، حيث فتح طرق جديدة لتطوير نماذج توليد الرسومات في الرسم البياني. بعد ذلك اقترحنا نموذج جيل تعريف الرسم البياني للرسوم البياني الرواية التي تدمج المحولات مع شبكة عصبية الرسم البياني. ينفأ النموذج لدينا على نماذج توليد النص الموجودة من خلال استغلال بنية الرسم البياني للمصطلحات. أظهرنا أيضا كيف يمكن استخدام الرسوم البيانية لتقييم نماذج اللغة المحددة مسبقا، ومقارنة أساليب تعلم التمثيل الرسم البياني والتنبؤ بالحكومة. نحن نتصور الرسوم البيانية لتكون مصدرا فريدا لتوليد التعريف والعديد من مهام NLP الأخرى في الطب الحيوي.
الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي لل مخططات، التي تهدف إلى تشجيع المزيد من البحث في هذا المجال الهام.على وجه التحديد، نقدم إطارا جديدا ينشئ المخططات ووصفها التحليلي تلقائيا.أجرينا تقييما واسع النطاق للإنسان والآلات على الرسوم البيانية والأوصاف التي تم إنشاؤها وإظهار أن النصوص التي تم إنشاؤها مفيدة ومتماسكة وذات صلة بالمخططات المقابلة.
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل طة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
في هذه الورقة، نقدم مساهمتنا في مهمة Semeval-2021 1: تنبؤ التعقيد المعجمي، حيث ندمج الممتلكات اللغوية والإحصائية والدلية للكلمة المستهدفة وسياقها كميزات ضمن إطار تعلم الجهاز (ML) للتنبؤ بالتعقيد المعجميوبعدعلى وجه الخصوص، نستخدم شركة Bert Contentrali zed Word Adgeddings لتمثيل المعنى الدلالي للكلمة المستهدفة وسياقها.شاركنا في المهمة الفرعية المتمثلة في التنبؤ بدرجة تعقيد كلمات واحدة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا