ترغب بنشر مسار تعليمي؟ اضغط هنا

Autochart: مجموعة بيانات لمهمة جيل الرسم البياني إلى النص

AutoChart: A Dataset for Chart-to-Text Generation Task

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي للمخططات، التي تهدف إلى تشجيع المزيد من البحث في هذا المجال الهام.على وجه التحديد، نقدم إطارا جديدا ينشئ المخططات ووصفها التحليلي تلقائيا.أجرينا تقييما واسع النطاق للإنسان والآلات على الرسوم البيانية والأوصاف التي تم إنشاؤها وإظهار أن النصوص التي تم إنشاؤها مفيدة ومتماسكة وذات صلة بالمخططات المقابلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحديد مصطلحات المصطلحات هي الخطوة الأولى في التواصل العلمي. يمكن تطوير نماذج توليد النص العصبي لتوليد التعريف التحايل على منحك كثافة العمل، مما يؤدي إلى مزيد من تسريع الاكتشاف العلمي. لسوء الحظ، فإن الافتقار إلى مجموعة بيانات تعريف المصطلحات واسعة ال نطاق تعوق العملية نحو توليد التعريف. في هذه الورقة، نقدم مجموعة بيانات تعريف مصطلحات واسعة النطاق تغطي أزواج تعريف تعريف المصطلحات 2،010،648، وتمتد 227 من الفضائح الطبية الحيوية. تشكل المصطلحات المصطلحات في كل فرع من الفعالة رسم بياني Acyclic موجه مؤقتا، حيث فتح طرق جديدة لتطوير نماذج توليد الرسومات في الرسم البياني. بعد ذلك اقترحنا نموذج جيل تعريف الرسم البياني للرسوم البياني الرواية التي تدمج المحولات مع شبكة عصبية الرسم البياني. ينفأ النموذج لدينا على نماذج توليد النص الموجودة من خلال استغلال بنية الرسم البياني للمصطلحات. أظهرنا أيضا كيف يمكن استخدام الرسوم البيانية لتقييم نماذج اللغة المحددة مسبقا، ومقارنة أساليب تعلم التمثيل الرسم البياني والتنبؤ بالحكومة. نحن نتصور الرسوم البيانية لتكون مصدرا فريدا لتوليد التعريف والعديد من مهام NLP الأخرى في الطب الحيوي.
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل طة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
يتطلب توليد النصوص في الأوراق العلمية لا يتطلب فقط التقاط المحتوى الوارد في الإدخال المحدد ولكن في كثير من الأحيان اكتسب المعلومات الخارجية المسماة السياق.نحن ندفع توليد النص العلمي من خلال اقتراح مهمة جديدة، وهي جيل نصي على دايين السياق في المجال ال علمي، بهدف استغلال مساهمات السياق في النصوص المتولدة.تحقيقا لهذه الغاية، نقدم رواية تحديا على مجموعة بيانات علمية واسعة النطاق للجمول النصي على علم السياق (Scixgen)، والتي تتكون من ورقات 205،304 المشروح جيدا مع مراجع كاملة للأشياء المستخدمة على نطاق واسع (مثل الجداول والأرقام والجوارخ)ورقة.نحن معيارين شمولين، باستخدام أحدث الفنون، فعالية مجموعة بيانات Scixgen التي تم إنشاؤها حديثا في توليد الوصف والفقرة.سيتم توفير مجموعة البيانات والمعايير الخاصة بنا متاحة للجمهور لتسهيل أبحاث جيل النص العلمي.
خريطة العقل هي رسم تخطيطي يمثل المفهوم المركزي والأفكار الرئيسية بطريقة هرمية. سيؤدي تحويل النص العادي إلى خريطة ذهنية إلى الكشف عن هيكلها الدلالي الرئيسي وتكون أسهل في فهمه. بالنظر إلى وثيقة، تستخرج طريقة جيل خريطة العقل التلقائي الحالية علاقات كل ز وج جملة لتوليد الرسم البياني الدلالي الموجه لهذا المستند. تزداد تعقيد الحساب بشكل كبير مع طول الوثيقة. علاوة على ذلك، من الصعب التقاط الدلالات الإجمالية. للتعامل مع التحديات المذكورة أعلاه، نقترح شبكة جيل مخريطة العقل الفعالة تقوم بتحويل وثيقة إلى رسم بياني عبر الرسوم البيانية بالتسلسل إلى الرسم البياني. لضمان خريطة ذهنية ذات مغزى، نقوم بتصميم وحدة تحويل رسم بياني لضبط الرسم البياني العلاقة بطريقة تعليمية للتعزيز. تظهر النتائج التجريبية الواسعة أن النهج المقترح أكثر فعالية وكفاءة من الأساليب الحالية. يتم تقليل وقت الاستدلال بآلاف المرات مقارنة بالطرق الحالية. تتحقق دراسات الحالة أن خرائط العقل التي تم إنشاؤها بشكل أفضل تكشف عن الهياكل الدلالية الأساسية للوثيقة.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا