ترغب بنشر مسار تعليمي؟ اضغط هنا

EDTC: Corpus لتخليص سلسلة موضع مستوى الخطاب

EDTC: A Corpus for Discourse-Level Topic Chain Parsing

334   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المعروف أن تحليل الخطاب أمرا أساسيا في معالجة اللغة الطبيعية.في هذا البحث، نقدم نظرة ثاقبة حول تحليل سلسلة موضوعات مستوى الخطاب (DTC) التي تهدف إلى اكتشاف مواضيع جديدة والتحقيق في كيفية تطور هذه الموضوعات بمرور الوقت داخل مقال.لمعالجة عدم وجود بيانات، نساهم في كوربس خطاب جديد مع الرسوم البيانية التبعية على غرار DTC المشروح عند المقالات الإخبارية.على وجه الخصوص، نضمن الموثوقية العالية للدور من خلال الاستفادة من استراتيجية توضيحية من خطوتين لبناء البيانات وتصفية التعليقات التوضيحية بدرجات ثقة منخفضة.بناء على Corpus المشروح، نقدم نظاما بسيطا ولكنك قوي لتخليص سلسلة موضوع الخطاب التلقائي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث ر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.
تجزئة خطاب وقطع الخطاب على مستوى الجملة تلعب أدوارا مهمة لمختلف مهام NLP للنظر في التماسك النصي.على الرغم من الإنجازات الأخيرة في كلا المهام، لا يزال هناك مجال للتحسين بسبب ندرة البيانات المسمى.لحل المشكلة، نقترح مصنف إنتاج نموذجي في اللغة (LMGC) لاس تخدام مزيد من المعلومات من الملصقات عن طريق معالجة الملصقات كمدخلات أثناء تعزيز تمثيلات التسمية من خلال تضمين أوصاف لكل ملصق.علاوة على ذلك، نظرا لأن هذا يتيح LMGC من إعداد تمثيلات الملصقات، غير المرئي في خطوة ما قبل التدريب، يمكننا استخدام نموذج لغة مدرب مسبقا في LMGC.تظهر النتائج التجريبية على DTSET RST-DT أن LMGC حققت النتيجة F1 من أصل 96.72 في تجزئة الخطاب.وقد حقق المزيد من درجات الولاية F1 عشرات من 84.69 مع حدود الذهب EDU و 81.18 مع حدود مجزأة تلقائيا، على التوالي، في تحليل خطاب على مستوى الجملة.
عادة ما يتم تدريب نماذج اللغات الحالية على استخدام مخطط للإشراف على الذات، حيث يركز التركيز الرئيسي على التعلم في كلمة البرنامج أو مستوى الجملة.ومع ذلك، كان هناك تقدم محدود في توليد تمثيلات مفيدة على مستوى الخطاب.في هذا العمل، نقترح استخدام الأفكار م ن نظرية الترميز التنبؤية لزيادة نماذج اللغة ذات طراز بيرت مع آلية تسمح لهم بتعلم تمثيلات مناسبة على مستوى الخطاب.نتيجة لذلك، يكون نهجنا المقترح قادرا على التنبؤ بالأحكام المستقبلية باستخدام اتصالات واضحة من أعلى إلى أسفل تعمل في الطبقات المتوسطة للشبكة.من خلال تجربة معايير مصممة لتقييم المعرفة المتعلقة بالحبال باستخدام تمثيلات الجملة المدربة مسبقا، نوضح أن نهجنا يحسن الأداء في 6 من أصل 11 مهام من خلال التميز في كشف علاقة الخطاب.
ركزت معظم الدراسات الحالية للاستخدام اللغوي في محتوى الوسائط الاجتماعية على الميزات اللغوية على مستوى السطح (على سبيل المثال، كلمات الوظائف وعلامات الترقيم) وجوانب المستوى الدلالي (على سبيل المثال، الموضوعات والمعنويات والعواطف) للتعليقات. لم يتم است كشاف استراتيجيات الكاتب لبناء وربط قطاعات النص على نطاق واسع على الرغم من أن هذه المعرفة من المتوقع أن تتخلص الضوء على كيفية سبب الناس في البيئات عبر الإنترنت. المساهمة في هذا الاتجاه التحليل لدراسات وسائل التواصل الاجتماعي، نبني نظام تحليل عصبي عصبي يمكن الوصول إليه علنا ​​يحلل علاقات الخطاب في تعليق عبر الإنترنت. توضح تجاربنا أن هذا النظام يحقق أداء مماثل بين جميع أنظمة التحليل العصبي العصبي. لإظهار استخدام هذه الأداة في تحليل وسائل التواصل الاجتماعي، فإننا نطبق عليه لتحديد علاقات الخطاب في تعليقات مقنعة وغير مقنعة وفحص العلاقات بين عمق شجرة الخطاب الثنائي، وعلاقات الخطاب، والإقناع المتصور للتعليقات عبر الإنترنت. يوضح عملنا إمكانية تحليل هياكل خطاب التعليقات عبر الإنترنت مع نظامنا وآثار هذه الهياكل لفهم الاتصالات عبر الإنترنت.
يمكن التفكير في رواية القصص، سواء عبر الخرافات أو التقارير الإخبارية أو الأفلام الوثائقية أو المذكرات، باعتبارها اتصال بالأحداث المثيرة للاهتمام والذين يرتبطون معا عملية ملموسة. من المستحسن استخراج سلاسل الحدث التي تمثل هذه العمليات. ومع ذلك، لا تزال هذه الاستخراج مشكلة صعبة. نؤخر أن هذا يرجع إلى طبيعة النصوص التي يتم اكتشاف السلاسل منها. ينبط نص اللغة الطبيعية على سرد من الأحداث الخرسانية والبرية مع معلومات أساسية، والسياق، والرأي، والعناصر الأخرى التي تعتبر مهمة لمجموعة متنوعة من الخطاب الضروري وأعمال البراغماتية ولكنها ليست جزءا من سلسلة الأحداث الرئيسية التي يتم إبلاغها. نقدم طرق لاستخراج هذه السلسلة الرئيسية من نص اللغة الطبيعية، عن طريق تصفية الأحداث غير البارزة والجمل الداعمة. نوضح فعالية أساليبنا بمعزل سلاسل الأحداث الهامة من خلال مقارنة تأثيرها على مهام المصب. نظرا لأنه من خلال نماذج لغة كبيرة مسبقا على سلاسلنا المستخرجة لدينا، نحصل على تحسينات في مهمتين تستفيد من فهم واضح لسلاسل الأحداث: التنبؤ السردي والمسألة الزمنية القائمة على الأحداث الرد. تؤكد التحسينات الواجب والدراسات الودي أن طريقة استخراجنا تعزز سلاسل الأحداث الهامة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا