نقدم رواية من أعلى إلى أسفل صياغة نهاية إلى نهاية لخطاب مستوى الوثيقة في إطار نظرية الهيكل البوليكي (RST).في هذه الصياغة، نحن نفكر في تحليل الخطاب كتسلسل لتقسيم القرارات في حدود الرمز المميز واستخدام شبكة SEQ2SEQ لنموذج قرارات تقسيم.يسهل إطار عملنا تخليل الخطاب من نقطة الصفر دون الحاجة إلى تجزئة خطاب كشرط مسبق؛بدلا من ذلك، فإنه يسبب تجزئة كجزء من عملية التحليل.يعتمد نموذج التحليل الموحد لدينا بحث شعاع لفك تشفير أفضل هيكل الأشجار من خلال البحث من خلال مساحة من أشجار التسجيل العالية.مع تجارب واسعة على TreeBank Standard RST TreeBank، نوضح أن محللنا يتفوقون على الأساليب الموجودة بتهامش جيد في كل من التحليلات المتنامية والتحليل مع تجزئة الذهب.والأهم من ذلك، فإنه يفعل ذلك دون استخدام أي ميزات يدوية، مما يجعلها أسرع ويمكن تكيفها بسهولة مع لغات جديدة ومجالات.
We introduce a novel top-down end-to-end formulation of document level discourse parsing in the Rhetorical Structure Theory (RST) framework. In this formulation, we consider discourse parsing as a sequence of splitting decisions at token boundaries and use a seq2seq network to model the splitting decisions. Our framework facilitates discourse parsing from scratch without requiring discourse segmentation as a prerequisite; rather, it yields segmentation as part of the parsing process. Our unified parsing model adopts a beam search to decode the best tree structure by searching through a space of high scoring trees. With extensive experiments on the standard RST discourse treebank, we demonstrate that our parser outperforms existing methods by a good margin in both end-to-end parsing and parsing with gold segmentation. More importantly, it does so without using any handcrafted features, making it faster and easily adaptable to new languages and domains.
المراجع المستخدمة
https://aclanthology.org/
يهدف مشروع Multitrainmt Erasmus + + إلى تطوير منهج مبتكر مفتوح في الترجمة الآلية العصبية (NMT) للمتعلمين اللغوي والمترجمين كمواطنين متعدد اللغات.ينظر إلى الترجمة الآلية كمورد يمكن أن يدعم المواطنين في محاولتهم للحصول على المهارات اللغوية وتطويرها إذا
تستند معظم طرق تحليل البنية الخطابية السابقة (RST) إلى التعلم الخاضع للإشراف مثل الشبكات العصبية، والتي تتطلب وجعة مشروح من الحجم والجودة الكافية. ومع ذلك، فإن Treebank Treebank RST RST (RST-DT)، والجورباس القياسي للحل الصادر باللغة الإنجليزية، وهو ص
تهدف التحليل الدلالي إلى ترجمة كلام اللغة الطبيعية (NL) على البرامج القابلة للتفسير بالآلة، والتي يمكن تنفيذها مقابل بيئة عالمية حقيقية. منذ فترة طويلة تم الاعتراف بالشروح باهظة الثمن لأزواج برنامج الكلام كعقوبة رئيسية لنشر النماذج العصبية المعاصرة ل
أدى توفر Corpora إلى تقدم كبير في تدريب المحللين الدلاليين باللغة الإنجليزية.لسوء الحظ، لغات أخرى غير اللغة الإنجليزية، البيانات المشروحة محدودة وكذلك أداء المحللين المتقدمة.لقد أثبتت نماذج متعددة اللغات مؤخرا مفيدة للتحويل الصفر اللغوي في العديد من
ركزت معظم الدراسات الحالية للاستخدام اللغوي في محتوى الوسائط الاجتماعية على الميزات اللغوية على مستوى السطح (على سبيل المثال، كلمات الوظائف وعلامات الترقيم) وجوانب المستوى الدلالي (على سبيل المثال، الموضوعات والمعنويات والعواطف) للتعليقات. لم يتم است