تفتقر إلى البيانات المشروحة غير المشروح بين الإنسان هي تحدي رئيسي واحد لتحليل تمثيل المعنى التجريدي (AMR). لتخفيف هذه المشكلة، عادة ما تستخدم الأعمال السابقة البيانات الفضية أو نماذج اللغة المدربة مسبقا. على وجه الخصوص. ومع ذلك، فإنه يجعل فك تشفير أبطأ نسبيا. في هذا العمل، نحقق مناهج بديلة لتحقيق أداء تنافسي بسرعات أسرع. نقترح محلل عمرو المبسط وتقنية تدريب مسبقة الاستخدام للاستخدام الفعال للبيانات الفضية. نقوم بإجراء تجارب مكثفة على مجموعة بيانات AMR2.0 المستخدمة على نطاق واسع وتظهرت النتائج أن محلل عمرو المحولات لدينا يحقق أفضل أداء بين النماذج المستندة إلى SEQ2Graph. علاوة على ذلك، مع البيانات الفضية، يحقق نموذجنا نتائج تنافسية مع نموذج SOTA، والسرعة هي أمر ذو حجم أسرع. تتم التحليلات التفصيلية للحصول على المزيد من الأفكار في نموذجنا المقترح وفعالية تقنية التدريب المسبق.
Lacking sufficient human-annotated data is one main challenge for abstract meaning representation (AMR) parsing. To alleviate this problem, previous works usually make use of silver data or pre-trained language models. In particular, one recent seq-to-seq work directly fine-tunes AMR graph sequences on the encoder-decoder pre-trained language model and achieves new state-of-the-art results, outperforming previous works by a large margin. However, it makes the decoding relatively slower. In this work, we investigate alternative approaches to achieve competitive performance at faster speeds. We propose a simplified AMR parser and a pre-training technique for the effective usage of silver data. We conduct extensive experiments on the widely used AMR2.0 dataset and the results demonstrate that our Transformer-based AMR parser achieves the best performance among the seq2graph-based models. Furthermore, with silver data, our model achieves competitive results with the SOTA model, and the speed is an order of magnitude faster. Detailed analyses are conducted to gain more insights into our proposed model and the effectiveness of the pre-training technique.
المراجع المستخدمة
https://aclanthology.org/
تعد تحليل التمثيل المعنى التجريدي مهمة التنبؤ بالسجن إلى الرسم حيث لا تتماشى العقد المستهدفة بشكل صريح إلى رموز الجملة. ومع ذلك، نظرا لأن عقد الرسوم البيانية تستند بشكل دلون على أساس واحد أو أكثر من رموز الجملة، يمكن استخلاص المحاذاة الضمنية. تعمل ال
مقاييس التقييم التلقائية المستندة إلى المرجعية محدودة بشكل ملحوظ ل NLG بسبب عدم قدرتها على التقاط مجموعة كاملة من النواتج المحتملة.نحن ندرس بديلا للإشارة: تقييم كفاية الرسوم البيانية من جمل اللغة الإنجليزية التي تم إنشاؤها من الرسوم البيانية التمثيل
نحن ندرس تحليل عمرو متعدد اللغات من منظور تقطير المعرفة، حيث يكون الهدف هو تعلم وتحسين محلل عمرو متعدد اللغات باستخدام محلل إنجليزي موجود كمعلم لها.نحن تقيد استكشافنا في إعداد صارم متعدد اللغات: هناك نموذج واحد لتحليل جميع اللغات المختلفة بما في ذلك
في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم
AMR (تمثيل المعنى التجريدي) و EDS (هياكل التبعية الابتدائية) هي تمثيلين لمعنى شعبيتين في NLP / NLU.AMR أكثر مجردة ومفاهيمية، في حين أن EDS هو أعلى مستوى منخفض، أقرب إلى الهياكل المعجمية للجمل المحددة.وبالتالي ليس من المستغرب أن تحليل EDS أسهل من تحلي