تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.
Split-and-rephrase is a challenging task that promotes the transformation of a given complex input sentence into multiple shorter sentences retaining equivalent meaning. This rewriting approach conceptualizes that shorter sentences benefit human readers and improve NLP downstream tasks attending as a preprocessing step. This work presents a complete pipeline capable of performing the split-and-rephrase method in a cross-lingual manner. We trained sequence-to-sequence neural models as from English corpora and applied them to predict the transformations in English and Brazilian Portuguese sentences jointly with BERT's masked language modeling. Contrary to traditional approaches that seek training models with extensive vocabularies, we present a non-trivial way to construct symbolic ones generalized solely by grammatical classes (POS tags) and their respective recurrences, reducing the amount of necessary training data. This pipeline contribution showed competitive results encouraging the expansion of the method to languages other than English.
المراجع المستخدمة
https://aclanthology.org/
نقدم EventPlus، وهو الحدث الزمني لفهم خط أنابيب يدمج عن مكونات فهم الحدث المختلفة بما في ذلك مشغل الحدث والكشف عن اكتب، والكشف عن وسيطة الأحداث، ومدة الأحداث واستخراج العلاقات الزمنية.معلومات الحدث، وخاصة المعرفة الزمنية الحدث، هي نوع من المعرفة الحس
تقدم الصابغة فرصة كمصدر بيانات للبحث في NLP والتعليم والعلوم الاجتماعية.ومع ذلك، فإن الإجابة على أسئلة بحثية محددة مع هذه البيانات صعبة، حيث تحتوي الصخور على أساليب كتابة أكثر تنوعا من الخيال الرسمي.نقدم خط أنابيب معالجة النصوص للقصص، مع التركيز على
مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل
تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس
في هذا التقرير الفني، وصفنا أن خط أنابيب ASR-MT المصنف الذي تم ضبطه على المهمة المشتركة IWSLT.نقوم بإزالة عينات الكلام الأقل فائدة عن طريق فحص WER مع نموذج ASR، وتدريب أحدث وحدة ASR القائمة على WAV2VEC ومقرها المحولات بناء على البيانات المرتبطة.بالإض