ينطوي تقسيم الجملة تجزئة جملة إلى جملتين أقصرين أو أكثر. إنه مكون رئيسي لبسط الجملة، وقد ثبت أن تساعد الفهم البشري وهي خطوة مسبقة مسبقة مسبقة مفيدة لمهام NLP مثل استخراج التلخيص والعلاقات. في حين أن العديد من الطرق والجماعات البيانات المقترحة قد اقترحت لتطوير نماذج تقسيم الجملة، فقد تم إيلاء القليل من الاهتمام لكيفية تفاعل تقسيم الجملة مع هيكل الخطاب. في هذا العمل، نركز على الحالات التي يحتوي فيها نص الإدخال على اتصال خطاب، والتي نشير إليها كقامة عقوبة قائمة على الخطاب. نقوم بإنشاء مجموعات بيانات صناعية وعضوية لتقسيم الخطاب واستكشاف طرق مختلفة للجمع بين مجموعات البيانات هذه باستخدام بنية نموذجية مختلفة. نظهر أن نماذج خطوط الأنابيب التي تستخدم هيكل الخطاب للتوسط في جملة تقسيم النماذج المنفقة المناسبة في تعلم الطرق المختلفة للتعبير عن علاقة خطاب ولكن توليد نص أقل نحوية؛ توفر تلك البيانات الاصطناعية على نطاق واسع أساسا أفضل للتعلم من البيانات العضوية النطاق الصغيرة؛ وهذا التدريب على التركيز على الخطاب، وليس على بيانات تقسيم الجملة العامة يوفر أساسا أفضل لتقسيم الخطاب.
Sentence splitting involves the segmentation of a sentence into two or more shorter sentences. It is a key component of sentence simplification, has been shown to help human comprehension and is a useful preprocessing step for NLP tasks such as summarisation and relation extraction. While several methods and datasets have been proposed for developing sentence splitting models, little attention has been paid to how sentence splitting interacts with discourse structure. In this work, we focus on cases where the input text contains a discourse connective, which we refer to as discourse-based sentence splitting. We create synthetic and organic datasets for discourse-based splitting and explore different ways of combining these datasets using different model architectures. We show that pipeline models which use discourse structure to mediate sentence splitting outperform end-to-end models in learning the various ways of expressing a discourse relation but generate text that is less grammatical; that large scale synthetic data provides a better basis for learning than smaller scale organic data; and that training on discourse-focused, rather than on general sentence splitting data provides a better basis for discourse splitting.
المراجع المستخدمة
https://aclanthology.org/
يشير العمل السابق إلى أن معلومات خطاب المعلومات المتعلقة بالتلخيص.في هذه الورقة، نستكشف ما إذا كان هذا التآزر بين الخطاب والتلخيص ثنائي الاتجاه، من خلال استنتاج أشجار الخطاب على مستوى المستند من الملخصات العصبية المدربة مسبقا.على وجه الخصوص، نولد أشج
ركزت معظم الدراسات الحالية للاستخدام اللغوي في محتوى الوسائط الاجتماعية على الميزات اللغوية على مستوى السطح (على سبيل المثال، كلمات الوظائف وعلامات الترقيم) وجوانب المستوى الدلالي (على سبيل المثال، الموضوعات والمعنويات والعواطف) للتعليقات. لم يتم است
يمكن تصنيف نماذج ترتيب الجملة المهيمنة في طرازات طلب الزوجية ونماذج ضبط التسلسل. ومع ذلك، هناك محاولة قليلة للجمع بين هذين النوعين من النماذج، والتي تمتلك بمثابة مزايا تكميلية. في هذه الورقة، نقترح إطارا رواية ترتيب جملة جديدة يقدم اثنين من المصنفين
نحن نبحث كيف يمكن تعديل محولات مستوى الجملة في وضع علامات تسلسل فعالة على مستوى الرمز المميز دون أي إشراف مباشر.لا تؤدي الأساليب الموجودة إلى وضع العلامات على التسلسل الصفرية جيدا عند تطبيقها على الهندسة القائمة على المحولات.نظرا لأن المحولات تحتوي ع
هدفت هذه الدراسة إلى استقصاء الخصائص البلاغية الرئيسة في خطاب
الصحافة العربية. و لذلك اِختُبِرِت مقتطفات من صحيفتين أردنيتين من الصحف
المشهورة في الأردن و حلَِّلت هذه النصوص و عولِجتْ. تبين نتائج هذه الدراسة أن
إحدى الخصائص لهذا النوع من الخطاب هو