ينطوي تقسيم الجملة تجزئة جملة إلى جملتين أقصرين أو أكثر. إنه مكون رئيسي لبسط الجملة، وقد ثبت أن تساعد الفهم البشري وهي خطوة مسبقة مسبقة مسبقة مفيدة لمهام NLP مثل استخراج التلخيص والعلاقات. في حين أن العديد من الطرق والجماعات البيانات المقترحة قد اقترحت لتطوير نماذج تقسيم الجملة، فقد تم إيلاء القليل من الاهتمام لكيفية تفاعل تقسيم الجملة مع هيكل الخطاب. في هذا العمل، نركز على الحالات التي يحتوي فيها نص الإدخال على اتصال خطاب، والتي نشير إليها كقامة عقوبة قائمة على الخطاب. نقوم بإنشاء مجموعات بيانات صناعية وعضوية لتقسيم الخطاب واستكشاف طرق مختلفة للجمع بين مجموعات البيانات هذه باستخدام بنية نموذجية مختلفة. نظهر أن نماذج خطوط الأنابيب التي تستخدم هيكل الخطاب للتوسط في جملة تقسيم النماذج المنفقة المناسبة في تعلم الطرق المختلفة للتعبير عن علاقة خطاب ولكن توليد نص أقل نحوية؛ توفر تلك البيانات الاصطناعية على نطاق واسع أساسا أفضل للتعلم من البيانات العضوية النطاق الصغيرة؛ وهذا التدريب على التركيز على الخطاب، وليس على بيانات تقسيم الجملة العامة يوفر أساسا أفضل لتقسيم الخطاب.
Sentence splitting involves the segmentation of a sentence into two or more shorter sentences. It is a key component of sentence simplification, has been shown to help human comprehension and is a useful preprocessing step for NLP tasks such as summarisation and relation extraction. While several methods and datasets have been proposed for developing sentence splitting models, little attention has been paid to how sentence splitting interacts with discourse structure. In this work, we focus on cases where the input text contains a discourse connective, which we refer to as discourse-based sentence splitting. We create synthetic and organic datasets for discourse-based splitting and explore different ways of combining these datasets using different model architectures. We show that pipeline models which use discourse structure to mediate sentence splitting outperform end-to-end models in learning the various ways of expressing a discourse relation but generate text that is less grammatical; that large scale synthetic data provides a better basis for learning than smaller scale organic data; and that training on discourse-focused, rather than on general sentence splitting data provides a better basis for discourse splitting.
References used
https://aclanthology.org/
Previous work indicates that discourse information benefits summarization. In this paper, we explore whether this synergy between discourse and summarization is bidirectional, by inferring document-level discourse trees from pre-trained neural summar
Most of the existing studies of language use in social media content have focused on the surface-level linguistic features (e.g., function words and punctuation marks) and the semantic level aspects (e.g., the topics, sentiment, and emotions) of the
Dominant sentence ordering models can be classified into pairwise ordering models and set-to-sequence models. However, there is little attempt to combine these two types of models, which inituitively possess complementary advantages. In this paper, w
We investigate how sentence-level transformers can be modified into effective sequence labelers at the token level without any direct supervision. Existing approaches to zero-shot sequence labeling do not perform well when applied on transformer-base
The aim of this investigation is to explore the main rhetorical
features of an Arabic newspaper discourse. To this end, extracts form
two popular Jordanian newspapers were analyzed. The results of this
study indicate that one of the features of th