مع الزيادة في عدد الأوراق الأكاديمية المنشورة، تم وضع توقعات متزايدة على البحوث المتعلقة بدعم عملية الكتابة للأوراق العلمية. في الآونة الأخيرة، تم إجراء البحوث على مهام مختلفة مثل جدارة الاقتباس (الحكم على ما إذا كانت الجملة تتطلب الاقتباس) توصية الاقتباس وتوليد نص الاستشهاد. ومع ذلك، نظرا لأن كل مهمة تمت دراستها وتقييمها باستخدام البيانات التي تم تطويرها بشكل مستقل، فمن المستحيل حاليا التحقق مما إذا كانت هذه المهام يمكن أن تقطع أنابيبها بنجاح للاستخدام الفعال في كتابة المستندات العلمية. في هذه الورقة، نحدد أولا سلسلة من المهام المتعلقة بكتابة المستندات العلمية التي يمكن أن تكون خطاء. بعد ذلك، نقوم بإنشاء مجموعة بيانات من الأوراق الأكاديمية التي يمكن استخدامها لتقييم كل مهمة بالإضافة إلى سلسلة من هذه المهام. أخيرا، باستخدام DataSet، نقيم مهام جدارة الاقتباس وتوصية الاقتباس وكذلك كلتا المهام المتكاملة. توضح نتائج تقييماتنا أن النهج المقترح واعد.
With the increase in the number of published academic papers, growing expectations have been placed on research related to supporting the writing process of scientific papers. Recently, research has been conducted on various tasks such as citation worthiness (judging whether a sentence requires citation), citation recommendation, and citation-text generation. However, since each task has been studied and evaluated using data that has been independently developed, it is currently impossible to verify whether such tasks can be successfully pipelined to effective use in scientific-document writing. In this paper, we first define a series of tasks related to scientific-document writing that can be pipelined. Then, we create a dataset of academic papers that can be used for the evaluation of each task as well as a series of these tasks. Finally, using the dataset, we evaluate the tasks of citation worthiness and citation recommendation as well as both of these tasks integrated. The results of our evaluations show that the proposed approach is promising.
References used
https://aclanthology.org/
This paper presents an unsupervised extractive approach to summarize scientific long documents based on the Information Bottleneck principle. Inspired by previous work which uses the Information Bottleneck principle for sentence compression, we exten
Argument mining targets structures in natural language related to interpretation and persuasion which are central to scientific communication. Most scholarly discourse involves interpreting experimental evidence and attempting to persuade other scien
Understanding tables is an important and relevant task that involves understanding table structure as well as being able to compare and contrast information within cells. In this paper, we address this challenge by presenting a new dataset and tasks
Paraphrase generation is an important task in natural language processing. Previous works focus on sentence-level paraphrase generation, while ignoring document-level paraphrase generation, which is a more challenging and valuable task. In this paper
With the ever-increasing pace of research and high volume of scholarly communication, scholars face a daunting task. Not only must they keep up with the growing literature in their own and related fields, scholars increasingly also need to rebut pseu