غالبا ما يؤدي الكتاب إلى إعادة المواد من النصوص الموجودة عند تأليف مستندات جديدة. لأن معظم المستندات لديها أكثر من مصدر واحد، لا يمكننا تتبع هذه الاتصالات باستخدام نماذج فقط من التشابه على مستوى المستند. بدلا من ذلك، تعتبر هذه الورقة أساليب الكشف عن إعادة استخدام النص المحلي (LTRD)، والكشف عن المناطق المترجمة من نص مشابه من المعالجات أو المعلنة المضمنة بشكل غير مرتبط بطريقة غير ذات صلة. في تجارب مكثفة، ندرس الأداء النسبي لأربعة فصول من النماذج العصبية وحقيبة النماذج على ثلاثة مهام LTRD - اكتشاف الانتحال، واستخدام النمذجة للصحفيين من النشرات الصحفية، وتحديد استشهاد العلماء في الأوراق السابقة. نقوم بإجراء تقييمات على ثلاث مجموعات بيانات حالية ومجموعة بيانات جديدة ومتاحة للجمهور. تلقيت النتائج الخاصة بنا الضوء على عدد من الأسئلة غير المستكشفة سابقا في دراسة LTRD، بما في ذلك أهمية دمج السياق على مستوى المستند للتنبؤات، وتطبيق النماذج العصبية على الرف المحددة على مهام التشابه النصي الدلالي كما كشف عن الصياغة، والمفاضلات بين كيس من الكلمات الأكثر كفاءة والنماذج العصبية القائمة على الميزات وأبطأ النماذج العصبية الزوجية.
Writers often repurpose material from existing texts when composing new documents. Because most documents have more than one source, we cannot trace these connections using only models of document-level similarity. Instead, this paper considers methods for local text reuse detection (LTRD), detecting localized regions of lexically or semantically similar text embedded in otherwise unrelated material. In extensive experiments, we study the relative performance of four classes of neural and bag-of-words models on three LTRD tasks -- detecting plagiarism, modeling journalists' use of press releases, and identifying scientists' citation of earlier papers. We conduct evaluations on three existing datasets and a new, publicly-available citation localization dataset. Our findings shed light on a number of previously-unexplored questions in the study of LTRD, including the importance of incorporating document-level context for predictions, the applicability of of-the-shelf neural models pretrained on general'' semantic textual similarity tasks such as paraphrase detection, and the trade-offs between more efficient bag-of-words and feature-based neural models and slower pairwise neural models.
References used
https://aclanthology.org/
This paper describes an attempt to reproduce an earlier experiment, previously conducted by the author, that compares hedged and non-hedged NLG texts as part of the ReproGen shared challenge. This reproduction effort was only able to partially replic
The research
discusses roads rehabilitation using foamed bitumen,which is a
relatively new method and hasn’t been used in Syria yet due to the
lack of the needed labrotory equipments ,and that’s why the main
aim of the research is to develop a mo
Manufacturing processes are the main source of waste materials, however the increasing awareness about the environment has tremendously contributed to the concerns related with disposal of the generated wastes. Solid waste management is one of the ma
The large increase in the volume of demolition concrete waste and its impact on the
environment has led to reconsider of using concrete demolition rubble as a partial or a
whole alternative of natural aggregates to produce new concrete which has th
The accelerated structural expansion in most countries has resulted in a major problem related to providing the necessary concrete for these buildings. Besides, the buildings that have become out of service recently has posed a real problem represent