تصف هذه الورقة محاولة لإعادة إنتاج تجربة سابقة، التي أجرتها سابقا من قبل المؤلف، والتي تقارن نصوص NLG التحوط وغير المتحركة كجزء من التحدي المشترك المتصنع.كان جهد الاستنساخ هذا قادرا فقط على تكرار النتائج جزئيا من الدراسة الأصلية.يقترح المحللون من جهد الاستنساخ هذا أنهما من الممكن تكرار الجوانب الإجرائية لدراسة سابقة، يمكن تكرار النتائج أن تكون أكثر تحديا لأن الاختلافات في نوع المشارك يمكن أن يكون لها تأثير محتمل.
This paper describes an attempt to reproduce an earlier experiment, previously conducted by the author, that compares hedged and non-hedged NLG texts as part of the ReproGen shared challenge. This reproduction effort was only able to partially replicate results from the original study. The analyisis from this reproduction effort suggests that whilst it is possible to replicate the procedural aspects of a previous study, replicating the results can prove more challenging as differences in participant type can have a potential impact.
المراجع المستخدمة
https://aclanthology.org/
غالبا ما يؤدي الكتاب إلى إعادة المواد من النصوص الموجودة عند تأليف مستندات جديدة. لأن معظم المستندات لديها أكثر من مصدر واحد، لا يمكننا تتبع هذه الاتصالات باستخدام نماذج فقط من التشابه على مستوى المستند. بدلا من ذلك، تعتبر هذه الورقة أساليب الكشف عن
تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال
شهد حقل NLP مؤخرا زيادة كبيرة في العمل المتعلق بتكاثر النتائج، وأكثر اعترافا بشكل عام بأهمية وجود تعريفات وممارسات مشتركة تتعلق بالتقييم. وقد تركز الكثير من العمل على الاستيلاء على الدرجات المترية حتى الآن، مع استنساخ نتائج التقييم البشرية التي تتلقى
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل
يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقي