في السنوات الأخيرة، اكتسب التعهيد الجماعي الكثير من الاهتمام من الباحثين لإنشاء بيانات لأدوات جيل اللغة الطبيعية (NLG) أو تقييمها. ومع ذلك، تم استجواب جودة بيانات الجماعة الجماعية مرارا وتكرارا بسبب تعقيد مهارات NLG ومهارات العمال في الحشد. علاوة على ذلك، يمكن أن يكون التعهيد الجماعي أيضا مكلفا وغالبا ما لا يكون ممكنا لتوليد البيانات أو التقييم على نطاق واسع. للتغلب على هذه التحديات والاستفادة من نقاط القوة التكميلية للبشر والأدوات الآلية، نقترح سير عمل هجين - آلة الإنسان المصممة بشكل صريح لمهام NLG مع آليات مراقبة الجودة في الوقت الفعلي تحت قيود الميزانية. هذه المنهجية الهجينة هي أداة قوية لتحقيق بيانات عالية الجودة مع الحفاظ على الكفاءة. من خلال الجمع بين الذكاء البشري والآلات، تقرر سير العمل المقترح ديناميكيا في الخطوة التالية بناء على البيانات من الخطوات السابقة والمعطلات. هدفنا هو تقديم ليس فقط الأسس النظرية لسير العمل الهجين ولكن أيضا لتوفير تنفيذها كمصدر مفتوح في العمل في المستقبل.
In recent years, crowdsourcing has gained much attention from researchers to generate data for the Natural Language Generation (NLG) tools or to evaluate them. However, the quality of crowdsourced data has been questioned repeatedly because of the complexity of NLG tasks and crowd workers' unknown skills. Moreover, crowdsourcing can also be costly and often not feasible for large-scale data generation or evaluation. To overcome these challenges and leverage the complementary strengths of humans and machine tools, we propose a hybrid human-machine workflow designed explicitly for NLG tasks with real-time quality control mechanisms under budget constraints. This hybrid methodology is a powerful tool for achieving high-quality data while preserving efficiency. By combining human and machine intelligence, the proposed workflow decides dynamically on the next step based on the data from previous steps and given constraints. Our goal is to provide not only the theoretical foundations of the hybrid workflow but also to provide its implementation as open-source in future work.
المراجع المستخدمة
https://aclanthology.org/
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت
تركز توليد اللغة الطبيعية (NLG) لأنظمة الحوار الموجهة نحو المهام على توصيل محتوى معين بدقة، بطلاقة، وتطافق. في حين أن هذه السمات أمر حاسم للحوار الناجح، فمن المستحسن أيضا تحقيق أهداف أسلوبية محددة في وقت واحد، مثل طول الاستجابة، وجهة النظر، وصفي، وال
تقدم هذه الورقة طريقة تلقائية لتقييم طبيعية توليد اللغة الطبيعية في أنظمة الحوار.في حين تم تقديم هذه المهمة من خلال العمل البشري باهظ الثمن وتستغرق وقتا طويلا، فإننا نقدم هذه المهمة الرواية التابعة لتقييم الطاقة التلقائي للغة الناتجة.من خلال ضبط نموذ
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع