ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو سير عمل الجهاز البشري الهجين لتوليد اللغة الطبيعية

Towards Hybrid Human-Machine Workflow for Natural Language Generation

273   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في السنوات الأخيرة، اكتسب التعهيد الجماعي الكثير من الاهتمام من الباحثين لإنشاء بيانات لأدوات جيل اللغة الطبيعية (NLG) أو تقييمها. ومع ذلك، تم استجواب جودة بيانات الجماعة الجماعية مرارا وتكرارا بسبب تعقيد مهارات NLG ومهارات العمال في الحشد. علاوة على ذلك، يمكن أن يكون التعهيد الجماعي أيضا مكلفا وغالبا ما لا يكون ممكنا لتوليد البيانات أو التقييم على نطاق واسع. للتغلب على هذه التحديات والاستفادة من نقاط القوة التكميلية للبشر والأدوات الآلية، نقترح سير عمل هجين - آلة الإنسان المصممة بشكل صريح لمهام NLG مع آليات مراقبة الجودة في الوقت الفعلي تحت قيود الميزانية. هذه المنهجية الهجينة هي أداة قوية لتحقيق بيانات عالية الجودة مع الحفاظ على الكفاءة. من خلال الجمع بين الذكاء البشري والآلات، تقرر سير العمل المقترح ديناميكيا في الخطوة التالية بناء على البيانات من الخطوات السابقة والمعطلات. هدفنا هو تقديم ليس فقط الأسس النظرية لسير العمل الهجين ولكن أيضا لتوفير تنفيذها كمصدر مفتوح في العمل في المستقبل.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت ج نصا يشوه بالفعل أكثر من النموذج الأصلي.سيحري، نظهر أن استراتيجية التقييم التلقائي لدينا ترتبط جيدا بأحكام بشرية.كما ندير تحليل لغوي تكشف عن خصائص اللغة التي تتسم بها الإنسان.
تركز توليد اللغة الطبيعية (NLG) لأنظمة الحوار الموجهة نحو المهام على توصيل محتوى معين بدقة، بطلاقة، وتطافق. في حين أن هذه السمات أمر حاسم للحوار الناجح، فمن المستحسن أيضا تحقيق أهداف أسلوبية محددة في وقت واحد، مثل طول الاستجابة، وجهة النظر، وصفي، وال شعور، والشكل، والشكل، والتعاطف. في هذا العمل، نركز على التحكم الأسلطي والتقييم ل NLG الموجهة للمخطط، مع أهداف مشتركة لتحقيق السيطرة الدلالية واللحلية. نقوم بتجربة تفصيلية مع مختلف طرق الجيل التي تسيطر عليها نماذج اللغة المحددة مسبقا: على وجه التحديد، والتدريب الشرطي، والضبط الجميل الموجه، والكشف الموجهة. نناقش مزاياها والقيود الخاصة بهم، وتقييمها بمجموعة واسعة من مقاييس التقييم التلقائي والبشري. تظهر نتائجنا أنه في حين أن الدقة عالية النمط والصحة الدلالية أسهل في تحقيق المزيد من الأساليب المعرفة من المعالم مع التدريب الشرطي، فإن التحكم الأسطوري يمكن تحقيقه أيضا على أنماط معقدة أكثر دلالة تستخدم أساليب فك التشفير الموجودة على أساس التمييز. تشير النتائج أيضا إلى أن الطرق التي تعتبر أكثر قابلية للتطوير (مع ضبط المعلمات أقل فرط) وأن توليد سياق Disent Nastange والاختلافات الأسلوبية أكثر فعالية في تحقيق صحة دلالية ودقة أسلوب.
تقدم هذه الورقة طريقة تلقائية لتقييم طبيعية توليد اللغة الطبيعية في أنظمة الحوار.في حين تم تقديم هذه المهمة من خلال العمل البشري باهظ الثمن وتستغرق وقتا طويلا، فإننا نقدم هذه المهمة الرواية التابعة لتقييم الطاقة التلقائي للغة الناتجة.من خلال ضبط نموذ ج Bert، تظهر طريقة تقييم الطبيعية المقترحة لدينا نتائج قوية وتتفوق على الأساس: آلات Vector Support، LSTMS ثنائي الاتجاه، ونفرت.بالإضافة إلى ذلك، يتم تحسين أداء سرعة التدريب وتقييم نموذج طبيعي من خلال نقل التعلم من المعرفة اللغوية بالجودة والمعلوماتية.
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا ؤه من قبل المستخدم، فإن فهم أوسع لمصادر الضوضاء المختلفة وكيفية التعامل معها هو جانب تم إهماله إلى حد كبير. نحن نقدم قائمة شاملة للمصادر المحتملة للضوضاء، وتصنيفها ووصفها، وتظهر تأثير مجموعة فرعية من استراتيجيات المعالجة القياسية المعدلة على مهام مختلفة. هدفنا الرئيسي هو زيادة الوعي بالمحتوى غير المعتاد - والذي لا ينبغي اعتباره دائما ضوضاء "- والحاجة إلى المعالجة المسبقة التي تعتمد على المهام. هذا بديل إلى بطانية، مثل الحلول الشاملة التي تطبقها الباحثون بشكل عام من خلال "خطوط أنابيب معالجة مسبقا مسبقا". النية هي لهذا التصنيف بمثابة نقطة مرجعية لدعم الباحثين NLP في وضع الاستراتيجيات لتنظيف أو تطبيع أو احتضان المحتوى غير المعتاد.
من المعروف أن مهام توليد اللغة الطبيعية (NLG) على اللغات المؤيدة للإسقاط تعاني من مشاكل ضمير Zero (ZP)، وتظل المشكلات تحديا بسبب ندرة NLG Corpora المشروح من ZP.في هذه الحالة، نقترح نهجا للغاية على مرحلتين على مرحلتين للغاية على نمذجة السياق الزوجي مع استعادة ZP لتخفيف مشكلة ZP في مهام NLG.وخاصة، نحن نؤيد عملية الاسترداد في أزياء تحت إشراف المهمة حيث يتم تعلم إمكانية استعادة تمثيل ZP أثناء عملية تعلم المهام NLG، وبالتالي فإن طريقتنا لا تتطلب مشروحة NLG Corpora مع ZPS.بالنسبة لتعزيز النظام، نتعلم بوت عدوى لضبط مخرجاتنا النموذجية لتخفيف انتشار الخطأ الناجم عن نظام ZPS المسترد.تظهر التجارب في ثلاثة مهام NLG على مستوى الوثيقة، أي الترجمة الآلية، الإجابة على الأسئلة، والتلخيص، أن نهجنا يمكن أن يحسن الأداء إلى حد كبير، وتحسين الترجمة الضميرة مثيرة للإعجاب للغاية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا