أظهرت نماذج لغة كبيرة مدربة مسبقا قدرةها مرارا وتكرارا على إنتاج نص يجيد. ومع ذلك حتى عند البدء من موجه، يمكن أن يستمر الجيل في العديد من الاتجاهات المعقولة. طرق فك التشفير الحالية بهدف التحكم في الجيل، على سبيل المثال، لضمان إدراج كلمات محددة، إما أن تتطلب نماذج إضافية أو ضبط جيد، أو العمل بشكل سيء عندما تكون المهمة في متناول اليد، على سبيل المثال، جيل القصة. في هذا العمل، نقدم طريقة فك تشفير التوصيل والتشغيل للتوليد اللغوي السيطرة البسيطة وبديهية، ويمكن وصفها في جملة واحدة: إعطاء موضوع أو كلمة رئيسية، ونضيف التحول إلى توزيع الاحتمالات على المفردات نحو كلمات مماثلة دلالة. نظهر كيف يمكن استخدام صلب هذا التوزيع لفرض قيود صلبة على توليد اللغة، وهو أمر لا تتمكن أي طريقة غيرها من الوسم والتشغيل حاليا مع مولدات لغة SOTA. على الرغم من بساطة هذا النهج، نرى أنه يعمل بشكل جيد بشكل لا يصدق في الممارسة: فك التشفير من GPT-2 يؤدي إلى جمل متنوعة وطلاقة مع ضمان ظهور كلمات دليل معين. نحن نؤدي دراستي المستخدمين، وكشف أن طريقة (1) تتفوقت أساليبنا على الطرق المتنافسة في التقييمات البشرية؛ و (2) إجبار الكلمات الدليلية على الظهور في النص الذي تم إنشاؤه ليس له تأثير على الطلاقة للنص الذي تم إنشاؤه.
Large pre-trained language models have repeatedly shown their ability to produce fluent text. Yet even when starting from a prompt, generation can continue in many plausible directions. Current decoding methods with the goal of controlling generation, e.g., to ensure specific words are included, either require additional models or fine-tuning, or work poorly when the task at hand is semantically unconstrained, e.g., story generation. In this work, we present a plug-and-play decoding method for controlled language generation that is so simple and intuitive, it can be described in a single sentence: given a topic or keyword, we add a shift to the probability distribution over our vocabulary towards semantically similar words. We show how annealing this distribution can be used to impose hard constraints on language generation, something no other plug-and-play method is currently able to do with SOTA language generators. Despite the simplicity of this approach, we see it works incredibly well in practice: decoding from GPT-2 leads to diverse and fluent sentences while guaranteeing the appearance of given guide words. We perform two user studies, revealing that (1) our method outperforms competing methods in human evaluations; and (2) forcing the guide words to appear in the generated text has no impact on the fluency of the generated text.
المراجع المستخدمة
https://aclanthology.org/
تحصل آليات النسخ بشكل صريح على الرموز دون تغيير من تسلسل المصدر (الإدخال) لإنشاء تسلسل الهدف (الإخراج) ضمن إطار SEQ2SEQ العصبي.ومع ذلك، فإن معظم آليات النسخ الحالية تفكر فقط في نسخ كلمة واحدة من الجمل المصدر، مما يؤدي إلى فقدان الرموز الأساسية أثناء
في السنوات القليلة الماضية، تم اقتراح العديد من الطرق لبناء تضمين التوطين.كان الهدف العام هو الحصول على تمثيلات جديدة تدمج المعرفة التكميلية من مختلف المدينات المدربة مسبقا مما يؤدي إلى تحسين الجودة الشاملة.ومع ذلك، تم تقييم Enterpaintings Meta-embed
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه
أظهرت النماذج العصبية الكبيرة المدربة مسبقا تقدما ملحوظا في جيل النص. في هذه الورقة، نقترح إنشاء نص مكيف على البيانات المهيكلة (الجدول) وبادئة (النص المكتوب) من خلال الاستفادة من النماذج المدربة مسبقا. نقدم بيانات جديدة إلى نص البيانات، جدول مع نص مك
في هذه الورقة، نتعامل مع مهمة توليد تعريف (DG) باللغة الصينية، والتي تهدف إلى توليد تعريف تلقائيا لكلمة.معظم الطرق الحالية تأخذ كلمة المصدر كوحدة دلالة لا تسيطر عليها.ومع ذلك، في لغات parataxis مثل الصينية، يمكن أن تتكون معاني الكلمات باستخدام عملية