في توليد السؤال، يجب أن يكون السؤال الناتج يرتبطا جيدا وغالبا ما يتعلق بالإجابة بمثابة المدخلات. استمتعت أساليب الجيل العصبي في الغالب بالدليل التوزيعي للكلمات كإجراءات ذات معنى وتوليد أسئلة واحدة في وقت واحد. في هذه الورقة، نستكشف إمكانية الترميزات المستندة إلى النماذج والمزيد من الروائح المحبوسة، مثل تمثيلات الشخصية أو الكلمات الفرعية لجيل السؤال. نبدأ من هندسة SEQ2SEQ النموذجية باستخدام Word Ageddings المقدمة من De Kuthy et al. (2020)، الذين يولدون أسئلة من النص بحيث الإجابة المقدمة في مبارات نص الإدخال ليس فقط في معنى ولكن أيضا في شكل، تلبية متطابقة إجابة الأسئلة. نظهر أن النماذج المدربة على الطابع والتمثيلات الفرعية تتفوق بشكل كبير على النتائج المنشورة بناء على embeddings Word، وتقوم بذلك مع عدد أقل من المعلمات. نهجنا يلغي مشكلتين مهمتين للنهج القائم على الكلمة: ترميز الكلمات النادرة أو غير المفردات والاستبدال غير الصحيح للكلمات مع تلك ذات الصلة بالتنسيق. يحسن النموذج المستند إلى الطابع بشكل كبير على النتائج المنشورة، سواء من حيث درجات بلو واعتبار جودة السؤال الذي تم إنشاؤه. يتجاوز المهمة المحددة، تضيف هذه النتيجة إلى الأدلة التي تزن تمثيلات مختلفة من النماذج والمعنى لمهام معالجة اللغة الطبيعية.
In question generation, the question produced has to be well-formed and meaningfully related to the answer serving as input. Neural generation methods have predominantly leveraged the distributional semantics of words as representations of meaning and generated questions one word at a time. In this paper, we explore the viability of form-based and more fine-grained encodings, such as character or subword representations for question generation. We start from the typical seq2seq architecture using word embeddings presented by De Kuthy et al. (2020), who generate questions from text so that the answer given in the input text matches not just in meaning but also in form, satisfying question-answer congruence. We show that models trained on character and subword representations substantially outperform the published results based on word embeddings, and they do so with fewer parameters. Our approach eliminates two important problems of the word-based approach: the encoding of rare or out-of-vocabulary words and the incorrect replacement of words with semantically-related ones. The character-based model substantially improves on the published results, both in terms of BLEU scores and regarding the quality of the generated question. Going beyond the specific task, this result adds to the evidence weighing different form- and meaning-based representations for natural language processing tasks.
المراجع المستخدمة
https://aclanthology.org/