تستخدم أسئلة متعددة الخيارات (MCQs) على نطاق واسع في تقييم المعرفة في المؤسسات التعليمية، أثناء مقابلات العمل، في الاختبارات الترفيهية والألعاب.على الرغم من أن البحث عن الجيل التلقائي أو شبه التلقائي من عناصر اختبار متعددة الخيارات قد أجريت منذ بداية هذه الألفية، تركز معظم الأساليب على توليد الأسئلة من جملة واحدة.في هذا البحث، يتم تقديم طريقة حديثة لإنشاء أسئلة بناء على جمل متعددة.كانت مستوحاة من مطابقات التشابه الدلالي المستخدمة في مكون ذاكرة الترجمة من أنظمة إدارة الترجمة.يتم مقارنة أداء اثنين من خوارزميات التعلم العميق، Doc2vec و Sbert، مهمة التشابه الفقرة.يتم إجراء التجارب على Corpus AD-HOC داخل مجال الاتحاد الأوروبي.للتقييم التلقائي، تم تجميع كائن أصغر من فقرات مطابقة مختارة يدويا.النتائج تثبت الأداء الجيد ل Argeddings الجملة للمهمة المحددة.
Multiple-choice questions (MCQs) are widely used in knowledge assessment in educational institutions, during work interviews, in entertainment quizzes and games. Although the research on the automatic or semi-automatic generation of multiple-choice test items has been conducted since the beginning of this millennium, most approaches focus on generating questions from a single sentence. In this research, a state-of-the-art method of creating questions based on multiple sentences is introduced. It was inspired by semantic similarity matches used in the translation memory component of translation management systems. The performance of two deep learning algorithms, doc2vec and SBERT, is compared for the paragraph similarity task. The experiments are performed on the ad-hoc corpus within the EU domain. For the automatic evaluation, a smaller corpus of manually selected matching paragraphs has been compiled. The results prove the good performance of Sentence Embeddings for the given task.
المراجع المستخدمة
https://aclanthology.org/
من الصعب تقييم نماذج اللغة.ونحن نفرج عن Supersim، ومجموعة تشابه ورابطات متعلقة على نطاق واسع في السويدية التي بنيت أحكاما بشرية خبراء.يتكون مجموعة الاختبار من 1،360 كلمة أزواج يحكمها بشكل مستقل لكل من الرصيد والتشابه بمقدار خمسة Annotators.نقوم بتقيي
يتطلب إجابة السؤال المستندة إلى السيناريو (SQA) على استرداد وقراءة الفقرات من كوربوس كبيرة للإجابة على سؤال محكوم بموجب وصف سيناريو طويل.نظرا لأن السيناريو يحتوي على كلا القصاصات الاسترجاع والكثير من الضوضاء، فإن استرجاع SQA صعب للغاية.علاوة على ذلك،
آلة قراءة الآلة (MRC)، والتي تتطلب آلة للإجابة على الأسئلة التي تعطى المستندات ذات الصلة، هي طريقة مهمة لاختبار قدرة الآلات على فهم اللغة البشرية.تعد MRC متعددة الخيارات واحدة من أكثر المهام التي تمت دراستها في MRC نظرا لراحة التقييم ومرونة تنسيق الإ
البحث عن وثائق قانونية هي مهمة متخصصة لاسترجاع المعلومات ذات الصلة لمستخدمي الخبراء (المحامين ومساعدتهم) وللمستخدمين غير الخبراء. من خلال البحث في قرارات المحكمة السابقة (الحالات)، يمكن للمستخدم إعداد التفكير القانوني بشكل أفضل من حالة جديدة. القدرة
الابتكار البشري في اللغة، مثل اختراع كلمات جديدة، هو تحد لنماذج اللغة المحددة مسبقا.نقوم بتقييم قدرة نموذج واحد كبير، GPT-3، لمعالجة الكلمات الجديدة وتحديد معناها.نقوم بإنشاء مجموعة من الكلمات غير المعنية و GPT-3 المزاج لتوليد تعريفات القاموس الخاصة