في هذه الورقة، نقدم مجموعة بيانات توصية ثنائية اللغة بالتوازي ثنائية اللغة (Dreecdial 2.0) لتمكين الباحثين من استكشاف مهمة صعبة في توصية محادثة متعددة اللغات ومتعددة اللغات. الفرق بين Dreecdial 2.0 ومجموعات بيانات توصية المحادثة الحالية هو أن عنصر البيانات (الملف الشخصي والهدف والمعرفة والسياق، والاستجابة) في Dreecdial 2.0 يتم تفاحيا بلغتين، الإنجليزية والصينية، في حين أن مجموعات البيانات الأخرى بنيت مع إعداد لغة واحدة. نقوم بجمع مربعات الحوار 8.2k محاذاة على اللغات الإنجليزية والصينية (16.5 ألف مربع حوار وأحدث 255 ألفا في المجموع) المشروح من قبل عمال التعيد الجماعي مع إجراء مراقبة الجودة الصارم. ثم نقوم ببناء خطوط خطوط خطوط محادثة محادثة مونولجة متعددة اللغات متعددة اللغات على Dreecdial 2.0. تشير نتائج التجربة إلى أن استخدام بيانات اللغة الإنجليزية الإضافية يمكن أن يحقق تحسين الأداء لتوصية التحدث الصينية، مما يشير إلى فوائد Dreecdial 2.0. أخيرا، توفر هذه البيانات هذه البيانات اختبارا صعبة للدراسات المستقبلية لتوصية محادثة مونولينغ متعددة اللغات والتعددية اللغوية.
In this paper, we provide a bilingual parallel human-to-human recommendation dialog dataset (DuRecDial 2.0) to enable researchers to explore a challenging task of multilingual and cross-lingual conversational recommendation. The difference between DuRecDial 2.0 and existing conversational recommendation datasets is that the data item (Profile, Goal, Knowledge, Context, Response) in DuRecDial 2.0 is annotated in two languages, both English and Chinese, while other datasets are built with the setting of a single language. We collect 8.2k dialogs aligned across English and Chinese languages (16.5k dialogs and 255k utterances in total) that are annotated by crowdsourced workers with strict quality control procedure. We then build monolingual, multilingual, and cross-lingual conversational recommendation baselines on DuRecDial 2.0. Experiment results show that the use of additional English data can bring performance improvement for Chinese conversational recommendation, indicating the benefits of DuRecDial 2.0. Finally, this dataset provides a challenging testbed for future studies of monolingual, multilingual, and cross-lingual conversational recommendation.
المراجع المستخدمة
https://aclanthology.org/
المحادثات التي تهدف إلى تحديد التوصيات الجيدة هي تكرار الطبيعة. غالبا ما يعبر الناس عن تفضيلاتهم من حيث نقد التوصية الحالية (على سبيل المثال، لا يبدو جيدا لتاريخ "")، مما يتطلب درجة من الحس السليم للحصول على تفضيل يستنتج. في هذا العمل، نقدم طريقة لتح
تقدم هذه الورقة طريقة لتحديد أنماط قواعد اللغة الثنائية الثابتة وتستقل مثيلات العبارات ثنائية اللغة من زوج الجملة الإنجليزي - الصينية.في نهجنا، يتم تحليل زوج الجملة الإنجليزية الصينية لتحديد أنماط القواعد الإنجليزية والنظرات الصينية.تنطوي الطريقة على
يوفر مورد Slokining تعيينات بين مجموعة متنوعة من العناصر الدلالية المعجمية، كل منها بنقاط القوة والضعف.للاستفادة من هذه الاختلافات، فإن القدرة على التحرك بين الموارد أمر ضروري.يصف هذا العمل التقدم المحرز لتحسين قابلية استخدام مورد SemLink: الإضافة ال
تم إحراك المصالح المتزايدة في أنظمة الموافقة على المحادثة (CRS)، والتي تستكشف تفضيل المستخدم من خلال تفاعلات المحادثة من أجل تقديم توصية مناسبة. ومع ذلك، لا يزال هناك نقص في القدرة في CRS الحالية إلى (1) اجتياز مسارات التفكير المتعددة على المعرفة الأ
يسعى هذا البحث إلى تقديم بعض الاستراتيجيات التي يمكن
اتباعها في دورات و مقرر ات المحادثة لمساعدة الطلاب على تخطي هذه العقبات من أجل
الوصول إلى مُبتغاهم في التحدث باللغة الإنكليزية بطلاقة. فبالإضافة إلى التركيز على
الدور المُناط بكل من المُدرس و ال