أوراق بحثية, رسائل ماجستير ودكتوراه حول corpus

Dreecdial 2.0: مجموعة متوازية ثنائية اللغة توصية المحادثة

733 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الورقة، نقدم مجموعة بيانات توصية ثنائية اللغة بالتوازي ثنائية اللغة (Dreecdial 2.0) لتمكين الباحثين من استكشاف مهمة صعبة في توصية محادثة متعددة اللغات ومتعددة اللغات. الفرق بين Dreecdial 2.0 ومجموعات بيانات توصية المحادثة الحالية هو أن عنصر ال بيانات (الملف الشخصي والهدف والمعرفة والسياق، والاستجابة) في Dreecdial 2.0 يتم تفاحيا بلغتين، الإنجليزية والصينية، في حين أن مجموعات البيانات الأخرى بنيت مع إعداد لغة واحدة. نقوم بجمع مربعات الحوار 8.2k محاذاة على اللغات الإنجليزية والصينية (16.5 ألف مربع حوار وأحدث 255 ألفا في المجموع) المشروح من قبل عمال التعيد الجماعي مع إجراء مراقبة الجودة الصارم. ثم نقوم ببناء خطوط خطوط خطوط محادثة محادثة مونولجة متعددة اللغات متعددة اللغات على Dreecdial 2.0. تشير نتائج التجربة إلى أن استخدام بيانات اللغة الإنجليزية الإضافية يمكن أن يحقق تحسين الأداء لتوصية التحدث الصينية، مما يشير إلى فوائد Dreecdial 2.0. أخيرا، توفر هذه البيانات هذه البيانات اختبارا صعبة للدراسات المستقبلية لتوصية محادثة مونولينغ متعددة اللغات والتعددية اللغوية.

bilingual parallel corpus parallel corpus bilingual parallel ثنائية اللغة جوراليل بالتوازي كوربوس متوازي ثنائي اللغة صناعة حمض الفوسفور المزيد..

توثيق WebText Corpora الكبيرة: دراسة حالة على Colussal Clash Cruwled Corpus

508 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

أدت نماذج اللغة الكبيرة إلى إحراز تقدم ملحوظ في العديد من مهام NLP، ويتحول الباحثون إلى نصائح نصية أكبر من أي وقت مضى لتدريبهم. يتم تقديم بعض أكبر الشركات المتاحة من خلال تجريف أجزاء مهمة من الإنترنت، ويتم إدخالها بشكل متكرر مع الحد الأدنى فقط من الو ثائق. في هذا العمل، نقدم بعض الوثائق الأولى لجور الزحف النظيف الهائل (C4؛ Raffel et al.، 2020)، مجموعة بيانات تم إنشاؤها عن طريق تطبيق مجموعة من المرشحات إلى لقطة واحدة من الزحف المشترك. نبدأ بالتحقيق في المكان الذي جاءت فيه البيانات، وإيجاد كمية كبيرة من النص من مصادر غير متوقعة مثل براءات الاختراع ومواقع الويب العسكرية الأمريكية. ثم نستكشف محتوى النص نفسه، وإيجاد نص تم إنشاؤه بواسطة الجهاز (E.G.، من أنظمة الترجمة الآلية) وأمثلة التقييم من مجموعات بيانات NLP القياسية الأخرى. لفهم تأثير المرشحات المطبقة على إنشاء هذه البيانات، نقوم بتقييم النص الذي تمت إزالته، وإظهار أن تصفية Blocklist تزيل النص غير متناسب من الأفراد وأصحاب الأقليات. أخيرا، نستنتج بعض التوصيات حول كيفية إنشاء وتوثيق مجموعات بيانات الويب من كشط الإنترنت.

documenting large webtext large webtext corpora clean crawled corpus توثيق WebText كبير corpa webtext كبير نظيفة الزحف كوربوس صناعة حمض الفوسفور المزيد..

هل تنعسل بيرت للتدخل الأصلي في إنتاج L2؟

709 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مع جزء المقالات من شبكة Corpus الدولية للمتعلمين الآسيويين في اللغة الإنجليزية (ICNALE) و TOEFL11 Corpus، نحن نطاقات نماذج اللغة العصبية التي تم ضبطها على أساس بيرت للتنبؤ باللغات الأصلية للمتعلمين باللغة الإنجليزية.أظهرت النتائج أن النماذج العصبية ي مكن أن تتعلم أن تمثل واكتشاف آثار اللغة الأم مثل هذه النماذج المحلية، ولكن النماذج المدربة متعددة اللغات ليس لديها أي ميزة في القيام بذلك.

berts sensitive international corpus network native interference بيرت حساسة شبكة كوربوس الدولية التدخل الأصلي صناعة حمض الفوسفور المزيد..

تصنيف النص الهرمي باستخدام التعلم العميق الهندسي: حالة التجارب السريرية Corpus

769 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نحن نعتبر التمثيل الهرمي للوثائق كرسوم بيانية واستخدام التعلم العميق الهندسي لتصنيفها إلى فئات مختلفة.في حين أن الشبكات العصبية الرسم البيانية يمكن أن تتعامل مع الهيكل المتغير بشكل فعال للمستندات التسلسل الهرمية باستخدام عمليات تمرير رسالة ثابتة للصب غ، فإننا نوضح أنه يمكننا الحصول على تحسينات إضافية على الأداء باستخدام عملية تجمع الرسوم البيانية الانتقائية المقترحة التي تنشأ من حقيقة أن بعض أجزاء التسلسل الهرمي ثابتةعبر وثائق مختلفة.طبقنا نموذجنا لتصنيف بروتوكولات التجريبية السريري (CT) إلى فئات كاملة وإنهاءها.نستخدم حقيبة من الكلمات القائمة على الأكياس، بالإضافة إلى تضيير مقرها المحولات مسبقا لفصل العقد الرسم البياني، وتحقيق F1 Squareesaround 0.85 على سجل CT واسع النطاق للجمهور حول بروتوكولات 360k.نوضح كذلك كيف يمكن للتجمع الانتقائي إضافة رؤى في التنبؤ بحالة إنهاء CT.نحن نجعل التعليمات البرمجية المصدرية والشقاقات DataSet يمكن الوصول إليها.

geometric deep learning clinical trials corpus geometric deep التعلم العميق الهندسي التجارب السريرية Corpus. عميق هندسي صناعة حمض الفوسفور المزيد..

Poliwam: استكشاف لجنة كبيرة من المناقشات السياسية على Whatsapp Messenger

561 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

WhatsApp Messenger هي واحدة من أكثر القنوات شعبية لنشر المعلومات مع الوصول الحالي لأكثر من 180 دولة و 2 مليار شخص. لقد جعل استخدامه واسع النطاق أحد أكثر وسائل الإعلام شيوعا لانتشار المعلومات بين الجماهير خلال أي حدث جذاب اجتماعيا. في الماضي القريب، ش هدت عدة بلدان فعاليتها وتأثيرها في الحملات السياسية والاجتماعية. نلاحظ ارتفاعا كبيرا في المعلومات وتدفق الدعاية أثناء الحملات الانتخابية. في هذه الورقة، نستكشف مجموعة بيانات عالية الجودة التي تم إنشاؤها على نطاق واسع من المستخدمين المنصوص عليها من WhatsApp تضم 281 مجموعة، و 31،078 مستخدم فريد، و 223،404 رسالة مشتركة من قبل، أثناء الانتخابات العامة الهندية بعد عام 2019، تشمل جميع السياسية الهندية الرئيسية الأطراف والقادة. بالإضافة إلى البيانات الناتجة الناتجة عن المستخدم الصاخبة الناتجة، نقدم مجموعة بيانات مشروحة محبوبة من 3،848 رسالة مفيدة لفهم الأبعاد المختلفة للحملات السياسية WhatsApp. نقدم العديد من الأفكار التكميلية في قصص التحقيق والإخبارية المثيرة من نفس الفترة. تحليل البيانات الاستكشافية والتجارب تعرض العديد من النتائج المثيرة والفرص البحثية المستقبلية. لتسهيل البحث القابل للتكرار، نجعل مجموعات البيانات المجهولية المتاحة في المجال العام.

large scale corpus large scale scale corpus كاسحة كبيرة مقياس كبير مقياس النطاق صناعة حمض الفوسفور المزيد..

أحكام مقبولية أحادية وطني ومقابلة مع كولا إيطالية كولبا

582 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغا ت، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.

italian cola corpus english cola corpus italian cola الكولا الإيطالي كولبا كولا سوربوس الكولا الإيطالي صناعة حمض الفوسفور المزيد..

التحليل النحوي المستندة إلى Corpus من التنسيق على عكس المستهدفين

624 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

التنسيق هو ظاهرة اللغة التي تصدر شرطين أو أكثر من العبارات أو العبارات باستخدام التنسيق. على الرغم من أن التنسيق قد تم استكشافه على نطاق واسع في أدب اللغويات، فإن القواعد والقيود التي تحكم هيكلها لا تزال بعيد المنال إلى حد كبير وناقشت على نطاق واسع ب ين اللغويين. تقدم هذه الورقة دراسة لوجود تنسيقات على عكس المدىين على وجه الخصوص، حيث يشكل الزوجان من عبارة التنسيق مكونا صالحين ولكن لديهم فئات مميزة. أجرينا تحليلا نصنيا لفئات الجمل الفعلية التي يمكن ارتباطها في مثل هذه التنسيقات على عكس ذلك من خلال نهج محاسبي قائم على الكائنات الحاسوبية، باستخدام كوربوس اللغة الإنجليزية الأمريكية المعاصرة (COCA) كمصدر بيانات رئيسي، بالإضافة إلى بنك بنسار (PTB) وبعد تظهر النتائج أن اثنين من الالتحاق داخل التنسيقات على عكس عرض خصائص مختلفة بناء على موقفها، ودعم عرض مضاد للتنسيق لهيكل التنسيق. يوفر هذا البحث بيانات ووجهات نظر جديدة من خلال استخدام التقنيات الإحصائية التي يمكن أن تساعد في تشكيل نظريات ونماذج التنسيق في المستقبل.

two-termed unlike coordination corpus-based syntactic analysis unlike coordinations على عكس التنسيق على عكس التحليل النحوي القائم على Corpus على عكس التنسيق صناعة حمض الفوسفور المزيد..

DELA CORPUS - كوربوس على مستوى المستند المشروح مع القضايا المتعلقة بالسياق

913 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث ر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.

document-level corpus annotated dela corpus corpus annotated وصف مستوى المستند المشروح ديلا كوربوس corpus المشروح صناعة حمض الفوسفور المزيد..

على دور ترتيب Corpus في نمذجة اللغة

614 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.

دراسة منهجية corpus ordering role of corpus ترتيب Corpus. دور الجثة صناعة حمض الفوسفور

مباشرة: الردود المباشرة وغير المباشرة في Corpus نص المحادثة

747 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نقوم بإنشاء كورب حوار واسعة النطاق يوفر الصيغة العمومية لتعزيز التكنولوجيا لفهم النوايا الأساسية للمستخدمين.في حين تكتسب نماذج المحادثة العصبية القدرة على توليد ردود بطلاقة من خلال التدريب على كوربس للحوار، ركزت شركة سورانيا السابقة بشكل رئيسي على ال معاني الحرفية للكلمات.ومع ذلك، في الواقع، لا يقدم الناس دائما نواياهم مباشرة.على سبيل المثال، إذا قال شخص لمشغل خدمة الحجز ليس لدي ميزانية كافية. ''، في الواقع، يعني الرجاء العثور على خيار أرخص بالنسبة لي. '' Corpus توفر ما مجموعه 71،498 غير مباشرة- أزواج الكلام الميرانية مصحوبة بتاريخ حوار متعدد الدوران المستخرج من مجموعة بيانات MultiWoz.بالإضافة إلى ذلك، نقترح ثلاث مهام لقياس قدرة النماذج على الاعتراف وإنشاء الكلام غير المباشرة والمباشرة.حققنا أيضا في أداء النماذج المدربة مسبقا في أحدث خطوط الأساس.

conversational text corpus conversational text نص المحادثة Corpus. نص محادثة نص كوربوس صناعة حمض الفوسفور

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد