ترغب بنشر مسار تعليمي؟ اضغط هنا

نحن نعتبر التمثيل الهرمي للوثائق كرسوم بيانية واستخدام التعلم العميق الهندسي لتصنيفها إلى فئات مختلفة.في حين أن الشبكات العصبية الرسم البيانية يمكن أن تتعامل مع الهيكل المتغير بشكل فعال للمستندات التسلسل الهرمية باستخدام عمليات تمرير رسالة ثابتة للصب غ، فإننا نوضح أنه يمكننا الحصول على تحسينات إضافية على الأداء باستخدام عملية تجمع الرسوم البيانية الانتقائية المقترحة التي تنشأ من حقيقة أن بعض أجزاء التسلسل الهرمي ثابتةعبر وثائق مختلفة.طبقنا نموذجنا لتصنيف بروتوكولات التجريبية السريري (CT) إلى فئات كاملة وإنهاءها.نستخدم حقيبة من الكلمات القائمة على الأكياس، بالإضافة إلى تضيير مقرها المحولات مسبقا لفصل العقد الرسم البياني، وتحقيق F1 Squareesaround 0.85 على سجل CT واسع النطاق للجمهور حول بروتوكولات 360k.نوضح كذلك كيف يمكن للتجمع الانتقائي إضافة رؤى في التنبؤ بحالة إنهاء CT.نحن نجعل التعليمات البرمجية المصدرية والشقاقات DataSet يمكن الوصول إليها.
في هذه الورقة، نقدم مجموعة بيانات توصية ثنائية اللغة بالتوازي ثنائية اللغة (Dreecdial 2.0) لتمكين الباحثين من استكشاف مهمة صعبة في توصية محادثة متعددة اللغات ومتعددة اللغات. الفرق بين Dreecdial 2.0 ومجموعات بيانات توصية المحادثة الحالية هو أن عنصر ال بيانات (الملف الشخصي والهدف والمعرفة والسياق، والاستجابة) في Dreecdial 2.0 يتم تفاحيا بلغتين، الإنجليزية والصينية، في حين أن مجموعات البيانات الأخرى بنيت مع إعداد لغة واحدة. نقوم بجمع مربعات الحوار 8.2k محاذاة على اللغات الإنجليزية والصينية (16.5 ألف مربع حوار وأحدث 255 ألفا في المجموع) المشروح من قبل عمال التعيد الجماعي مع إجراء مراقبة الجودة الصارم. ثم نقوم ببناء خطوط خطوط خطوط محادثة محادثة مونولجة متعددة اللغات متعددة اللغات على Dreecdial 2.0. تشير نتائج التجربة إلى أن استخدام بيانات اللغة الإنجليزية الإضافية يمكن أن يحقق تحسين الأداء لتوصية التحدث الصينية، مما يشير إلى فوائد Dreecdial 2.0. أخيرا، توفر هذه البيانات هذه البيانات اختبارا صعبة للدراسات المستقبلية لتوصية محادثة مونولينغ متعددة اللغات والتعددية اللغوية.
أدت نماذج اللغة الكبيرة إلى إحراز تقدم ملحوظ في العديد من مهام NLP، ويتحول الباحثون إلى نصائح نصية أكبر من أي وقت مضى لتدريبهم. يتم تقديم بعض أكبر الشركات المتاحة من خلال تجريف أجزاء مهمة من الإنترنت، ويتم إدخالها بشكل متكرر مع الحد الأدنى فقط من الو ثائق. في هذا العمل، نقدم بعض الوثائق الأولى لجور الزحف النظيف الهائل (C4؛ Raffel et al.، 2020)، مجموعة بيانات تم إنشاؤها عن طريق تطبيق مجموعة من المرشحات إلى لقطة واحدة من الزحف المشترك. نبدأ بالتحقيق في المكان الذي جاءت فيه البيانات، وإيجاد كمية كبيرة من النص من مصادر غير متوقعة مثل براءات الاختراع ومواقع الويب العسكرية الأمريكية. ثم نستكشف محتوى النص نفسه، وإيجاد نص تم إنشاؤه بواسطة الجهاز (E.G.، من أنظمة الترجمة الآلية) وأمثلة التقييم من مجموعات بيانات NLP القياسية الأخرى. لفهم تأثير المرشحات المطبقة على إنشاء هذه البيانات، نقوم بتقييم النص الذي تمت إزالته، وإظهار أن تصفية Blocklist تزيل النص غير متناسب من الأفراد وأصحاب الأقليات. أخيرا، نستنتج بعض التوصيات حول كيفية إنشاء وتوثيق مجموعات بيانات الويب من كشط الإنترنت.
تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغا ت، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.
يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط ​​درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.
مع جزء المقالات من شبكة Corpus الدولية للمتعلمين الآسيويين في اللغة الإنجليزية (ICNALE) و TOEFL11 Corpus، نحن نطاقات نماذج اللغة العصبية التي تم ضبطها على أساس بيرت للتنبؤ باللغات الأصلية للمتعلمين باللغة الإنجليزية.أظهرت النتائج أن النماذج العصبية ي مكن أن تتعلم أن تمثل واكتشاف آثار اللغة الأم مثل هذه النماذج المحلية، ولكن النماذج المدربة متعددة اللغات ليس لديها أي ميزة في القيام بذلك.
في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث ر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.
نقوم بإنشاء كورب حوار واسعة النطاق يوفر الصيغة العمومية لتعزيز التكنولوجيا لفهم النوايا الأساسية للمستخدمين.في حين تكتسب نماذج المحادثة العصبية القدرة على توليد ردود بطلاقة من خلال التدريب على كوربس للحوار، ركزت شركة سورانيا السابقة بشكل رئيسي على ال معاني الحرفية للكلمات.ومع ذلك، في الواقع، لا يقدم الناس دائما نواياهم مباشرة.على سبيل المثال، إذا قال شخص لمشغل خدمة الحجز ليس لدي ميزانية كافية. ''، في الواقع، يعني الرجاء العثور على خيار أرخص بالنسبة لي. '' Corpus توفر ما مجموعه 71،498 غير مباشرة- أزواج الكلام الميرانية مصحوبة بتاريخ حوار متعدد الدوران المستخرج من مجموعة بيانات MultiWoz.بالإضافة إلى ذلك، نقترح ثلاث مهام لقياس قدرة النماذج على الاعتراف وإنشاء الكلام غير المباشرة والمباشرة.حققنا أيضا في أداء النماذج المدربة مسبقا في أحدث خطوط الأساس.
التنسيق هو ظاهرة اللغة التي تصدر شرطين أو أكثر من العبارات أو العبارات باستخدام التنسيق. على الرغم من أن التنسيق قد تم استكشافه على نطاق واسع في أدب اللغويات، فإن القواعد والقيود التي تحكم هيكلها لا تزال بعيد المنال إلى حد كبير وناقشت على نطاق واسع ب ين اللغويين. تقدم هذه الورقة دراسة لوجود تنسيقات على عكس المدىين على وجه الخصوص، حيث يشكل الزوجان من عبارة التنسيق مكونا صالحين ولكن لديهم فئات مميزة. أجرينا تحليلا نصنيا لفئات الجمل الفعلية التي يمكن ارتباطها في مثل هذه التنسيقات على عكس ذلك من خلال نهج محاسبي قائم على الكائنات الحاسوبية، باستخدام كوربوس اللغة الإنجليزية الأمريكية المعاصرة (COCA) كمصدر بيانات رئيسي، بالإضافة إلى بنك بنسار (PTB) وبعد تظهر النتائج أن اثنين من الالتحاق داخل التنسيقات على عكس عرض خصائص مختلفة بناء على موقفها، ودعم عرض مضاد للتنسيق لهيكل التنسيق. يوفر هذا البحث بيانات ووجهات نظر جديدة من خلال استخدام التقنيات الإحصائية التي يمكن أن تساعد في تشكيل نظريات ونماذج التنسيق في المستقبل.
WhatsApp Messenger هي واحدة من أكثر القنوات شعبية لنشر المعلومات مع الوصول الحالي لأكثر من 180 دولة و 2 مليار شخص. لقد جعل استخدامه واسع النطاق أحد أكثر وسائل الإعلام شيوعا لانتشار المعلومات بين الجماهير خلال أي حدث جذاب اجتماعيا. في الماضي القريب، ش هدت عدة بلدان فعاليتها وتأثيرها في الحملات السياسية والاجتماعية. نلاحظ ارتفاعا كبيرا في المعلومات وتدفق الدعاية أثناء الحملات الانتخابية. في هذه الورقة، نستكشف مجموعة بيانات عالية الجودة التي تم إنشاؤها على نطاق واسع من المستخدمين المنصوص عليها من WhatsApp تضم 281 مجموعة، و 31،078 مستخدم فريد، و 223،404 رسالة مشتركة من قبل، أثناء الانتخابات العامة الهندية بعد عام 2019، تشمل جميع السياسية الهندية الرئيسية الأطراف والقادة. بالإضافة إلى البيانات الناتجة الناتجة عن المستخدم الصاخبة الناتجة، نقدم مجموعة بيانات مشروحة محبوبة من 3،848 رسالة مفيدة لفهم الأبعاد المختلفة للحملات السياسية WhatsApp. نقدم العديد من الأفكار التكميلية في قصص التحقيق والإخبارية المثيرة من نفس الفترة. تحليل البيانات الاستكشافية والتجارب تعرض العديد من النتائج المثيرة والفرص البحثية المستقبلية. لتسهيل البحث القابل للتكرار، نجعل مجموعات البيانات المجهولية المتاحة في المجال العام.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا