ترغب بنشر مسار تعليمي؟ اضغط هنا

يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذ ه الأضرار مدفوعة بالتحيزات النموذجية ومجموعات البيانات، والتي هي عواقب عدم الاعتراف بعدم الاعتراف بعدم الاعتراف بعدم الاعتراف بالعقاب غير الثنائية في المجتمع.في هذه الورقة، نوضح تعقيد الجنس واللغة حولها، ومسح الأشخاص غير الثنائيين لفهم الأضرار المرتبطة بمعاملة الجنس باعتبارها ثنائية في تكنولوجيات اللغة الإنجليزية.كما نقوم بالتفصيل كيف تمثيل اللغات الحالية (على سبيل المثال، قفاز، بيرت)، وإدامة هؤلاء الأضرار والتحديات ذات الصلة التي يجب الاعتراف بها ومعالجتها للتمثيلات بتشفير المعلومات الجنسانية بشكل قاطع.
تعد استعادة الترقيم متطلبات أساسية لقراءة النص المستمدة من أنظمة التعرف على الكلام التلقائي (ASR). تقتصر معظم الحلول المعاصرة على التنبؤ ببعض العلامات التي تحدث بشكل متكرر، مثل الفترات والفواصل وعلامات الاستفهام - وفقط واحد لكل كلمة. ومع ذلك، في لغة مكتوبة، نتعامل مع عدد أكبر بكثير من أحرف علامات الترقيم (مثل الأقواس الواصلية، وما إلى ذلك)، ومجموعاتها (مثل الأقواس متبوعة ب DOT). لا يمكن دائما تقليل علامات الترقيم هذه بشكل لا لبس فيه إلى مجموعة أساسية من العلامات الأكثر تدويرا. في هذا العمل، نقيم عدة طرق في مهمة إعادة إعمار علامات الترقيم الشاملة. نحن نقوم بإجراء تجارب على الفورما المتوازي لغغتين مختلفتين، والإنجليزية والبولندية - اللغات مع التشكل البسيط والمعقد نسبيا، على التوالي. نحن نحقق أيضا في تأثير بناء نموذج على علامات ترقيم شاملة حول جودة مهام ترقيم الترقيم الأساسية
في العمل السابق، فقد تبين أن بيرت يمكنه محاذاة الجمل المتبادلة بشكل كاف على مستوى الكلمة.نحن هنا التحقيق فيما إذا كان بإمكان بيرت أيضا أن تعمل أيضا كحاذاة على مستوى Char.اللغات التي تم فحصها هي اللغة الإنجليزية والإنجليزية المزيفة والألمانية واليونان ية.نظهر أن اللغتين الوثيقة هي، فإن بيرت أفضل يمكن أن يحاذيها على مستوى الشخصية.يعمل BERT بالفعل بشكل جيد باللغة الإنجليزية إلى محاذاة اللغة الإنجليزية المزيفة، ولكن هذا لا يعمم اللغات الطبيعية إلى نفس المدى.ومع ذلك، يبدو أن قرب لغتين عامين عاملا.اللغة الإنجليزية ترتبط بالألمانية أكثر من اليونانية وينعكس ذلك في مدى تحريزه جيدا؛اللغة الإنجليزية إلى الألمانية أفضل من الإنجليزية إلى اليونانية.ندرس إجراءات متعددة وإظهار أن مصفوفات التشابه اللغات الطبيعية تظهر العلاقات الأضعفين بصرف النظر عن لغتين.
على ويكيبيديا، موسوعة من الجماعة الجماعية عبر الإنترنت، ينفذ المتطوعون سياسات التحرير الموسوعة.لقد ألهمت سياسة ويكيبيديا بشأن الحفاظ على وجهة نظر محايدة البحوث الحديثة على اكتشاف التحيز، بما في ذلك كلمات الاصوات "والتحريز".بعد حتى الآن، تم إجراء القل يل من العمل على تحديد البخاخ، "العبارات الموجودة بشكل مفرط دون مصدر يمكن التحقق منه.نوضح أن جمع البيانات التدريبية لهذه المهمة يتطلب بعض العناية، وبناء مجموعة بيانات عن طريق الجمع بين التعليقات التوضيحية لتحرير ويكيبيديا وتقنيات استرجاع المعلومات.نقارن العديد من النهج التي توقعت من البخار وتحقيق 0.963 F1 من خلال دمج ميزات الاقتباس في نموذج روبرتا.أخيرا، نوضح كيفية دمج نموذجنا مع البنية التحتية العامة في ويكيبيديا لإعادة مجتمع محرر ويكيبيديا.
تقدم هذه الورقة تقنية لتحديد فتحات المشارك في عقود اللغة الإنجليزية.من خلال الإلهام من تقنيات استخراج فتحة غير مدفوعة غير المنشورة، يستخدم النظام المعروض هنا نهجا مختلفا لتحديد المصطلحات المستخدمة للإشارة إلى فتحة خاصة بالهيئة في العقود الجديدة.نقوم بتقييم النظام في تكوينات ميزة متعددة لإظهار أن أفضل نظام أداء في كلا النوعين من العقود يحملون الإشارة الدقيقة للنظر فيها - على الرغم من أن النماذج المذكورة غالبا ما تكون اسم الفتحة قيد النظر - - وهي بدلا من ذلكبناء فقط على تسمية التبعية والوالد؛بمعنى آخر، يتم العثور على كمية أكثر موثوقية لدور الحزب في عقد في ما يفعلونه بدلا من ما يتم تسميته.
تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغا ت، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.
نقدم مجموعة بيانات موازية فيتنامية عالية الجودة ومقدمة على نطاق واسع من أزواج الجملة بنسبة 3.02m، والتي تبلغ 2.9 مليون أزواج أكبر من كوربوس الترجمة الآلية الفيتنامية-الإنجليزية الفيتنامية - IWSLT15.نقوم بإجراء تجارب تقارن خطوط الأساس العصبية القوية و محركات الترجمة الآلية المعروفة على مجموعة بياناتنا وتجد أنه في كل من التقييمات التلقائية والإنسانية: يتم الحصول على أفضل أداء من خلال ضبط التسلسل الدقيق للتسلسل المدرب مسبقاوبعدلدينا أفضل معارفنا، هذه هي أول دراسة الترجمة الفيتنامية على نطاق واسع النطاق.نأمل أن تكون مجموعة بياناتنا المتاحة للجمهور ودراستها نقطة انطلاق للبحث والتطبيقات في المستقبل على الترجمة الفيتنامية والترجمة الآلية الإنجليزية.نطلق سراح DataSet لدينا في: https://github.com/vinairesearch/phomt
تقدم هذه الورقة تقييدات جامعة إدنبرة المقيدة لأنظمة اللغة الإنجليزية والألمانية والإنجليزية إلى المهمة المشتركة WMT 2021 بشأن ترجمة الأخبار.نحن نبني أنظمة EN-DE في ثلاث مراحل: تصفية Corpus، الترجمة الخلفية، والضبط الجميل.بالنسبة إلى EN-HA، نستخدم نهج ا للترجمة مرة أخرى في أعلى نماذج الإنشاء المدرب مسبقا والتحقيق في رسم الخرائط المفردات.
تقدم هذه الورقة التقديمات بجامعة ADAM MICKIECZ (AMU) لمهمة الترجمة الإخبارية WMT 2021.التركيز التقديمات على اتجاهات ترجمة English↔hausa، وهي سيناريو ترجمة موارد منخفضة بين اللغات البعيدة.ينطوي نهجنا على تنظيف بيانات شامل، ونقل التعلم باستخدام زوج لغة الموارد عالية الموارد، والتدريب التكراري، واستخدام بيانات أحادية المونولينغ عبر الترجمة الخلفي.نقوم بتجربة نهج NMT و PB-SMT على حد سواء، باستخدام بنية المحولات الأساسية لجميع نماذج NMT أثناء الاستفادة من أنظمة PB-SMT كحلول أساسية مماثلة.
ما مدى صعوبة ذلك بالنسبة لمتعلمي اللغة الإنجليزية (ESL) للغة الإنجليزية (ESL) قراءة النصوص الإنجليزية الصاخبة؟هل يحتاج المتعلمون ESL إلى التطبيع المعجمي لقراءة النصوص الإنجليزية الصاخبة؟قد تؤثر هذه الأسئلة أيضا على تكوين المجتمع على مواقع الشبكات الا جتماعية حيث يمكن أن تعزى الاختلافات إلى متعلمي ESL ومكبرات الصوت الإنجليزية الأصلية.ومع ذلك، فقد عالجت بعض الدراسات هذه الأسئلة.تحقيقا لهذه الغاية، بنينا مقيمين دقيقين للغاية لقراءة القراءة لتقييم قابلية قراءة النصوص للمتعلمين ESL.ثم طبقنا هذا المقيمين للنصوص الإنجليزية الصاخبة لمزيد من تقييم قابلية قراءة النصوص.أظهرت النتائج التجريبية أنه على الرغم من أن متعلمي ESL على المستوى المتوسطين يمكنهم قراءة معظم النصوص الإنجليزية الصاخبة في المقام الأول، فإن التطبيع المعجمي يحسن بشكل كبير من قراءة النصوص الإنجليزية الصاخبة للمتعلمين ESL.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا