ترغب بنشر مسار تعليمي؟ اضغط هنا

تظهر النماذج المسبقة للتدريب المستندة إلى المحولات مثل Bert و Electra حول مجموعة من كورسيا العربية، التي أظهرها كل من أرابيرت وأريكيكترا، نتيجة مثيرة للإعجاب في مهام المصب.ومع ذلك، فإن نماذج اللغة المستندة إلى المحولات قبل التدريب هي باهظة الثمن، خاص ة بالنسبة للنماذج الكبيرة.في الآونة الأخيرة، تناول محول القمع التكرار المتسلسل داخل بنية المحولات من خلال ضغط تسلسل الدول المخفية، مما يؤدي إلى انخفاض كبير في تكلفة ما قبل التدريب.تدرس هذه الورقة تجريبية أداء وكفاءة بناء نموذج اللغة العربية مع محول القمع وهناك هدف Electra.نجد أن نموذجنا يحقق نتائج أحدث النتائج على العديد من المهام المصب العربية على الرغم من استخدام موارد حسابية أقل مقارنة بالنماذج الأخرى القائمة على بيرت.
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
في حين أن التلخيص المبشط في بعض اللغات، مثل اللغة الإنجليزية، فقد وصلت بالفعل نتائج جيدة إلى حد ما بسبب توفر موارد تحديد الاتجاه، مثل مجموعة بيانات CNN / Daily Mail، والتقدم الكبير في النماذج العصبية الإنتاجية، والتقدم المحرز في تلخيص الجماع للعربية اللغة الخامسة الأكثر تكلم على مستوى العالم، لا تزال في أحذية الأطفال. في حين أن بعض الموارد لتلخيص الاستخراجي كانت متاحة لبعض الوقت، في هذه الورقة، نقدم أول كائن من ملخصات الأخبار المذهلة التي كتبها الإنسان باللغة العربية، على أمل وضع أساس هذا الخط من البحث لهذه اللغة الهامة. تتكون DataSet من أكثر من 21 ألف عنصر. استخدمنا هذه البيانات هذه البيانات لتدريب مجموعة من أنظمة تلخيص الجماع العصبي للعربية من قبل طرازات اللغة المدربة مسبقا مسبقا مثل بيرت متعددة اللغات وأرابيرت والفتنة متعددة اللغات - 50. كما مجموعة البيانات العربية أصغر بكثير من .g. DataSet CNN / Daily Mail DataSet، كما طبقنا نقل المعرفة عبر اللغات إلى تحسين أداء أنظمةنا الأساسية. تضمنت الإعدادات نماذج ملخصتين تعتمد على M-Bert تدرب أصلا على الهنغارية / الإنجليزية ونظام مماثل على أساس M-BART-50 مدربا أصلا للروسية التي تم ضبطها بشكل جيد للعربية. تم إجراء تقييم النماذج من حيث الحمر، وتم تقييم يدوي للطلاقة وكفاية النماذج أيضا.
أنظمة ذاكرة الترجمة (TMS) هي المكون الرئيسي لأدوات الترجمة المساعدة بمساعدة الكمبيوتر. يقومون بتخزين الترجمات التي تسمح بتوفير الوقت عن طريق تقديم الترجمات على قاعدة البيانات من خلال مطابقة عدة أنواع مثل المباريات الغامضة، والتي تحسبها خوارزميات مثل مسافة التعديل. ومع ذلك، أظهرت الدراسات أوجه القصور اللغوي لهذه النظم والصعوبات في استرجاع البيانات أو الحصول على نسبة عالية من المطابقة، خاصة بعد تطبيق التحولات النحوية والدلوية هي التغيير الصوتي النشط / السلبي، تغيير ترتيب الكلمات، الاستبدال بواسطة مرادف أو ضمير شخصي، على سبيل المثال. تقدم هذه الورقة نتائج دراسة تجريبية حيث نحلل البيانات النوعية والكمية من الاستبيانات التي أجريت مع المترجمين المحترفين للإسبانية والفرنسية والعربية من أجل تحسين فعالية TMS واستكشاف جميع الاحتمالات لدمج مزيد من المعالجة اللغوية من عشرة أنواع التحول وبعد النتائج مشجعة، وسمحت لنا لمعرفة عملية الترجمة نفسها؛ التي نقترحنا أداة معالجة مسبقة التحرير لتحسين عمليات المطابقة واسترجح العمليات.
ساهم تقدم تقنية الويب والمعلومات في النمو السريع للمكتبات الرقمية وأدوات ترجمة الآلات التلقائية والتي تقوم بسهولة بترجمة النصوص من لغة إلى أخرى. وقد زادت هذه المحتوى في الوصول إلى لغات مختلفة، مما يؤدي إلى أداء الانتحال المترجم بسهولة، يشار إليها باس م الانتحال عبر اللغة ". التعرف على الانتحال بين النصوص بلغات مختلفة هو أكثر تحديا من تحديد الانتحال داخل وجعة مكتوبة بنفس اللغة. تقترح هذه الورقة تقنية جديدة لتعزيز اكتشاف الانتحال باللغة الإنجليزية والعربية على مستوى الجملة. تستند هذه التقنية إلى استخراج ميزة دلالية ونقصية باستخدام ترتيب Word و Word AdgetDing و MIGNIMENT مع ترميزات متعددة اللغات. يتم بعد ذلك استخدام هذه الميزات ومجمديها مع خوارزميات مختلفة لتعلم الآلات (ML) من أجل المساعدة في تصنيف الجمل كإخلاء إما مكسوين أو غير متسائل. تم نشر النهج المقترح وتقييمه باستخدام مجموعات البيانات المقدمة في Semeval-2017. يوضح تحليل البيانات التجريبية المستخدمة في استخدام الميزات المستخرجة ومجموعاتها مع مختلف منصات ML، تحقق نتائج واعدة.
تقدم هذه الورقة مجموعة من التجارب لتقييم ومقارنتها بين أداء استخدام نماذج CBOW Word2VEC و Lemma2vec للغموض باللغة العربية في السياق (WIC) دون استخدام مخزونات الإحساس أو Asbeddings المعنى.كجزء من المهمة المشتركة Semeval-2021 2 على Devambiguation WIC، استخدمنا DEV.AR-AR-ARSET (أزواج الجملة 2K) لتحديد ما إذا كانت كلمتين في زوج جملة معينة تحمل نفس المعنى.استخدمنا نماذج Word2vec: Wiki-cbow، وهو نموذج مدرب مسبقا على Wikipedia العرب، ونموذج آخر تدربنا على كورسا عربية كبيرة من حوالي 3 مليارات رموز.كما تم بناء نماذج LEMMA2VEC بناء على نماذج Word2vec.بعد ذلك تم استخدام كل من النماذج الأربعة في مهمة Disambiguation WIC، ثم يتم تقييمها على DataSet Semeval-2021 Test.ar-Ar-Ar.في النهاية، أبلغنا عن أداء النماذج المختلفة ومقارنتها بين استخدام النماذج القائمة على Lemma ومقرها الكلمات.
كان الهدف من هذا العمل هو إدخال نهج فعال يستند إلى نموذج اللغة العربية لمكافحة التغريدات Covid-19 InfoDemic.تم ترتيبها في شكل خط أنابيب من خطوتين، حيث تضمنت الخطوة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل Twitter Jargon، بما في ذلك الرموز التع بيرية والرموز، في نص عادي، واستغلت الخطوة الثانية نسخة من أرابيرت، والتيتم تدريب مسبقا على نص عادي، لضبط وتصنيف التغريدات فيما يتعلق بتسميةهم.كان استخدام نماذج اللغة المدربة مسبقا على النصوص العادية بدلا من الحصول على تغريدات من الضرورة لمعالجة قضايا نقدية مبينة من الأدبيات العلمية، وهي (1) نماذج اللغة المدربة مسبقا متوفرة على نطاق واسع في العديد من اللغات، وتجنب الوقت-Consuming والتدريب النموذجي المكثف من الموارد مباشرة على تغريدات من نقطة الصفر، مما يتيح التركيز فقط على ضبطه الجميل؛(2) النص العادي المتاح كورسا أكبر من تغريدة فقط، مما يسمح بأداء أفضل.
في هذه الورقة، نستكشف آثار المتغيرات اللغوية، وأحجام البيانات، وأنواع المهام التي تم ضبطها بشكل جيد في نماذج اللغة العربية المدربة مسبقا.للقيام بذلك، نبني ثلاث نماذج لغوية مدربة مسبقا عبر ثلاثة متغيرات باللغة العربية: العربية القياسية العربية (MSA)، العربية، واللوجية العربية، بالإضافة إلى نموذج لغوي رابع مدرب مسبقا على مزيج من الثلاثةوبعدنحن ندرس أيضا أهمية حجم بيانات التدريب المسبق من خلال بناء نماذج إضافية مدربة مسبقا على مجموعة Scaled-Down من متغير MSA.قارنا نماذجنا المختلفة لبعضنا البعض، بالإضافة إلى ثمانية نماذج متاحة للجمهور من خلال ضبطها على خمس مهام NLP تمتد 12 مجموعة بيانات.تشير نتائجنا إلى أن القرب المتغير من بيانات التدريب المسبق لبيانات التوصيل الدقيق أكثر أهمية من حجم بيانات التدريب المسبق.نستمسى هذه البصيرة في تحديد نموذج اختيار نظام محسن للمهام التي تمت دراستها.
في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r وال عربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.
مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا