ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج يستند إلى المحاذاة إلى تحريض المعجم الثنائي اللبيعي شبه الإشرافه مع شركة صغيرة موازية

An Alignment-Based Approach to Semi-Supervised Bilingual Lexicon Induction with Small Parallel Corpora

480   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واقعية؛ عادة ما تكون كميات صغيرة من البيانات ثنائية اللغة متاحة عادة بسبب وجود كوربوريل متوازي متعدد اللغات بشكل كبير، يمكن أن يخلق اللغويين كميات صغيرة من البيانات الموازية. في هذا العمل، نوضح نهجا فعالا من Bootstrapping لتعريفات المعجم الثنائية الشرفية شبه الإشراف التي تتمتع بنقاط القوة التكميلية لطريقين متباينين ​​لتحقيق المعجم الثنائي اللغة. في حين أن الطرق الإحصائية فعالة للغاية في حث أزواج الترجمة الصحيحة للكلمات التي تحدث في كثير من الأحيان في كوربوس موازية ومساحات تضمين أحادية مونولينغ لديها ميزة تم تدريبها على كميات كبيرة من البيانات، وبالتالي قد تحفز ترجمات دقيقة للكلمات غائبة عن الكائنات الصغيرة. من خلال الجمع بين هذه القوة النسبية وطريقتنا تحقق نتائج أحدث من الفن في 3 من 4 أزواج لغة في مجموعة اختبار VECMAP الصعبة التي تستخدم الحد الأدنى من الكميات من البيانات الموازية ودون الحاجة إلى قاموس الترجمة. نطلق تنفيذنا على www.blind-review.code.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

العديد من الأعمال الحديثة في إظهار كلمة التحليل المعجمي ثنائي اللغة (BLI) Word Adgetdings كمنتجات في الفضاء Euclidean.على هذا النحو، يتم حلها عادة من خلال العثور على تحول خطي يقوم بخرائط Ageddings إلى مساحة مشتركة.بدلا من ذلك، قد تكون مفهومة Word Age ddings كما العقد في رسم بياني مرجح.هذا الإطار يتيح لنا فحص حي الرسم البياني للعقدة دون تولي التحول الخطي، ويستغل التقنيات الجديدة من أدب الأمثل في مطابقة الرسم البياني.لم تتم مقارنة هذه الأساليب المتناقضة في Bli حتى الآن.في هذا العمل، ندرس سلوك الأساليب Euclidean مقابل الأساليب القائمة القائم على الرسم البياني إلى Bli تحت شروط البيانات المختلفة وإظهار أنها تكمل بعضها البعض عند الجمع.نطلق سردنا في https://github.com/kellymarchisio/euc-v-graph-bli.
تحتوي التعليقات السامة على أشكال لغة غير مقبولة مستهدفة نحو مجموعات أو أفراد.تصبح هذه الأنواع من التعليقات مصدر قلق خطير للمنظمات الحكومية والمجتمعات عبر الإنترنت ومنصات وسائل التواصل الاجتماعي.على الرغم من وجود بعض الأساليب للتعامل مع اللغة غير المق بولة، فإن معظمها يركز على التعلم الإشراف واللغة الإنجليزية.في هذه الورقة، نتعامل مع اكتشاف التعليق السام كاستراتيجية شبه مشتركة على رسم بياني غير متجانس.نقوم بتقييم النهج على مجموعة بيانات سامة من اللغة البرتغالية، مما يتفوق على العديد من الأساليب القائمة على الرسم البياني وتحقيق نتائج تنافسية مقارنة بمناطق المحولات.
في هذه الدراسة، اقترحنا طريقة وضع العلامات الزائفة القائمة على معجم الرواية باستخدام نهج AI (XAI) القائم. النهج الحالي لديه قيود أساسية في متواضتهم لأن المصنف الفقراء يؤدي إلى وضع علامة ناعمة غير دقيقة، ويؤدي إلى تصنيف الفقراء بشكل متكرر. وفي الوقت ن فسه، نولد المعجم يتكون من كلمة المعنويات بناء على نقاط الشرح. ثم نحسب ثقة البيانات غير المسبقة مع المعجم وإضافتها إلى مجموعة بيانات المسمى لنهج وضع العلامات الزائفة القوية. لدينا طريقة المقترحة لها ثلاثة مساهمات. أولا، يولد المنهجية المقترحة تلقائيا معجما يعتمد على Xai ويقوم بإجراء وضع علامات زائفة مستقلة، وبالتالي ضمان الأداء الأعلى والأقلية مقارنة بالآخر. ثانيا، نظرا لأن وضع العلامات الزائفة القائمة على المعجم يتم تنفيذها دون التعلم في معظم النماذج، فإن كفاءة الوقت قد زادت إلى حد كبير، وثالثا، يمكن أن تكون المعجم المنتج عالية الجودة المتوفرة لتحليل المعنويات للبيانات من مجالات مماثلة. تم التحقق من فعالية وكفاءة أسلوبنا المقترح من خلال المقارنة الكمية مع طريقة وضع العلامات الزائفة الحالية والمراجعة النوعية للمعجم الذي تم إنشاؤه.
يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمك ن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
الاستعارات في كل مكان في اللغة الطبيعية، ويتطلب الكشف عنها منطق سياقي حول ما إذا كان التعارض الدلالي موجود بالفعل.معظم العمل الحالي يعالج هذه المشكلة باستخدام نماذج السياق المدربة مسبقا.على الرغم من نجاحها، تتطلب هذه النماذج كمية كبيرة من البيانات ال مسمى ولا تستند إلى اللغة اللاحنة.في هذه الورقة، اقترحنا نموذجا متمربا مسبقا مسبقا (كيت) للكشف عن الاستعارة مع التعلم شبه الإشرافه.يستخدم نموذجنا أولا نموذجا مدربا مسبقا للحصول على تمثيل سياقي للكلمات المستهدفة وتوظف هدفا بسيطا لتعزيز المسافة المتزايدة بين الكلمات المستهدفة "الحواس الحرفية والجهزة المجازية القائمة على نظريات لغوية.علاوة على ذلك، نقترح استراتيجية بسيطة لجمع مثيلات مرشحة واسعة النطاق من كوربوس العام وتعميم النموذج عبر التدريب الذاتي.تبين تجارب واسعة أن كيت يحقق أداء أفضل ضد خطوط خطوط البيانات الحديثة على العديد من البيانات القياسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا