ترغب بنشر مسار تعليمي؟ اضغط هنا

تجزئة جمل اللغة الطبيعية عبر تحليل الوحدة المعجمية

Segmenting Natural Language Sentences via Lexical Unit Analysis

334   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتمتع النموذج المستنى بالضمان بشعبية كبيرة في الأعمال الأخيرة من تجزئة التسلسل.ومع ذلك، فإن كل من هذه الطرق تعاني من عيوبها الخاصة، مثل التنبؤات غير الصالحة.في هذا العمل، نقدم نموذجا موحدا أساسيا، تحليل وحدة معجمية (LUA)، التي تتناول كل هذه الأمور.تجزئة تسلسل وحدة معجمية ينطوي على خطوتين.أولا، قمنا بتضمين كل فترة باستخدام التمثيلات من نموذج لغة المحدد.ثانيا، نحدد درجة لكل مرشح تجزئة وتطبيق البرمجة الديناميكية (DP) لاستخراج المرشح بحد أقصى درجة.لقد أجرينا تجارب مكثفة في 3 مهام، (على سبيل المثال، تصنيع النحوية)، عبر 7 مجموعات من مجموعات البيانات.أنشأت لوا عروضا جديدة من الفنادق الجديدة في 6 منها.لقد حققنا نتائج أفضل من خلال دمج ارتباطات التسمية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن الافتقار إلى وصف رمز برنامج معين بمثابة عقبة كبيرة لتلك المطورين الجديدة في قاعدة التعليمات البرمجية لفهمها. أبلغت معالجة هذه المشكلة، العمل السابق في تلخيص التعليمات البرمجية، مهمة إنشاء وصف التعليمات البرمجية تلقائيا نظرا لأن نموذج التعلم الإضاف ي الذي تم تدريبه على إنتاج واجهة برمجة API (واجهة برمجة التطبيقات) أظهرت نتائج واعدة عند تطبيقها على ملخص كود نموذج. ومع ذلك، فإن رموز مختلفة لها ملخصات مختلفة يمكن أن يكون لها نفس مجموعة تسلسل API. إذا قمنا بتدريب نموذج لتوليد ملخصات بالنظر إلى تسلسل API، فلن يكون النموذج قادرا على التعلم بفعالية. ومع ذلك، نلاحظ أن تسلسل API لا يزال من الممكن أن يكون مفيدا ولم يتم استخدامه بنشاط. يقترح هذا العمل نهجا جديدا للمهاميات الجديدة التي تدرب في وقت واحد اثنين من المهام المماثلة: 1) تلخيص شفرة معينة (رمز إلى ملخص)، و 2) تلخيص تسلسل API معين (تسلسل API إلى ملخص). نقترح تشفير رواية على مستوى التعليمات البرمجية بناء على بيرت قادرة على التعبير عن دلالات التعليمات البرمجية، والحصول على تمثيلات لكل سطر التعليمات البرمجية. عملنا هو أول عمل تلخيص التعليمات البرمجية يستخدم نموذج اللغة المدربين تدريبا مسبقا باللغة والسياق الطبيعي في تشفيره. نقيم نهجنا باستخدام مجموعات بيانات شائعة (Java and Python) التي تم استخدامها على نطاق واسع في الدراسات السابقة. تظهر نتائجنا التجريبية أن نهجنا متعدد المهام لدينا يحسن على خطوط الأساس ويحقق الحالة الجديدة من بين الفن.
لقد قطع تحليل المعنويات شوطا طويلا لغات الموارد عالية الوزن بسبب توافر كورسا مشروح كبير.ومع ذلك، فإنه لا يزال يعاني من عدم وجود بيانات تدريب لغات الموارد المنخفضة.لمعالجة هذه المشكلة، نقترح شبكة الخصومة باللغة الشرطية (العشيرة)، وهي عبارة عن مبنى عصب ي نهاية إلى نهائي لتحليل المشاعر المتبادلة دون إشراف عبر اللغات.تختلف العشيرة عن العمل المسبق في ذلك، حيث يسمح للتدريب الخصم بتصدر على كل من الميزات المستفادة وتنبؤ المعنويات، لزيادة التمييزي للتمثيل المستفاد في الإعداد المتبادل.تظهر النتائج التجريبية أن العشيرة تفوقت على الطرق السابقة في مجموعة بيانات مراجعة الأمازون متعددة المجالات متعددة اللغات.يتم إصدار شفرة المصدر لدينا في https://github.com/hemanthkandula/clan.
نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعم ال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.
تعد أنظمة معالجة اللغة الطبيعية (NLP) في قلب العديد من أنظمة صنع القرار الآلي الحرجة التي تجعل توصيات حاسمة حول عالمنا في المستقبل.تم دراسة التحيز بين الجنسين في NLP جيدا باللغة الإنجليزية، لكنها كانت أقل دراستها بلغات أخرى.في هذه الورقة، تضم فريقا ب ينهم متحدثون 9 لغات - الصينية والإسبانية والإنجليزية والعربية والألمانية والفرنسية والفرصي والأوردو وولف - تقارير وتحليل قياسات التحيز بين الجنسين في ولاية ويكيبيديا كورسيا لهذه اللغات 9 لغات 9 لغات 9 لغات 9 لغات 9 لغات هذه.نقوم بتطوير ملحقات لحسابات متر راي حساسية على مستوى المهنة والجنس على مستوى كوربوس المصممة في الأصل للغة الإنجليزية وتطبيقها على 8 لغات أخرى، بما في ذلك اللغات التي لديها أسماء جنسانية من النوع الاجتماعي بما في ذلك كلمات المهنة الأنثوية والمذكر والمحايدة المختلفة.نناقش العمل في المستقبل من شأنه أن يستفيد بشكل كبير من منظور اللغويات الحاسوبية.
Kiezdeutsch هو مجموعة متنوعة من اللغة الألمانية التي يتحدثها المراهقون من الأحياء الحضرية متعددة الأعراق في محادثات عادية مع أقرانهم. في السنوات الأخيرة، زادت شعبية كيزدوتش بين الشباب، بشكل مستقل عن أصلها الاجتماعي والاقتصادي، وانتشر في وسائل التواصل الاجتماعي أيضا. في حين أن الدراسات السابقة تحققت على نطاق واسع في هذه المجموعة اللغوية من منظور لغوي ونوعي، فقد تم القيام بالكثير من وجهة نظر كمية. نقوم بإجراء أول تحليل مدفوع من البيانات على نطاق واسع من الخصائص المعجمية والمورفولوجية في Kiezdeutsch بالمقارنة مع الألمانية القياسية. على مستوى النتائج، نؤكد تنبؤات التحليلات النوعية السابقة ودمجها بمزيد من الملاحظات على ظواهر لغوية محددة مثل اللغات العامية وموقف المتكلم المرتبط بالنفس. على المستوى المنهجي، نقدم الانحدار اللوجستي كإطار لإجراء اختيار ميزة من أسفل إلى أسفل من أجل تحديد الاختلافات عبر أنواع اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا