ترغب بنشر مسار تعليمي؟ اضغط هنا

القضايا النظرية والعملية في التعليق التوضيحي الدلالي لأربعة لغات أصلية

Theoretical and Practical Issues in the Semantic Annotation of Four Indigenous Languages

496   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تلعب الموارد الحسابية مثل سورانيا المشروح الدولى دورا مهما في تمكين المتحدثين لغات الأقليات الأصلية للمشاركة في الحكومة والتعليم ومجالات الحياة العامة في لغتهم العامة.ومع ذلك، فإن العديد من اللغات - بشكل رئيسي أولئك الذين لديهم سكان متكلمون أصليين صغار ودون تقاليد مكتوبة - ليس لديهم دعما رقميا.عقبة واحدة في إنشاء هذه الموارد هي أنه بالنسبة للعديد من اللغات، سيكون عدد قليل من المتحدثين قادرين على تسجيل النصوص - وهي مهمة تتطلب محو الأمية وبعض التدريب اللغوي - وأن وقت هؤلاء الخبراء عادة ما يكون في ارتفاع الطلب على أعمال تخطيط اللغة.تقوم هذه الورقة بتقييم ما إذا كانت غير مكبرات الصوت المدربة في لغة أصلية يمكن أن تؤدي إشعالا دلاليين باستخدام عروض توضيحي موحدة، مما يسمح بإنشاء مواد حسابية دون إيصال المزيد من الضغط على موارد المجتمع.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الاختلاف الدلالي بلغات ذات صلة هو مصدر قلق رئيسي لللغويات التاريخية.نحن نحقق في التحقيق اللغوي في الاختلاف الدلالي من أزواج المعروفة باللغات الإنجليزية والرومانسية، عن طريق تدمير Word.تحقيقا لهذه الغاية، نقدم مجموعة بيانات جديدة من الإدراك في جميع أز واج تلك اللغات.نحن نصف أنواع الأخطاء التي حدثت خلال عملية تحديد المعرفة الآلية وتصحيحها يدويا.بالإضافة إلى ذلك، نسمي أن نملصق اللغة الإنجليزية وفقا لالئصال الخاصة بهم، وفصلها إلى مجموعتين: القروض القديمة والقروض الأخيرة.في هذه البيانات المنوية، نقوم بتحليل خصائص Word مثل التردد والبولزيمي، وتوزيع درجات التشابه بين مجموعات مختلفة بلغات مختلفة.نحدد تلقائيا مجموعات مختلفة من الإنجليز، وضع اتجاه جديد للبحث في cognates، والقروض وتحليل الأصدقاء الخاطئين في لغات ذات صلة.
التعليق التوضيحي المعرفي العالمي (UCCA) هو مخطط توضيحي دلالي ينظم النصوص في هيكل الوسائد الخشن، مما يوفر تغطية واسعة من الظواهر الدلالية.في الوقت نفسه، لا تزال هناك حاجة إلى علاج محمظ من العديد من الفئات.فئة الإعلان ذات أهمية خاصة، حيث تغطي مجموعة وا سعة من معاني مختلفة بشكل أساسي مثل النفي والسببية والجانب وقياس الحدث.في هذه الورقة، نقدم مخطط التعليق التوضيحي الصقل لفئة AUCCA Adverbial، والتي تبين أن UCCA Adverbials يمكن أن تكون بالفعل في الفئات الفرعية في 7 أنواع الدلالية على الأقل، والقيام بذلك يمكن أن تساعد في توضيح وتكريم تسميات الحبيبات الخشنة على خلاف ذلك.نحن نقدم مجموعة مبدئية من المبادئ التوجيهية التوضيحية، وكذلك تجارب التجريبية التوضيحي مع اتفاق مرتفع بين المشتريات، مما يؤكد صلاحية المخطط.
تهدف التحليل الدلالي القائم على الرسم البياني إلى تمثيل معنى نصي من خلال الرسوم البيانية الموجهة. باعتبارها واحدة من أكثر تمثيلات المعنى الواعدة في مجال الأغراض العامة، اكتسبت هذه الهياكل وتحليلها زخما فائدة كبير خلال السنوات الأخيرة، مع اقتراح عدة ش كليات متنوعة. ومع ذلك، بسبب هذا التجانس للغاية، ركز معظم الجهود البحثية بشكل أساسي على الحلول الخاصة بإشعاج معين. في هذا العمل، بدلا من ذلك، نقوم بإعادة صياغة التحليل الدلالي نحو شكليات متعددة لأن الترجمة الآلية العصبية متعددة اللغات (MNMT)، واقتراح SGL، وهي عبارة عن هندسة SCL، وهي عبارة عن مورد SEQ2SEQ متعدد الاستخدامات تدربت بهدف MNMT. مدعومة بالعديد من التجارب، نظير على أن هذا الإطار فعال بالفعل بمجرد تعزيز إجراءات التعلم مع شركة فورانيا المتوازية الكبيرة القادمة من الترجمة الآلية: نحن نبلغ عن عروض تنافسية على تحليل AMR و UCCA، خاصة بمجرد إقرانها مع الهندسة المعمارية المدربة مسبقا. علاوة على ذلك، نجد أن النماذج المدربة تحت مقياس التكوين جيدا بشكل ملحوظ إلى مهام مثل تحليل AMR عبر اللغات: تفوق SGL على جميع منافسها الهامش الكبير دون رؤية أمثلة غير الإنجليزية غير الإنجليزية في وقت التدريب في وقت التدريب، وبمجرد هذه الأمثلة يتم تضمين أيضا، يحدد حالة غير مسبوقة من الفن في هذه المهمة. نطلق سردنا ونماذجنا لأغراض البحث في https://github.com/sapienzanlp/sgl.
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
المواد الحيوية هي المواد الاصطناعية أو الطبيعية المستخدمة لبناء الأعضاء الاصطناعية، أو تصنيع الأطراف الاصطناعية، أو استبدال الأنسجة. شهد القرن الماضي تطور الآلاف من المواد الحيوية الجديدة، ونتيجة لذلك، زيادة أسية في المنشورات العلمية في هذا المجال. ي مكن أن تمكن تحليل واسع النطاق من المواد الحيوية وأدائها اختيار المواد التي يحركها البيانات وتصميم الزرع. ومع ذلك، يتطلب مثل هذا التحليل تحديد وتنظيم المفاهيم، مثل المواد والهياكل، من النصوص المنشورة. لتسهيل استخراج المعلومات في المستقبل وتطبيق تقنيات تعلم الآلات، قمنا بتطوير Annotator الدلالي خصيصا مصممة خصيصا لأدبيات المواد الحيوية. تم تنفيذ Annetator SNANTATATATATATOR باتباع منظمة وحدات تستخدم حاويات البرمجيات للمكونات المختلفة وتزويرها باستخدام nextflow كدير سير العمل. تم تطوير مكونات معالجة اللغة الطبيعية (NLP) بشكل أساسي في Java. سمح هذا الإعداد بالاعتراف الكي في الكيان المسمى بدقة سبعة عشر فئة ذات صلة بمجال المواد الحيوية. نحن هنا تفصيل تطوير وتقييم وأداء النظام، وكذلك إصدار المجموعة الأولى من ملخصات المواد الحيوية المشروحة. نجعل كل من الجور والنظام المتاح للمجتمع لتعزيز الجهود المستقبلية في هذا المجال والمساهمة في استدامتها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا