ترغب بنشر مسار تعليمي؟ اضغط هنا

من الدائرة إلى الاعتماد على أسلوب UD: بناء أول أداة تحويل التركية

From Constituency to UD-Style Dependency: Building the First Conversion Tool of Turkish

340   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتداول هذه الورقة عن عملية بناء أول أداة تحويل الدائرة إلى التبعية التركية. نقطة الانطلاق لهذا العمل هي دراسة سابقة التي تحولت فيها 10 آلاف من أشجار هيكل العبارة يدويا إلى تركية من Corpus الأصلي Penntreebank. ضمن نطاق هذا المشروع، تم تحويل هذه العبارات التركية هذه الأشجار تلقائيا إلى هياكل التبعية على غرار UD، باستخدام خوارزمية تستند إلى القواعد وخوارزمية لتعلم الآلة محددة لمتطلبات اللغة التركية. تمت مقارنة نتائج الخوارزمية وكلاهما أن نهج التعلم الآلي أثبت أنه أكثر دقة من الخوارزمية القائمة على القواعد. تم تنقيح الناتج من قبل فريق من اللغويين. اتخذت الإصدارات المكررة عباحيات قياسية ذهبية لتقييم الخوارزميات. بالإضافة إلى مساهمتها في مشروع UD مع مجموعة بيانات كبيرة من 10،000 شجرة التبعية التركية، فإن هذا المشروع يفي أيضا فجوة مهمة للأداة التحويل التركية، مما يتيح التعدد السريع من شركة التبعية التي يمكن استخدامها لتدريب محلل التبعية الأفضل وبعد



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

Framenet (Lowe، 1997؛ Baker et al.، 1998؛ Fillmore and Atkins، 1998؛ جونسون وآخرون، 2001) هو مشروع معجم حسابي يهدف إلى تقديم نظرة ثاقبة على العلاقات الدلالية بين المسندات والحجج.الاستخدامات في العديد من تطبيقات NLP، أثبتت Framenet نفسها كمورد قيم.يضع الهدف الرئيسي لهذه الدراسة مؤسسة بناء فرامين تركية شاملة ومتماسكة متوافقة مع موارد أخرى مثل Propbank (Kara et al.، 2020) أو Wordnet (Bakay et al.، 2019؛ Ehsani، 2018؛ Ehsani etal.، 2018؛ برلمان وآخرون، 2019؛ باكاي وآخرون، 2020) في اللغة التركية.
إن المشكلات، والمكونات غير المعجمية في الكلام، تلعب دورا حاسما في التفاعل البشري البشري.من الصعب التدريب على النماذج المصممة للاعتراف بالمعلومات المشكلية، وخاصة مشاعر الكلام والأسلوب، بسبب مجموعات البيانات المحدودة المسمى المتاحة.في هذا العمل، نقدم إ طارا جديدا يمكن شبكة عصبية لتعلم استخراج السمات المعالجة من الكلام باستخدام البيانات غير المشروح للعاطفة.نقوم بتقييم فائدة المدينات المستفادة على مهام المصب في الاعتراف بالمشاعر والكشف عن أسلوب التحدث، مما يدل على تحسينات كبيرة على الميزات الصوتية السطحية وكذلك على المدينات المستخرجة من مناهج أخرى غير مخالفة.يتيح عملنا أنظمة المستقبل الاستفادة من النازع التضمين المستفاد كمكون منفصل قادر على تسليط الضوء على المكونات المعيارية في الكلام.
تساهم هذه الورقة في مؤشر ترابط البحث عن مجال معالجة مخططات التوضيحية المختلفة التبعية: واحدة (دلالية ") تفضل كلمات المحتوى كجوهرات علاقات التبعية والآخر (Syntactic ') تفضل رؤوس النحوية. أصدرت العديد من الدراسات الدعم لفكرة أن اختيار المعايير النحوية لتعيين رؤوس في أشجار التبعية يحسن أداء محلل التبعية. قد يتم شرح ذلك من خلال افتراض أن الأساليب الأساسية هي عموما أكثر واقعية. في هذه الدراسة، نختبر هذه الفرضية من خلال مقارنة أداء خمسة أنظمة تحليل (كل من الانتقال والرسوم البيانية القائمة على الرسم البياني) على مجموعة مختارة من 21 Treebanks، وكلها في متغير دلالات، تمثلها UD القياسية (التبعيات العالمية)، و البديل "البقع الأساسية"، يمثلها SUD (التبعيات العالمية النحوية العالمية): على عكس التجارب التي تم الإبلاغ عنها سابقا، والتي تعتبر قابلة للتعلم التوضيحية "التوضيحية للدلية" والمنظمات الأساسية للإنشاءات الخاصة في المختبر، تعتبر مخططات التعليق التوضيحي بالكامل في الجسم الحي. بالإضافة إلى ذلك، قارنا هذه المخططات التوضيحية باستخدام مجموعة من الخصائص الأساسية الكمي، والتي قد تعكس أيضا قدرتها على تعلمها. تظهر نتائج التجارب أن SUD يميل إلى أن يكون أكثر حيلة من UD، ولكن ميزة واحدة أو المخطط الآخر يعتمد على المحلل المحلل والجور في السؤال.
نقترح سهولة، أداة تشخيصية بسيطة للإجابة على السؤال المرئي (VQA) الذي يحدد صعوبة الصورة، عينة السؤال.يعتمد سهولة على نمط الإجابات التي قدمها المعلقون المتعددين على سؤال معين.على وجه الخصوص، تعتبر جوانبين من الإجابات: (1) انتروبيا؛(2) المحتوى الدلالي.أ ولا، نثبت صحة تشخيصنا لتحديد عينات سهلة / من الصعب لنماذج VQA الحديثة.ثانيا، نعرض أن هذه السهولة يمكن استخدامها بنجاح لتحديد العينات الأكثر إعلانية للتدريب / ضبط الدقيقة.بشكل حاسم، يتم استخدام المعلومات فقط المتوفرة بسهولة في أي مجموعة بيانات VQA لحساب درجاتها.
حاليا، هناك نوعان من الوصمات المتاحة للتركية: TR-Wordnet of Balkanet و Kenet.كما يتضمن Wordnet الأكثر شمولية للتركية، تشمل Kenet 76،757 عملية عملية.لدى Kenet العلاقات الدلالية المعدلة وترتبط ب Pwn من خلال العلاقات المتداخلة.في هذه الورقة، نقدم الإجرا ء الذي اعتمده في إنشاء Kenet، وإعطاء تفاصيل حول نهجنا في التعليق العلاقات الدلالية مثل ارتفاع ضغط الدم ويناقش المشكلات الخاصة باللغة التي تواجهها في هذه العمليات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا