ترغب بنشر مسار تعليمي؟ اضغط هنا

مركب أو ميزات المصطلح؟تحليل الشفاء في التنبؤ بصعوبة مركبات الأسماء الألمانية عبر المجالات

Compound or Term Features? Analyzing Salience in Predicting the Difficulty of German Noun Compounds across Domains

116   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن التنبؤ بصعوبة المفردات الخاصة بالمجال هي مهمة مهمة نحو فهم أفضل للنطاق، وتعزيز التواصل بين الأشخاص الخبراء والخبراء.نقوم بالتحقيق في مركبات الأسماء المغلقة الألمانية والتركيز على تفاعل الميزات المعجمية القائمة على المركب (مثل التردد والإنتاجية) والميزات المستندة إلى المصطلحات (المتناقضة لغة خاصة بالمجال واللغة العامة) عبر تمثيلات الكلمات والصفوفات المصنفة.تكمل تجارب التنبؤ لدينا رؤى من التصنيف باستخدام (أ) ميزات مصممة يدويا لتوصيف الوالدين وتشكيل المركب و (ب) مجمعات Word Adgentdings.نجد أنه بالنسبة للتمييز الثنائي الواسع في التردد المركزي باللغة العامة "VS. الصعب الصعب" كافية، ولكن بالنسبة للتمييز الأكثر غرامة من أربعة فئات من الدرجة الأولى، فمن الأهمية بمكان تضمين ميزات الحد من الناحية المتعاوية والمركب والميزات المكونة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قدم الصفات مثل الثقيلة (كما هو الحال في الأمطار الغزيرة) والرياح (كما في يوم عاصف) القيم المحتملة لشدة السمات ومناخها على التوالي. لا تتحقق السمات نفسها بشكل علني وهناها هذه المنطقة الضالة. في حين يمكن استنتاج هذه السمات بسهولة من قبل البشر، فإن تصني فهم التلقائي يشكل مهمة صعبة للنماذج الحسابية. نقدم المساهمات التالية: (1) نكتسب رؤى جديدة في مهمة اختيار السمات للألمانية. وبشكل أكثر تحديدا، نطور نماذج حسابية لهذه المهمة التي يمكن أن تعميم البيانات غير المرئية. علاوة على ذلك، نوضح أن دقة التصنيف تعتمد، في جملة أمور، على درجة Polysemy في Lexemes المعنية، على إمكانات تعميم البيانات التدريبية وعلى درجة الشفافية الدلالية في أزواج صفة الأسماء المعنية. (2) نحن نقدم الموارد الأولى للتجارب الحسابية واللغوية مع أزواج الأسماء المصرفية الألمانية التي يمكن استخدامها في اختيار السمات والمهام ذات الصلة. من أجل حماية آثار الحفظ غير المرغوب فيه، نقدم طريقة تكبير البيانات التلقائي استنادا إلى مورد معجمي يمكن أن يزيد من حجم بيانات التدريب إلى حد كبير.
تعد Word Embeddings تمثيلات قوية تشكل أساس العديد من هياكنة معالجة اللغة الطبيعية، سواء باللغة الإنجليزية ولدا في لغات أخرى.للحصول على مزيد من البصائل في Adgeddings Word، نستكشف استقرارها (على سبيل المثال، تتداخل بين أقرب جيران من كلمة في مسافات مختل فة التضمين) في لغات متنوعة.نناقش الخصائص اللغوية المرتبطة بالاستقرار، مما يدل على رؤى حول الارتباطات ذات الأنظمة الجنسانية اللغوية، وغيرها من الميزات.هذا له آثار على استخدام الاستخدام، لا سيما في البحث الذي يستخدمها لهم لدراسة الاتجاهات اللغوية.
بناء نظام الدعم الفني التلقائي هو مهمة مهمة ولكن التحدي.من الناحية النظرية، للإجابة على سؤال المستخدم في منتدى فني، يتعين على خبير بشري استرداد المستندات ذات الصلة أولا، ثم اقرأها بعناية لتحديد مقتطف الإجابة.على الرغم من النجاح الهائل، فقد حقق الباحث ون في التعامل مع أسئلة النطاق العامة الإجابة (ضمان الجودة)، وقد تم دفع الاهتمام الأقل بكثير مقابل التحقيق الفني في تشاينا.على وجه التحديد، تعاني الأساليب الموجودة من العديد من التحديات الفريدة (I) تتداخل السؤال والإجابة نادرا ما يتداخل بشكل كبير و (2) بحجم بيانات محدود للغاية.في هذه الورقة، نقترح إطارا جديدا لتعلم النقل العميق لمعالجة ضمان الجودة الفنية بشكل فعال عبر المهام والمجالات.تحقيقا لهذه الغاية، نقدم نهجا للتعلم المشترك قابل للتعديل لمهام استدعاء المستندات والقراءة.تجاربنا على Techqa توضح أداء فائق مقارنة بالطرق الحديثة.
أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل، نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط ​​لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.
تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا