ترغب بنشر مسار تعليمي؟ اضغط هنا

تتحلل، الصمامات وتوليد: طريقة مستنيرة التكوين لتوليد التعريف الصيني

Decompose, Fuse and Generate: A Formation-Informed Method for Chinese Definition Generation

243   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نتعامل مع مهمة توليد تعريف (DG) باللغة الصينية، والتي تهدف إلى توليد تعريف تلقائيا لكلمة.معظم الطرق الحالية تأخذ كلمة المصدر كوحدة دلالة لا تسيطر عليها.ومع ذلك، في لغات parataxis مثل الصينية، يمكن أن تتكون معاني الكلمات باستخدام عملية تكوين كلمة، حيث يتم تشكيل كلمة (桃花 ''، إزهار الخوخ) بواسطة مكونات التكوين (桃 ''، الخوخ؛ 花 ''، زهرة)قاعدة تشكيل (رأس المعدل).مستوحاة من هذه العملية، نقترح تعزيز DG مع ميزات تكوين الكلمات.نحن نبني مجموعة بيانات مستنيرة للتشكيل، واقتراح طراز نموذجي، والتي تتحلل الكلمات في ميزات التكوين، تضرب بشكل حيوي ميزات مختلفة من خلال آلية Gating، وتوليد تعريفات الكلمات.تظهر النتائج التجريبية أن طريقتنا فعالة وقوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت نماذج لغة كبيرة مدربة مسبقا قدرةها مرارا وتكرارا على إنتاج نص يجيد. ومع ذلك حتى عند البدء من موجه، يمكن أن يستمر الجيل في العديد من الاتجاهات المعقولة. طرق فك التشفير الحالية بهدف التحكم في الجيل، على سبيل المثال، لضمان إدراج كلمات محددة، إما أ ن تتطلب نماذج إضافية أو ضبط جيد، أو العمل بشكل سيء عندما تكون المهمة في متناول اليد، على سبيل المثال، جيل القصة. في هذا العمل، نقدم طريقة فك تشفير التوصيل والتشغيل للتوليد اللغوي السيطرة البسيطة وبديهية، ويمكن وصفها في جملة واحدة: إعطاء موضوع أو كلمة رئيسية، ونضيف التحول إلى توزيع الاحتمالات على المفردات نحو كلمات مماثلة دلالة. نظهر كيف يمكن استخدام صلب هذا التوزيع لفرض قيود صلبة على توليد اللغة، وهو أمر لا تتمكن أي طريقة غيرها من الوسم والتشغيل حاليا مع مولدات لغة SOTA. على الرغم من بساطة هذا النهج، نرى أنه يعمل بشكل جيد بشكل لا يصدق في الممارسة: فك التشفير من GPT-2 يؤدي إلى جمل متنوعة وطلاقة مع ضمان ظهور كلمات دليل معين. نحن نؤدي دراستي المستخدمين، وكشف أن طريقة (1) تتفوقت أساليبنا على الطرق المتنافسة في التقييمات البشرية؛ و (2) إجبار الكلمات الدليلية على الظهور في النص الذي تم إنشاؤه ليس له تأثير على الطلاقة للنص الذي تم إنشاؤه.
الجيل القليل من طاولة النصوص إلى النص هو مهمة تأليف الجمل الطلالية والمخمة لنقل محتوى الجدول باستخدام بيانات محدودة. على الرغم من الجهود التي بذلت العديد من الجهود نحو توليد جمل بطلاقة مثيرة للإعجاب من خلال ضبط طرازات لغة قوية مدربة مسبقا، لا يزال بإ صلاح المحتوى الذي تم إنشاؤه يحتاج إلى تحسين. تحقيقا لهذه الغاية، تقترح هذه الورقة نهجا جديدا يحضر، وحفظ وتوليد (يسمى AMG)، مستوحاة من عملية توليد النص للبشر. على وجه الخصوص. (2) يحفظ ديناميكيا حالات مخصصات فتحة الجدول؛ و (3) يولد جمل مخلصة وفقا لحالات سياق وتخصيص الذاكرة. تشير التجارب الشاملة إلى التقييم البشري على ثلاثة مجالات (أي البشر، الأغاني، والكتب) من مجموعة بيانات الويكي أن نموذجنا يمكن أن يولد نصوص مؤهلة أعلى عند مقارنتها مع العديد من خطوط الأساس الحديثة، في كل من الطلاقة والإخلاص.
تحقق الإملاء الصيني (CSC) هو اكتشاف أخطاء الإملاء الصيني وتصحيحها.تستخدم العديد من النماذج من الارتباك المحدد مسبقا لتعلم رسم خرائط بين الأحرف الصحيحة وأهمياتها المماثلة المماثلة البصرية أو مماثلة ولكن قد يكون الرسم الخرائط خارج المجال.تحقيقا لهذه ال غاية، نقترح Spellbert، وهو نموذج مسبق مع ميزات إضافية قائمة على الرسم البياني ومستقلة على مجموعة الارتباك.لالتقاط الأنماطين الخاطئة بشكل صريح، فإننا نوظف شبكة عصبية رسم بيانية لإدخال معلومات جذرية وبرينيا كميزات بصرية وعصرية.لتحسين الصدر هذه الميزات مع تمثيلات الأحرف، ونحن نضع نموذج لغة ملثم على حد سواء مهام التدريب مسبقا.من خلال هذا التدريب المسبق الأغنياء المظلات، يمكن أن تظهر Spellbert مع نصف حجم Bert فقط أداء تنافسي وجعل أحدث نتيجة في مجموعة بيانات OCR حيث لا يتم تغطية معظم الأخطاء من قبل مجموعة الارتباك الموجودة.
وسط ارتفاع احتياجات الصحة العقلية في المجتمع، يتم نشر العوامل الافتراضية بشكل متزايد في المشورة. من أجل تقديم المشورة ذات الصلة، يجب على المستشارين أولا الحصول على فهم للقضايا المطروحة من خلال إظهار التقاسم من المستشار. من المهم وبالتالي بالنسبة للمس تشار Chatbot لتشجيع المستخدم على الانفتاح والتحدث. إحدى الطرق للحفاظ على تدفق المحادثة هي الاعتراف بالنقاط الرئيسية لاستشار المستشار عن طريق إعادة استخدامها، أو تحقيقها أكثر مع الأسئلة. تطبق هذه الورقة نماذج من مهام PLLP ذات الصلة ارتباطا وثيقا --- تلخيص وتوليد الأسئلة --- لإعادة التعميد وتوليد السؤال في سياق المشورة. أجرينا تجارب على مجموعة بيانات مشروحة يدويا من أزواج الكانتونية بعد الرد على الموضوعات المتعلقة بالوحدة والقلق الأكاديمي والقلق الاختبار. لقد حصلنا على أفضل أداء في كلا من إعادة تناوله وتوليد الأسئلة من خلال Bertsum Berting، وهو نموذج تلخيص حديثة، مع مجموعة البيانات اليدوية داخل المجال المعزز بمجموعة بيانات مفتوحة واسعة النطاق تلقائيا.
تعمل السابقة على جيل إعادة صياغة صياغة يتم التحكم فيها بشكل كبير على بيانات إعادة صياغة مباشرة على نطاق واسع غير متوفرة بسهولة للعديد من اللغات والمجالات. في هذه الورقة، نأخذ هذا الاتجاه البحثي إلى أقصى الحدود والتحقيق فيما إذا كان من الممكن تعلم تول يد الصياغة التي يتم التحكم فيها بموجبها مع بيانات غير صلبية. نقترح نموذج إعادة صياغة غير مدهش من غير المستنير عليه بناء على التشفير التلقائي الشرطي (VAE) يمكن أن تولد نصوص في بنية نصنية محددة. خاصة، نقوم بتصميم طريقة تعليمية من مرحلتين لتدريب النموذج بفعالية باستخدام البيانات غير الموازية. يتم تدريب VAE الشرطية على إعادة بناء جملة الإدخال وفقا للإدخال المحدد والهيكل النحامي. علاوة على ذلك، لتحسين قابلية التحكم في النحوية والاتساق الدلالي لشركة VAE الشرطية المدربة مسبقا، نحن نغتنمها باستخدام أهداف التعلم السيطرة على بناء الجملة وإعادة إعمار دورة إعادة إعمار، وتوظيف Gumbel-Softmax الجمع بين أهداف التعلم الجديدة هذه. توضح نتائج التجربة أن النموذج المقترح المدرب فقط على البيانات غير الموازية قادر على توليد صیر متنوعة مع بنية نصنية محددة. بالإضافة إلى ذلك، نحن نقوم بالتحقق من صحة فعالية طريقتنا لتوليد أمثلة خصومة النحوية على مهمة تحليل المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا