ترغب بنشر مسار تعليمي؟ اضغط هنا

Bisect: تعلم تقسيم وجمل إعادة صياغة مع Bitex

BiSECT: Learning to Split and Rephrase Sentences with Bitexts

610   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل إنجليزية طويلة مقترن بأجمل الإنجليزية الأقصر والمعاواة بينها. نحصل على هؤلاء من خلال استخراج محاذاة جملة واحدة في فورانيا متوازية ثنائية اللغة ثم استخدام الترجمة الآلية لتحويل كلا الجانبين من الجور إلى نفس اللغة. يحتوي Bisect على أمثلة تدريبية ذات جودة أعلى من SPORTA SPORTA السابق وإعادة صياغتها، مع انشقاقات الجملة التي تتطلب تعديلات أكثر أهمية. نقوم بتصنيف أمثلة في Corpus لدينا واستخدام هذه الفئات في نموذج جديد يتيح لنا استهداف مناطق محددة من جملة المدخلات التي سيتم تقسيمها وتحريرها. علاوة على ذلك، نوضح أن النماذج المدربة على Bisect يمكن أن تؤدي مجموعة متنوعة واسعة من العمليات المنقسمة وتحسينها على النهج السابقة للحالة السابقة في التقييمات التلقائية والبشرية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال مسألة، إلا أنها قد تفشل في توليد صياغة هادفة بسبب عدم وجود إشارات الإشراف. في هذا العمل، نذهب إلى أبعد من النماذج الحالية واقتراح نهج رواية لتوليد صياغة عالية الجودة مع بيانات الإشراف الضعيف. على وجه التحديد، نتعامل مع مشكلة توليد إعادة صياغة الإشراف ضعيفا من خلال: (1) الحصول على جمل متوازية ضعيفة وفرة عن طريق توسيع إعادة صياغة الزائفة القائمة على استرجاع؛ و (2) تطوير إطار تعليمي التعلم إلى تحديد عينات قيمة تدريجيا لضبط النموذج اللغوي المدرب مسبقا في مهمة إعادة توجيهها مسبقا في مهمة إعادة الصياغة الخطية. نوضح أن نهجنا يحقق تحسينات كبيرة على النهج القائمة غير المدمرة، وهو ما يمكن قابلة للمقارنة في الأداء مع أحدث من الفنون المغلفة.
تعد صياغة صياغة Reprrase مهمة صعبة تعزز تحويل جملة مدخلية معقدة معينة إلى جمل متعددة أقصر معاداة معنى معادل. نهج إعادة كتابة هذا تصور أن الجمل الأقصر تستفيد من القراء البشري وتحسين مهام الخبراء اللامبرية التي تحضرها كخطوة مسبقة مسبقة. يقدم هذا العمل خط أنابيب كامل قادر على أداء طريقة تقسيم وإعادة الصياغة بطريقة تبادلة. لقد قمنا بتدريب نماذج عصبية التسلسلية من أجل اللغة الإنجليزية وتطبقها على التنبؤ بالتحولات باللغة الإنجليزية والأحكام البرتغالية البرازيلية بالاشتراك مع نمذجة لغة بيرت الملثمين. على عكس الأساليب التقليدية التي تطلب من النماذج التدريبية بالمواد التدريبية المكثفة، نقدم طريقة غير تافهة لبناء تلك الرسومات المعممة فقط عن طريق الطبقات النحوية (علامات نقاط البيع) وتكرار كل منها، مما يقلل من مقدار البيانات التدريبية اللازمة. أظهرت مساهمة خط الأنابيب هذا نتائج تنافسية تشجيع التوسع في الأسلوب لغات أخرى غير الإنجليزية.
من المفترض أن تكون المعلومات المتسلسلة، A.AK.A.، أمر ضروري لمعالجة تسلسل مع الشبكة العصبية المتكررة أو تشفير الشبكة العصبية المتكررة.ومع ذلك، هل من الممكن ترميز اللغات الطبيعية دون أوامر؟بالنظر إلى كيس من الكلمات من جملة مضطربة، قد لا يزال البشر قادر ين على فهم ما تعني هذه الكلمات عن طريق إعادة ترتيبها أو إعادة بناءها.مستوحاة من هذا الحدس، في هذه الورقة، نقوم بإجراء دراسة للتحقيق في كيفية تأثير معلومات الطلب في تعلم اللغة الطبيعية.من خلال إدارة مقارنات شاملة، قارأت كميا قدرة العديد من النماذج العصبية الممثلة لتنظيم الأحكام من كيس من الكلمات بموجب ثلاثة سيناريوهات نموذجية، وتلخيص بعض النتائج والتحديات التجريبية، والتي يمكن أن تسلي الضوء على البحوث المستقبلية على خط العمل هذا.
إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول م رة والتركيز على التنوع بين الجملة من خلال النظر في إعادة كتابة الجملة وإعادة ترتيبها. نقترح Corpg (توليد إعادة صياغة البحث عن النصوص الموجهة)، والتي تتمتع بالطرازات الرسم البياني Gru لتشفير الرسم البياني لعلاقة الاتساق والحصول على تمثيل مدرك التماسك لكل جملة، والتي يمكن استخدامها لإعادة ترتيب جمل الإدخال المتعددة (المحورة). نحن نقوم بإنشاء مجموعة بيانات صياغة على مستوى الوثيقة Pseudo لتدريب Corpg. تظهر نتائج التقييم التلقائي أن Corpg تفوقت على العديد من النماذج الأساسية القوية على درجات Bertscore وتنوعها. يوضح التقييم البشري أيضا أن نموذجنا يمكن أن يولد إعادة صياغة المستندات بمزيد من التنوع والحفاظ الدلالي.
للمساعدين الصوتيين مثل Alexa ومساعد Google و SIRI ويزويف نوايا المستخدمين بشكل صحيح أهمية قصوى.ومع ذلك، يعاني المستخدمون في بعض الأحيان الاحتكاك مع هؤلاء المساعدين، بسبب الأخطاء من مكونات النظام المختلفة أو أخطاء المستخدمين مثل زلات اللسان.يميل المست خدمون إلى إعادة صياغة استفساراتهم حتى يحصلون على استجابة مرضية.يستخدم الكشف عن صياغة إعادة صياغة لتحديد إعادة التسلياع وتم التعامل معها منذ فترة طويلة كمهمة مع مدخلات الزوجية، والتي لا تستخدم بالكامل المعلومات السياقية (E.G. المستخدمين الضمنية).تحقيقا لهذه الغاية، نقترح نموذج اكتشاف صياغة صياغة حديثة لتحديد إعادة التسليح تلقائيا من الحوارات متعددة الدوران.نعرض كيفية الاستفادة من سياق الحوار وإشارات التفاعل وكيل المستخدم، بما في ذلك ملاحظات المستخدم الضمنية والفجوة الزمنية بين المنعطفات المختلفة، والتي يمكن أن تساعد بشكل كبير بشكل كبير في نماذج الكشف عن إعادة صياغة الزوجية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا