ترغب بنشر مسار تعليمي؟ اضغط هنا

نقترح التحكم في إعادة صياغة إعادة صياغة الصياغة من خلال الهياكل النحوية المستهدفة المختارة بعناية لتوليد المزيد من صياغة أعلى جودة أعلى وجودة.نموذجنا، Aesop، يرفع نموذج لغة مسبقين ويضيف عن عمد تم اختيار عنصر تحكم ترنيع عمدا عبر وحدة التحديد القائمة ع لى استرجاع لإنشاء صیر بطلاقة.تشير التجارب إلى أن إيسوب يحقق عروضا حديثة على الحفظ الدلالي والتشطيب النحوي في مجموعات بيانات قياسية مع السيطرة النحوية من الحقيقة الأرضية من النماذج المشروح البشرية.علاوة على ذلك، مع وحدة اختيار بناء الجملة المستهدفة المستندة إلى الاسترجاع، يولد AESOP إعادة صياغة مع صفات أفضل من أفضل النماذج الحالية باستخدام التقييم النحوي المستهدف البشري وفقا للتقييم البشري.نوضح فعاليات AESOP لتحسين نماذج تصنيف النماذج على الإقلاع النحوي عن طريق تكبير البيانات على مهام الغراء.
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال مسألة، إلا أنها قد تفشل في توليد صياغة هادفة بسبب عدم وجود إشارات الإشراف. في هذا العمل، نذهب إلى أبعد من النماذج الحالية واقتراح نهج رواية لتوليد صياغة عالية الجودة مع بيانات الإشراف الضعيف. على وجه التحديد، نتعامل مع مشكلة توليد إعادة صياغة الإشراف ضعيفا من خلال: (1) الحصول على جمل متوازية ضعيفة وفرة عن طريق توسيع إعادة صياغة الزائفة القائمة على استرجاع؛ و (2) تطوير إطار تعليمي التعلم إلى تحديد عينات قيمة تدريجيا لضبط النموذج اللغوي المدرب مسبقا في مهمة إعادة توجيهها مسبقا في مهمة إعادة الصياغة الخطية. نوضح أن نهجنا يحقق تحسينات كبيرة على النهج القائمة غير المدمرة، وهو ما يمكن قابلة للمقارنة في الأداء مع أحدث من الفنون المغلفة.
الرجوع إلى النصوص التي تنقل نفس المعنى بأشكال تعبير مختلفة. أظهرت الأساليب المستندة إلى Pivot، المعروف أيضا باسم ترجمة الرحلة المستديرة، نتائج واعدة في توليد صياغة عالية الجودة. ومع ذلك، فإن الأساليب القائمة على المحور القائمة تعتمد جميعها على اللغة مثل المحور، حيث تكون النصوص الثنائية الثنائية الموازية على نطاق واسع، مطلوبة موازية عالية الجودة. في هذه الورقة، نستكشف جدوى استخدام التمثيلات الدلالية والنزاهة كحوري من أجل إعادة صياغة نصبها. بشكل ملموس، نتحول جملة إلى مجموعة متنوعة من التمثيلات الدلالية أو النحوية المختلفة (بما في ذلك AMR، UD، وتمثيل الدلالي الكامن)، ثم فك تشفير الجملة من التمثيل الدلالي. نسمح أيضا نهجا يستند إلى إعادة الاحتجاط بضغط عملية خط الأنابيب في إطار نهاية إلى نهاية. نقوم بإجراء تجارب تقارن مناهج مختلفة مع أنواع مختلفة من المحاور. تظهر النتائج التجريبية أن اتخاذ AMR كما يمكن للمحافظة الحصول على صياغة مع جودة أفضل من تناول اللغة كمحور. يمكن للإطار الطرفي النهائي أن يقلل من التحول الدلالي عند استخدام اللغة كحوري. إضافة إلى جانب ذلك، يمكن أن تولد العديد من الطرق القائمة على المحور غير المركبات أن تولد صياغة مع جودة مماثلة كنموذج التسلسل الإشراف على التسلسل، والذي يشير إلى أن البيانات الموازية للصيانة قد لا تكون ضرورية لإعادة صياغة عناصر التوليد.
إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول م رة والتركيز على التنوع بين الجملة من خلال النظر في إعادة كتابة الجملة وإعادة ترتيبها. نقترح Corpg (توليد إعادة صياغة البحث عن النصوص الموجهة)، والتي تتمتع بالطرازات الرسم البياني Gru لتشفير الرسم البياني لعلاقة الاتساق والحصول على تمثيل مدرك التماسك لكل جملة، والتي يمكن استخدامها لإعادة ترتيب جمل الإدخال المتعددة (المحورة). نحن نقوم بإنشاء مجموعة بيانات صياغة على مستوى الوثيقة Pseudo لتدريب Corpg. تظهر نتائج التقييم التلقائي أن Corpg تفوقت على العديد من النماذج الأساسية القوية على درجات Bertscore وتنوعها. يوضح التقييم البشري أيضا أن نموذجنا يمكن أن يولد إعادة صياغة المستندات بمزيد من التنوع والحفاظ الدلالي.
تتمثل التعريف بإعادة الصياغة (PI)، وهي مهمة أساسية في معالجة اللغة الطبيعية، هي تحديد ما إذا كانت الجملتين تعبر عن نفس المعنى المماثل، وهي مشكلة تصنيف ثنائية. في الآونة الأخيرة، كانت النماذج اللغوية المدربة مسبقا بيرت هي خيارا شائعا لأطر نماذج PI الم ختلفة، ولكن جميع الطرق الحالية تقريبا تنظر في نص مجال عام. عندما يتم تطبيق هذه الأساليب على مجال معين، لا يمكن أن تكتب النماذج الحالية تنبؤات دقيقة بسبب نقص المعرفة المهنية. في ضوء هذا التحدي، نقترح إطارا جديدا، وهو، الذي يمكن أن يستفيد من المعرفة الخارجية غير المنظمة في ويكيبيديا لتحديد المواطن بدقة. نقترح علما مخلاصة المعرفة بالمفاهيم المتعلقة بحكمات معينة من ويكيبيديا عبر نموذج BM25. بعد استرداد المعرفة المخططة ذات الصلة، يجعل التنبؤات بناء على كل من المعلومات الدلالية للجملتين ومعرفة الخطوط العريضة. إضافة إلى ذلك، نقترح آلية Gating تجميع التنبؤ الدلالي القائم على المعلومات والتنبؤ القائم على المعرفة. تتم إجراء تجارب واسعة على مجموعة بيانات عامين: العرض (مجموعة بيانات مجال علوم الكمبيوتر) و Clinicalsts2019 (مجموعة بيانات مجال الطب الحيوي). تشير النتائج إلى أن الأساليب المتوفرة التي تتفوقت على أحدث الأحوال.
تهدف توليد الصياغة الموجهة إلى Exemplar (EGPG) إلى توليد جملة مستهدفة تتوافق مع أسلوب Exemplar المحدد أثناء توسيع نطاق معلومات المحتوى من الجملة المصدر. في هذه الورقة، نقترح طريقة جديدة بهدف تعلم تمثيل أفضل للنمط والمحتوى. تحفز هذه الطريقة بشكل أساسي النجاح الأخير للتعلم المقاوم للتناقض التي أثبتت قوتها في مهام استخراج ميزة غير مدفوعة. تتمثل الفكرة في تصميم خسائرتين متباينتين فيما يتعلق بالمحتوى والأسلوب من خلال النظر في خصائص المشكلة أثناء التدريب. إحدى الممتلكات هي أن الجملة المستهدفة تشترك في نفس المحتوى مع جملة المصدر، والخصائص الثانية هي أن الجملة المستهدفة تشارك نفس النمط مع Exemplar. يتم دمج هذين الخسائرتين للتناقض في نموذج فك التشفير العام. تثبت التجارب على مجموعة بيانات اثنين، وهي QQP-Pos و Paranmt، فعالية خسائرنا القاطعة المقترحة.
تعمل السابقة على جيل إعادة صياغة صياغة يتم التحكم فيها بشكل كبير على بيانات إعادة صياغة مباشرة على نطاق واسع غير متوفرة بسهولة للعديد من اللغات والمجالات. في هذه الورقة، نأخذ هذا الاتجاه البحثي إلى أقصى الحدود والتحقيق فيما إذا كان من الممكن تعلم تول يد الصياغة التي يتم التحكم فيها بموجبها مع بيانات غير صلبية. نقترح نموذج إعادة صياغة غير مدهش من غير المستنير عليه بناء على التشفير التلقائي الشرطي (VAE) يمكن أن تولد نصوص في بنية نصنية محددة. خاصة، نقوم بتصميم طريقة تعليمية من مرحلتين لتدريب النموذج بفعالية باستخدام البيانات غير الموازية. يتم تدريب VAE الشرطية على إعادة بناء جملة الإدخال وفقا للإدخال المحدد والهيكل النحامي. علاوة على ذلك، لتحسين قابلية التحكم في النحوية والاتساق الدلالي لشركة VAE الشرطية المدربة مسبقا، نحن نغتنمها باستخدام أهداف التعلم السيطرة على بناء الجملة وإعادة إعمار دورة إعادة إعمار، وتوظيف Gumbel-Softmax الجمع بين أهداف التعلم الجديدة هذه. توضح نتائج التجربة أن النموذج المقترح المدرب فقط على البيانات غير الموازية قادر على توليد صیر متنوعة مع بنية نصنية محددة. بالإضافة إلى ذلك، نحن نقوم بالتحقق من صحة فعالية طريقتنا لتوليد أمثلة خصومة النحوية على مهمة تحليل المعنويات.
يعد عدم وجود بيانات تدريبية المسمى للميزات الجديدة مشكلة شائعة في أنظمة الحوار في العالم الحقيقي المتغيرة بسرعة.كحل، نقترح نموذج توليد إعادة صياغة متعددة اللغات يمكن استخدامه لإنشاء كلمات جديدة للميزة المستهدفة واللغة المستهدفة.يمكن استخدام الكلام ال ذي تم إنشاؤه لزيادة بيانات التدريب الحالية لتحسين تصنيف نماذج وضع العلامات الفضائية.نحن نقيم جودة الكلام التي تم إنشاؤها باستخدام مقاييس التقييم الجوهرية وإجراء تجارب التقييم المصب مع اللغة الإنجليزية كلغة مصدر وتسع لغات مستهدفة مختلفة.تعرض طريقنا وعد عبر اللغات، حتى في إعداد طلقة صفرية حيث لا توجد بيانات بذرة متاحة.
مشكلة طويلة الأمد مع إعادة صياغة إعادة صياغة هي الافتقار إلى إشارات الإشراف الموثوقة. في هذه الورقة، نقترح نموذجا جديدا غير منشئين من أجل إعادة صياغة إعادة صياغة إعادة صياغة نصها بناء على افتراض أن احتمالات توليد جملتين بنفس المعنى بالنظر إلى نفس الس ياق يجب أن يكون هو نفسه. مستوحاة من هذه الفكرة الأساسية، نقترح نظام خط أنابيب يتكون من إعادة صياغة ترجمة المرشحة بناء على نماذج اللغة السياقية، ومرشح المرشح باستخدام وظائف التسجيل، وإعادة صياغة التدريب النموذجي على أساس المرشحين المحددين. تقدم النموذج المقترح مزايا حول طرق إنشاء الصياغة الحالية: (1) باستخدام السياق العدواني على المعاني، يكون النموذج من إنشاء كميات ضخمة من أزواج إعادة صياغة عالية الجودة؛ (2) مزيج من المبلغ الهائل من المرشحين لإعادة صياغة الصياغة وزيادة ترويج التنوع يتجاوزون الخلاصات مع مزيد من التنوع المعجمي والنزاع؛ و (3) استخدام وظائف تسجيل التخصيب البشرية لتحديد إعادة صياغة أزواج من المرشحين، يوفر الإطار المقترح قناة للمطورين للتدخل مع عملية توليد البيانات، مما يؤدي إلى نموذج أكثر قابلية للتحكم. توضح النتائج التجريبية عبر المهام المختلفة ومجموعات البيانات أن النموذج المقترح تتفوق بشكل كبير على النهج التي يتم إعادة صياغة النصوص الموجودة في كل من الإعدادات الإشرافية وغير المدفوعة.
في هذه الورقة، نحقق في مشكلة تعميم المجال (DG) للحصول على تحديد صياغة الإشراف (PI).نلاحظ أن أداء نماذج PI الحالية يتدهور بشكل كبير عند اختباره في مجال خارج التوزيع (OOD).نحن تخمين أنه ناجم عن التعلم الاختصار، أي هذه النماذج تميل إلى الاستفادة من الكل مات الإعلانية الفريدة لمجموعة بيانات أو مجال معين.لتخفيف هذه المشكلة وتعزيز قدرة DG، نقترح إطار PI بناء على النقل الأمثل (OT).تجبر طريقةنا على الشبكة لتعلم الميزات اللازمة لجميع الكلمات في الإدخال، مما يخفف من مشكلة التعلم الاختصار.تظهر النتائج التجريبية أن طريقتنا تعمل على تحسين قدرة DG على نماذج PI.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا