ترغب بنشر مسار تعليمي؟ اضغط هنا

مع النمو المتفجر للبث LivestReam، هناك حاجة ملحة لتكنولوجيا التلخيص الجديدة التي تمكننا من إنشاء معاينة للمحتوى البثاري والاستفادة من هذه الثروة من المعرفة. ومع ذلك، فإن المشكلة غير صاخبة بسبب الطبيعة غير الرسمية للغة المنطوقة. علاوة على ذلك، كان هنا ك نقص في مجموعات البيانات المشروح اللازمة لتلخيص النص. في هذه الورقة، نقدم Streamhover، إطارا للتعليق ويلخص النصوص Livestream. مع وجود ما مجموعه أكثر من 500 ساعة من مقاطع الفيديو الموحدة مع كل من ملخصات الاستخراجية والمخفية، فإن مجموعة بياناتنا القياسية أكبر بكثير من شرائح مشروح حاليا. نستكشف نموذج تلخيص الاستخراج العصبي الذي يهدف إلى أن يقوم AutoNcoder بالتالي من Vector-Vector بتكنولوجيا المعلومات لتعلم تمثيلات ناقلات كامنة للكلمات المنطوقة وتحديد الكلام البارزين من النصوص لتشكيل ملخصات. نظهر أن نموذجنا تعميم أفضل ويحسن الأداء على خطوط الأساس القوية. توفر نتائج هذه الدراسة وسيلة للبحث في المستقبل لتحسين حلول تلخيص للتصفح الفعال للمهارات.
نماذج اللغة العصبية عادة ما تقوم بإدخال نص إدخال في وحدات فرعية لتحقيق مفردات مفتوحة. يتمثل النهج القياسي في استخدام التزعزيات الكنسي واحد في كل من القطار ووقت الاختبار. نقترح أن هذا النهج غير مرضي وقد يؤدي إلى اختناق تقييمنا لأداء نموذج اللغة. يتجاه ل استخدام أفضل التزامات واحدا فقط عدم اليقين Tokeniser على التزامات البديلة، والتي قد تؤذي أداء نموذج خارج النطاق. في هذه الورقة، نجادل بأنه بدلا من ذلك، يجب تقييم نماذج اللغة على احتمال حدوثها الهامشي من التصعيش. قارن المقدرين المختلفة للحياة الهامشية بناء على أخذ العينات، وإظهار أنه من الممكن تقدير الاحتمال الهامشي لعدد يمكن التحكم فيه من العينات. ثم قمنا بتقييم نموذج لغة محدود مسبقا على كل من أفضل التزامات الواحدة والحيرة الهامشية، وإظهار أن الحيرة الهامشية يمكن أن تكون أفضل بكثير من الأفضل، خاصة على البيانات خارج المجال. نحن نربط هذا الاختلاف في الحيرة إلى عدم اليقين Tokeniser كما تقاس بواسطة Tokeniser Entropy. نناقش بعض الآثار المترتبة على نتائجنا لتدريب وتقييم نموذج اللغة، لا سيما فيما يتعلق بتروكيات القمامة.
تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت بة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.
التقييم البشري لمهام التلخيص موثوقة ولكن يجلب قضايا التكاثر والتكاليف العالية. المقاييس التلقائية رخيصة وغير قابلة للتكرار ولكن في بعض الأحيان ترتبط بشكل سيء بحكمات بشرية. في هذا العمل، نقترح Nemiautomatic مرنة لمقاييس التقييم الموجز التلقائي، بعد طر يقة التقييم البشري الهرم. يحتفظ Lite2Pyramid شبه التلقائي بوحدات المحتوى الموجزة ذات العلامة البشرية القابلة لإعادة الاستخدام (SCU) للإشارة (SCU)، لكنها تحل محل العمل اليدوي للحكم على وجود قاضم في ملخصات النظام مع نموذج استنتاج اللغة الطبيعية (NLI). تستبدل Lite3pyramid التلقائي بالكامل مزيد من البدائل SCUS مع الوحدات الثلاثية الدلالية المستخرجة تلقائيا (STUS) عبر نموذج العلامات الدلالية (SRL). أخيرا، نقترح مقاييس، Lite2.xpyramid، حيث نستخدم نموذجا بسيطا للتنبؤ بمدى محاكاة STUS محاكاة SCUS والاحتفاظ ب SCUs الأكثر صعوبة في محاكاة، والتي توفر عملية انتقال سلسة وتوازن بين الأتمتة والتقييم اليدوي وبعد مقارنة 15 مقاييس موجودة، نقوم بتقييم الارتباطات المترية البشرية على 3 مجموعات بيانات تقييم التلوث الحالية و Pyrxsum التي تم جمعها حديثا (مع أمثلة / أنظمة / أنظمة 100/10 XSUM). يظهر أن Lite2Pyramid لديها باستمرار أفضل الارتباطات على مستوى الملخص؛ يعمل Lite3pyramid بشكل أفضل من أو قابلة للمقارنة مع مقاييس أوتوماتيكية أخرى؛ يتداول Lite2.XPyramID قبالة قطرات الارتباط الصغيرة لخفض الجهد اليدوي الأكبر، والتي يمكن أن تقلل من تكاليف جمع البيانات المستقبلية.
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr ansprompt، إطار مطالب قابل للتحويل لتعلم قليل من الطلقات عبر مهام مماثلة. في Transprompt، نحن نوظف إجراءات اقتناء المعرفة متعددة المهام لتدريب المتعرية التي تلتقط المعرفة القابلة للتحويل المهمة. تم تصميم متزحاب تقنيات التغذيتين لجعلها أكثر ملاءمة وغير مرغوبة وغير متحيزة تجاه أي مهام. بعد ذلك، يمكن تكييف المتعلم التعريف مع المهام المستهدفة بدقة عالية. تبين تجارب واسعة أن Transprompt تفوقت على المهمة المفردة والاستصراد القوي عبر المهام عبر مهام NLP متعددة ومجموعات البيانات. نؤدي كذلك إلى أن المتعلم التلوي يمكن أن يحسن بشكل فعال الأداء على المهام غير المرئية مسبقا؛ وتتفوق TransPrompt أيضا على خطوط خطوط خطوط خطوط وطنية قوية عند التعلم مع مجموعات تدريب كاملة.
بدافع من جيل السؤال المقترح في أنظمة توصية أخبار المحادلات، نقترح نموذجا لتوليد أزواج الإجابات السؤال (أزواج ضمان الجودة) مع أسئلة ذاتية التركيز ذاتي ومقيد الطول، إجابات تلخص المادة.نبدأ بجمع مجموعة بيانات جديدة من المقالات الإخبارية مع أسئلة كعناوين واقترانها مع ملخصات طول متفاوتة.يتم استخدام هذه البيانات هذه البيانات لتعلم ملخصات إنتاج نموذج توليد QA للزوج كجابات توازن الرصيد بالإيجاز مع الاكتفاء بالاشتراك مع أسئلتها المقابلة.ثم نعزز عملية توليد زوج ضمان الجودة مع وظيفة مكافأة مختلفة لتخفيف تحيز التعرض، وهي مشكلة شائعة في توليد اللغة الطبيعية.يظهر كل من المقاييس التلقائية والتقييم البشري هذه أزواج ضمان الجودة بنجاح التقاط القابس المركزي للمقالات وتحقيق دقة عالية للإجابة.
تقدم هذه الورقة التقديم المشترك JHU-Microsoft لتقدير جودة WMT 2021 المهمة المشتركة.نحن نشارك فقط في المهمة 2 (تقدير جهود ما بعد التحرير) للمهمة المشتركة، مع التركيز على تقدير الجودة على مستوى الكلمات المستهدف.التقنيات التي تجربناها مع تضمين تدريب محو ل Levenshtein وتعزيز البيانات مع مجموعة من الترجمة الأمامية والخلفية والرحلة الدائرية، والتحرير الزائف بعد إخراج MT.نوضح القدرة التنافسية لنظامنا مقارنة بناسي Openkiwi-XLM المعتمد على نطاق واسع.نظامنا هو أيضا نظام الترتيب العلوي في متري MT MCC لزوج اللغة الإنجليزية والألمانية.
Beam Search هي استراتيجية فك التشفير الافتراضية للعديد من مهام توليد التسلسل في NLP. مجموعة من العناصر K-Best التقريبية التي تم إرجاعها بواسطة الخوارزمية هي ملخص مفيد للتوزيع للعديد من التطبيقات؛ ومع ذلك، عادة ما تظهر المرشحين تداخلا كبيرا وقد يعطي ت قديرا متحيزين للغاية للتوقعات تحت نموذجنا. يمكن معالجة هذه المشكلات من خلال استخدام استراتيجيات فك تشفير الاستوكاستك. في هذا العمل، نقترح طريقة جديدة لتحويل البحث الشعاع في عملية عموقة: البحث الشرطي Poisson Stochastic Search. بدلا من اتخاذ تعظيم المجموعة في كل تكرار، ونحن نعمل عينة من المرشحين k دون استبدال وفقا لتصميم أخذ العينات poisson الشرطية. نعتبر ذلك بديلا أكثر طبيعية ل Kool et al. (2019) بحث شعاع ستوكاستيك (SBS). علاوة على ذلك، نوضح كيف يمكن استخدام العينات التي تم إنشاؤها تحت تصميم CPSBS لبناء مقدرات متسقة وعينة مجموعات متنوعة من نماذج التسلسل. في تجاربنا، نلاحظ CPSBS تنتج التباين المنخفض ومقدرات أكثر كفاءة من SBS، حتى إظهار التحسينات في إعدادات Enterpy عالية.
تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.
تشفير لغة متعددة اللغات المدربة مسبقا، مثل Bert متعدد اللغات و XLM-R، إظهار إمكانات كبيرة للتحويل الصفر - عبر اللغات. ومع ذلك، فإن هذه اللوائح متعددة اللغات لا تحيي بالتحديد الكلمات والعبارات عبر اللغات. على وجه الخصوص، يتطلب محاذاة التعلم في مساحة ا لتضمين متعددة اللغات عادة على مستوى الجملة أو المستوى الموازي على مستوى Word، وهي مكلفة يتم الحصول عليها لغات الموارد المنخفضة. بديل هو جعل التشفير متعددة اللغات أكثر قوة؛ عند ضبط التشفير باستخدام المهمة المصدرة للمهمة، نربط التشفير لتتسامح مع الضوضاء في المساحات التضمين السياقية بحيث لا تتماشى تمثيلات اللغات المختلفة بشكل جيد، لا يزال بإمكان النموذج تحقيق أداء جيد على الصفر بالرصاص عبر اللغات نقل. في هذا العمل، نقترح استراتيجية تعليمية لتدريب النماذج القوية عن طريق رسم الروابط بين الأمثلة الخصومة وحالات فشل النقل الصفرية عبر اللغات. نعتمد اثنين من أساليب التدريب القوية المستخدمة على نطاق واسع، والتدريب الخصوم والتنعيم العشوائي، لتدريب النموذج القوي المرغوب فيه. توضح النتائج التجريبية أن التدريب القوي يحسن نقل صفرية عبر اللغات على مهام تصنيف النص. التحسن هو أكثر أهمية في إعداد النقل المتبادل المعمم، حيث ينتمي زوج جمل المدخلات إلى لغتين مختلفة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا