ترغب بنشر مسار تعليمي؟ اضغط هنا

بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
يجذب اهتمام الذات متعدد الرأس مؤخرا اهتماما هائلا بسبب وظائفه المتخصصة، والحساب المتوازي الهامة، والقابلية للتمويل المرن. ومع ذلك، تظهر الدراسات التجريبية الحديثة للغاية أن بعض رؤساء الانتباه الذاتي يكسبون مساهمة ضئيلة ويمكن تقليم رؤوس زائدة عن الحاج ة. يأخذ هذا العمل منظورا جديدا لتحديد رؤساء الرؤوس الزائدة ثم الاكتتاب. نقترحنا طريقة توسيع الرأس الحيلية (RHE) لتحديد الرؤوس الزائدة، ثم تكمن إمكاناتها من خلال تعلم العلاقات النحوية والمعرفة السابقة في النص دون التضحية بأدوار رؤساء هامة. آليات اهتمام بناء على بناء الجملة رواية (البحر) الجديد: يتم تقديم تحيز قناع التبعية وتحيز من وضع الجمل المحلي النسبي، لمراجعة توزيعات الانتباه الذاتي لتحسين النحوي في الترجمة الآلية. يتم تقييم أهمية الرؤساء الفردية ديناميكيا أثناء تحديد الرؤوس الزائدة، حيث نطبقنا البحر على تنقل رؤوسا زائدة عن الحاجة مع الحفاظ على قوة الرؤوس المهمة. النتائج التجريبية على تبنيها على نطاق واسع WMT14 و WMT16 الإنجليزية إلى الألمانية والإنجليزية إلى اللغة التشيكية ترجمة آلة اللغة التشيكية تحقق من فعالية RHE.
يمكن أن تكون مشاكل تصنيف المستندات متعددة الملصقات (MLDC) تحديا، خاصة بالنسبة للمستندات الطويلة ذات مجموعة علامات كبيرة وتوزيع ذيل طويل على الملصقات. في هذه الورقة، نقدم شبكة اهتمام نفعية فعالة لمشكلة MLDC مع التركيز على تنبؤ الكود الطبي من الوثائق ا لسريرية. ابتكاراتنا هي ثلاثة أضعاف: (1) نستخدم تشفير عميق يستند إلى الارتفاع مع شبكات الضغط والإثارة والشبكات المتبقية لتجميع المعلومات عبر الوثيقة وتعلم تمثيلات وثيقة ذات مغزى تغطي نطاقات مختلفة من النصوص؛ (2) نستكشف الانتباه متعدد الطبقات ومجموعة إيلاء الاهتمام لاستخراج الميزات الأكثر تفاعيمية من هذه التمثيلات متعددة النطاق؛ (3) نجمع بين خسارة انتروبيا الصليب الثنائية وفقدان البؤري لتحسين الأداء للعلامات النادرة. نحن نركز دراسة تقييمنا على MIMIC-III، مجموعة بيانات واستخدامها على نطاق واسع في المجال الطبي. تتفوق نماذجنا على العمل السابق على الترميز الطبي وتحقيق نتائج جديدة من الفنون الجديدة على مقاييس متعددة. كما نوضح أيضا الطبيعة المستقلة للغة لنهجنا من خلال تطبيقها على مجموعة بيانات غير الإنجليزية. يتفوق النموذج الخاص بنا على أفضل نموذج مسبق ونموذج محول متعدد اللغات من هامش جوهري.
أصبحت نماذج لغة كبيرة من الصعب تدريبا على نحو متزايد بسبب وقت الحسبان المتزايد والتكلفة.في هذا العمل، نقدم SRU ++، وهي عبارة عن بنية عالية الكفاءة تجمع بين تكرار سريع واهتمام لنمذجة التسلسل.SRU ++ يعرض قدرة النمذجة القوية وكفاءة التدريب.فيما يتعلق بم هام نمذجة اللغة القياسية مثل مجموعات بيانات ENWIK8 و Wiki-103 و Mount Word Word، يحصل نموذجنا على أجزاء أفضل لكل حرف وحيرة أثناء استخدام تكلفة التدريب الأقل بنسبة 3x-10x مقارنة بنماذج المحولات ذات الأداء الأعلى.على سبيل المثال، يحقق نموذجنا نتيجة حديثة لمجموعة بيانات Enwik8 باستخدام 1.6 أيام من التدريب على آلة 8 GPU.نوضح كذلك أن SRU ++ يتطلب الحد الأدنى من الاهتمام بالقرب من الأداء القريب من الحديث.تشير نتائجنا إلى الاستفادة بشكل مشترك تكرار سريع مع القليل من الاهتمام باعتباره اتجاها واعدا لتسريع التدريب النموذجي والاستدلال.
في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال انتباه / المحاذاة السابقة.نقترح عدة طرق لتضمين مثل هذا التكرار في آلية الاهتمام.التحقق من أدائها عبر مهام ترجمة مختلفة نستنتج أن هذه الملحقات والتبعية ليست مفيدة لأداء الترجمة من بنية المحولات.
يهدف استخراج العاطفة (ECE) إلى استخراج الأسباب وراء المشاعر المعينة في النص. تم نشر بعض الأعمال المتعلقة بمهمة اللجنة الاقتصادية لأوروبا وجذب الكثير من الاهتمام في السنوات الأخيرة. ومع ذلك، فإن هذه الطرق تهمل قضايا رئيسيتين: 1) دفع عدد قليل من الانتب اه لتأثير معلومات السياق على مستوى المستند على اللجنة الاقتصادية لأوروبا، و 2) عدم وجود استكشاف كاف لكيفية استخدام بند العاطفة المشروح بفعالية. بالنسبة للقضية الأولى، نقترح شبكة انتباه هرمية ثنائية الاتجاه (BHA) المقابلة للمرشح المحدد يسبب البحث عن سياق مستوى المستند في المستند بطريقة منظمة وديناميكية. بالنسبة للقضية الثانية، نقوم بتصميم وحدة تصفية عاطفية (EF) لكل طبقة من شبكة انتباه الرسوم البيانية، والتي تحسب درجة البوابة بناء على جملة العاطفة لتصفية المعلومات غير ذات الصلة. الجمع بين BHA و EF، يمكن ل EF-BHA أن يكتسب ديناميكيا المعلومات السياقية من اتجاهين وفلاتر المعلومات غير ذات صلة. توضح النتائج التجريبية أن EF-BHA يحقق العروض التنافسية على مجموعة بيانات عامة بلغات مختلفة (الصينية والإنجليزية). علاوة على ذلك، نحدد تأثير السياق على استخراج السبب العاطفي وتوفير تصور التفاعلات بين المرشح يسبب البنود والسياقات.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
تركز أنظمة الكشف عن الساركاز الموجودة على استغلال العلامات اللغوية أو السياق أو البثور على مستوى المستخدم.ومع ذلك، تشير الدراسات الاجتماعية إلى أن العلاقة بين المؤلف والجمهور يمكن أن تكون ذات صلة بنفس القدر لاستخدام السخرية وتفسيرها.في هذا العمل، نقت رح إطارا بالاستفادة المشتركة (1) سياق مستخدم من تغريداتهم التاريخية مع (2) المعلومات الاجتماعية من الحي المحادثة للمستخدم في رسم بياني تفاعل، إلى السياق تفسير المنشور.نحن نستخدم شبكات انتباه الرسوم البيانية (GAT) عبر المستخدمين والتويت في مؤشر ترابط محادثة، جنبا إلى جنب مع تمثيلات سجل المستخدم الكثيفة.بصرف النظر عن تحقيق نتائج حديثة على مجموعة البيانات التي تم نشرها مؤخرا من مستخدمي Twitter الذي تم نشره مؤخرا مع تغريدات تسمية 30 ألفا، قم بإضافة تغريدات 10M Unabeled كسياق، تشير نتائجنا إلى أن النموذج يساهم في تفسير النوايا الساخرة للمؤلف أكثر منالتنبؤ بتصور السخرية من قبل الآخرين.
أثارت نماذج اللغة المدربة مسبقا مقرها الانتباه مثل GPT-2 تقدما كبيرا لنمذجة حوار نهاية إلى نهاية.ومع ذلك، فإنهم يقدمون أيضا مخاطر كبيرة للحوار الموجهة إلى المهام، مثل عدم وجود أسس المعرفة أو التنوع.لمعالجة هذه القضايا، نقدم أهداف تدريبية معدلة لنموذج اللغة Finetuning، ونحن نوظف تكبير بيانات ضخمة عبر الترجمة الخلفي لزيادة تنوع بيانات التدريب.ندرس إمكانيات الجمع بين البيانات من مصادر مضاعفات تحسين الأداء على مجموعة البيانات المستهدفة.نحن نقيم بعناية مساهماتنا مع كل من الأساليب البشرية والآلية.يتفوق نموذجنا بشكل كبير على خط الأساس على بيانات MultiWoz ويظهر أداء تنافسي مع حالة الفن في كل من التقييم التلقائي والإنساني.
تكسب المكالمات هي من بين الموارد المهمة للمستثمرين والمحللين لتحديث أهداف الأسعار الخاصة بهم. الشركات عادة ما تنشر النصوص المقابلة قريبا بعد أحداث الأرباح. ومع ذلك، فإن النصوص الخام هي في كثير من الأحيان طويلة جدا وتفوت الهيكل المتماسك. لتعزيز الوضوح ، يكتب المحللون تقارير منظما جيدا لبعض أحداث استدعاء الأرباح الهامة من خلال تحليلها، تتطلب الوقت والجهد. في هذه الورقة، نقترح تاتسوم (نموذج الاهتمام بإنفاذ القالب للتلخيص)، ونهج تلخيص عصبي معمم لتوليد التقرير المنظم، وتقييم أدائه في مجال مكالمات الأرباح. نحن نبني كوربا كبيرا مع الآلاف من النصوص والتقارير باستخدام أحداث الأرباح التاريخية. نقوم أولا بتوليد مجموعة مرشحة من التقارير من Corpus كقوالب ناعمة محتملة لا تفرض قواعد فعلية على الإخراج. بعد ذلك، نوظف نموذج تشفير مع فقدان الهامش المرتبة لتحديد مجموعة المرشح وحدد أفضل قالب الجودة. أخيرا، يتم استخدام النص والقالب الناعم المحدد كإدخال في إطار SEQ2SEQ لتوليد التقرير. النتائج التجريبية على مجموعة بيانات المكالمات الأرباح تظهر أن نموذجنا يتفوق بشكل كبير على النماذج الحديثة من حيث المعلومات والهيكل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا