ترغب بنشر مسار تعليمي؟ اضغط هنا

غالبا ما يكون لدى السياسيين جداول أعمال أساسية عند الرد على الأحداث.تعكس الحجج في سياقات الأحداث المختلفة مجموعة متسقة إلى حد ما من جدول أعمال كيان معين.على الرغم من التطورات الأخيرة في نماذج اللغة المحددة مسبقا، فإن هذه التمثيلات النصية غير مصممة لا لتقاط مثل هذه الأنماط الدقيقة.في هذه الورقة، نقترح نموذج قارئ ترخيص يتكون من وحدات التشفير والملحن، والتي تلتقط هذه المعلومات وتزود هذه المعلومات لتوليد تمثيلات أكثر فعالية للكيانات والقضايا والأحداث.هذه التمثيلات محكوم علي تغريدات، البيانات الصحفية، والقضايا، والمقالات الإخبارية، والكيانات المشاركة.يعالج النموذج لدينا العديد من المستندات في وقت واحد ويولد تمثيلات مؤلفة للحصول على كيانات متعددة على العديد من القضايا أو الأحداث.من خلال التحليل التجريبي النوعي والكمي، نوضح أن هذه التمثيلات ذات مغزى وفعال.
على الرغم من التطورات الأخيرة في تطبيق نماذج اللغة المدربة مسبقا لتوليد نصوص عالية الجودة، فإن توليد مقاطع طويلة تحافظ على تماسك طويل المدى أمر صعب للغاية لهذه النماذج.في هذه الورقة، نقترح Discodvt، وهو محول متغيرات منفصلة على درايته لمعالجة مشكلة عد م الاتساق.يتعلم Discodvt تسلسل متغير منفصل يلخص الهيكل العالمي للنص، ثم ينطبق عليه لتوجيه عملية التوليد في كل خطوة فك التشفير.لزيادة تضمين المعلومات التي تدرك الخطاب في التمثيلات الكامنة المنفصلة، نقدم هدف إضافي لنموذج علاقات الخطاب داخل النص.نقوم بإجراء تجارب واسعة على مجموعة من مجموعات بيانات من القصة المفتوحة وإثبات أن الرموز الكامنة تعلم مراسلات ذات معنى لهياكل الخطاب التي توجه النموذج لتوليد النصوص الطويلة مع التماسك طويل المدى أفضل.
عادة ما يتم تدريب نماذج اللغات الحالية على استخدام مخطط للإشراف على الذات، حيث يركز التركيز الرئيسي على التعلم في كلمة البرنامج أو مستوى الجملة.ومع ذلك، كان هناك تقدم محدود في توليد تمثيلات مفيدة على مستوى الخطاب.في هذا العمل، نقترح استخدام الأفكار م ن نظرية الترميز التنبؤية لزيادة نماذج اللغة ذات طراز بيرت مع آلية تسمح لهم بتعلم تمثيلات مناسبة على مستوى الخطاب.نتيجة لذلك، يكون نهجنا المقترح قادرا على التنبؤ بالأحكام المستقبلية باستخدام اتصالات واضحة من أعلى إلى أسفل تعمل في الطبقات المتوسطة للشبكة.من خلال تجربة معايير مصممة لتقييم المعرفة المتعلقة بالحبال باستخدام تمثيلات الجملة المدربة مسبقا، نوضح أن نهجنا يحسن الأداء في 6 من أصل 11 مهام من خلال التميز في كشف علاقة الخطاب.
من المعروف أن تحليل الخطاب أمرا أساسيا في معالجة اللغة الطبيعية.في هذا البحث، نقدم نظرة ثاقبة حول تحليل سلسلة موضوعات مستوى الخطاب (DTC) التي تهدف إلى اكتشاف مواضيع جديدة والتحقيق في كيفية تطور هذه الموضوعات بمرور الوقت داخل مقال.لمعالجة عدم وجود بيا نات، نساهم في كوربس خطاب جديد مع الرسوم البيانية التبعية على غرار DTC المشروح عند المقالات الإخبارية.على وجه الخصوص، نضمن الموثوقية العالية للدور من خلال الاستفادة من استراتيجية توضيحية من خطوتين لبناء البيانات وتصفية التعليقات التوضيحية بدرجات ثقة منخفضة.بناء على Corpus المشروح، نقدم نظاما بسيطا ولكنك قوي لتخليص سلسلة موضوع الخطاب التلقائي.
تجزئة خطاب وقطع الخطاب على مستوى الجملة تلعب أدوارا مهمة لمختلف مهام NLP للنظر في التماسك النصي.على الرغم من الإنجازات الأخيرة في كلا المهام، لا يزال هناك مجال للتحسين بسبب ندرة البيانات المسمى.لحل المشكلة، نقترح مصنف إنتاج نموذجي في اللغة (LMGC) لاس تخدام مزيد من المعلومات من الملصقات عن طريق معالجة الملصقات كمدخلات أثناء تعزيز تمثيلات التسمية من خلال تضمين أوصاف لكل ملصق.علاوة على ذلك، نظرا لأن هذا يتيح LMGC من إعداد تمثيلات الملصقات، غير المرئي في خطوة ما قبل التدريب، يمكننا استخدام نموذج لغة مدرب مسبقا في LMGC.تظهر النتائج التجريبية على DTSET RST-DT أن LMGC حققت النتيجة F1 من أصل 96.72 في تجزئة الخطاب.وقد حقق المزيد من درجات الولاية F1 عشرات من 84.69 مع حدود الذهب EDU و 81.18 مع حدود مجزأة تلقائيا، على التوالي، في تحليل خطاب على مستوى الجملة.
التعرف على علاقة الخطاب الضمني (IDRR) هو مهمة حاسمة في تحليل الخطاب. الدراسات السابقة فقط اعتبارها مهمة التصنيف وتفتقر إلى فهم متعمق لدل العلاقات المختلفة. لذلك، نرى أولا EDRR كامرأة توليد ومزيد من اقتراح طريقة النمذجة المشتركة للتصنيف والجيل. على وج ه التحديد، نقترح نموذجا مشتركا، CG-T5، للتعرف على تسمية العلاقة وتوليد الجملة المستهدفة التي تحتوي على معنى العلاقات في وقت واحد. علاوة على ذلك، نقوم بتصميم ثلاث نماذج جملة مستهدفة، بما في ذلك نموذج الأسئلة، لنموذج الجيل لإدماج المعرفة السابقة. لمعالجة مشكلة أن وحدات الخطاب الكبيرة غير متضمنة بالكاد في الجملة المستهدفة، نقترح أيضا آلية بناء الجملة المستهدفة التي تستخرج الجمل الأساسية تلقائيا من تلك الوحدات الخطابية الكبيرة. تظهر النتائج التجريبية على حد سواء على مجموعات بيانات MCDTB والإنجليزية الصينية أن نموذج CG-T5 لدينا يحقق أفضل أداء ضد العديد من الأنظمة الحديثة.
تعتبر البيانات التي يتم إساءة فهمها عن قصد (أو التلاعب) باهتمام كبير للباحثين والحكومة والأمن والنظم المالية. وفقا لأدب الخداع، هناك إشارات موثوقة للكشف عن الخداع والاعتقاد بأن الكذابين يعطون العظة التي قد تشير إلى أن خداعها قريب عالمي. لذلك، بالنظر إلى أن الإجراءات الخادعة تتطلب التطور المعرفي المتقدمة التي لا تتطلب الصدق ببساطة، وكذلك الآليات المعرفية للناس توجيهات واعدة للكشف عن الخداع، في هذه الدكتوراه. البحث المستمر، نقترح فحص أنماط هيكل الخطاب في كورسيا الأخبار الخادعة متعددة اللغات باستخدام إطار نظرية الهيكل البوليكي. بالنظر إلى أن عملنا هو أول من استغلال استراتيجيات إعلانات متعددة اللغات للكشف عن الأخبار المزيفة، يفتقر مجتمع البحث حاليا إلى كورسا المزدحمة الخادعة متعددة اللغات. تبعا لذلك، تصف هذه الورقة التقدم الحالي في هذه الأطروحة، بما في ذلك (1) بناء أول لجنة خادعة متعددة اللغات، مشروح من قبل المتخصصين وفقا لإطار نظرية الهيكل البوليكي، و (2) إدخال اثنين من علاقات بلاطية جديدة : التدخل والحتمية، التي نفترض أن نكون ذات صلة بمهمة الكشف عن الأخبار المزيفة.
عززت التطورات الأخيرة في توليد اللغة الطبيعية (NLG) الوسائط لصالح إعادة إدخال ترميز صريح من علاقات الخطاب في المدخلات إلى النماذج العصبية. في The Methodius Corpus، تمثيل معنى (MR) منظم هرمي ويشمل علاقات الخطاب. وفي الوقت نفسه، فقد تبين أن نماذج اللغة المدربة مسبقا مسبقا تشفير المعرفة اللغوية الغنية التي توفر موردا ممتازا ل NLG. بحكم توليف هذه الخطوط الأبحاث، نقوم بإجراء تجارب مكثفة بشأن فوائد استخدام النماذج المدربة مسبقا ومعلومات علاقة الخطاب في السيدة، مع التركيز على تحسين تماسك خطاب وتصحيحه. نعيد إعادة تصميم كوربوس المنهجية؛ ونحن أيضا بناء وجبة ثياب أخرى أخرى فيها السيدة غير هي منظم بشكل هرمي ولكنها مسطحة. نبلغ عن التجارب على إصدارات مختلفة من شركة Corga، التي تحقق عند، حيث تستفيد النماذج المدربة مسبقا من السيدة مع معلومات علاقة الخطاب فيها. نستنتج أن علاقات الخطاب تحسن بشكل كبير NLG عندما تكون البيانات محدودة.
تقدم هذه الورقة مساهمتنا الفائزة في مهمة Semeval 2021 8: MeasessVal.الغرض من هذه المهمة هو تحديد العدد والقياسات من الخطاب العلمي السريري، بما في ذلك الكميات والكيانات والخصائص والوحدات والوحدات والمعدلات وعلاقاتهم المتبادلة.يمكن أن تهدف هذه المهمة إ لى مشكلة استخراج كيان مشترك وعلاقة.وفقا لذلك، نقترح Conner، أداة استخراج العد والقياس التي يمكن أن تحدد الكيانات والعلاقات المقابلة في نموذج خط أنابيب من خطوتين.نحن نقدم وصفا مفصلا للنموذج المقترح فيما يلي.علاوة على ذلك، يتم التحقيق في تأثير الوحدات الأساسية والمخططات الفنية المعنية لدينا أيضا.
في تصنيف علاقة الخطاب الضمني، نريد التنبؤ بالعلاقة بين الجمل المجاورة في غياب أي اتصال خطاب علني. هذا أمر صعب حتى بالنسبة للبشر، مما يؤدي إلى نقص البيانات المشروح، وهي حقيقة تجعل المهمة أكثر صعوبة في نهج التعلم الآلي الإشراف. في الدراسة الحالية، نؤدي تصنيف علاقة الخطاب الضمني دون الاعتماد على أي علاقة ضمنية المسمى. نحن غاضب من عدم وجود بيانات من خلال تفسير العلاقات الضمنية لتقليل المهمة إلى مشكلتين فرعيين: نمذجة اللغة وتصنيف علاقة خطاب صريحة، مشكلة أسهل بكثير. تبين نتائجنا التجريبية أن هذه الطريقة يمكن أن تتفوق حتى الآن على الرغم من أن الحديث، على الرغم من أن تكون أبسط بكثير من النماذج البديلة لأداء مماثل. علاوة على ذلك، نوضح أن الأداء المحقق قوي عبر المجالات كما اقترحته التجارب الصفرية في مجال مختلف تماما. يشير هذا إلى أن التطورات الحديثة في النمذجة اللغوية جعلت نماذج لغة جيدة بما فيه الكفاية في التقاط علاقات بين الجملة دون مساعدة من علامات الخطاب الصريحة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا