دقة Aquerence هي مفتاح العديد من مهام معالجة اللغة الطبيعية، لكنها غير مستكشفة نسبيا في معالجة لغة الإشارة. في لغات موقعة، تستخدم الفضاء في المقام الأول لتحديد المرجع. لن يقوم حل دقة Aquerence للغات الموقعة فقط بتمكين أنظمة معالجة لغة الإشارة عالية ا
لمستوى، بل تقوم أيضا بتعزيز فهمنا للغة في طرائق مختلفة والمراجع الموجودة، وهي مشاكل رئيسية في دراسة اللغة المحددة. في هذه الورقة، نحن: (1) تقديم دقة COMARCALE الموقعة (SCR)، تحديا جديدا لنمذجة Aquerence وعلاج لغة الإشارة؛ (2) جمع وجعة مشروحة من لغة الإشارة الألمانية مع ملصقات ذهبية ل Taquerence جنبا إلى جنب مع برنامج شرح للمهمة؛ (3) استكشاف ميزات لفتة اليد، الإيقاعي، والعقارات المكانية الموجودة والمضي قدما لاقتراح مجموعة من الاستدلال المباشرة المباشرة ونماذج غير مخالفة للمهمة؛ (4) طرح عدة مقترحات حول طرق معالجة تعقيدات هذا التحدي بفعالية.
منذ فترة طويلة تم حل الضمائر إلى مراحلها كمشكلة فهم لغة طبيعية أساسية.تعمل سابقا على قرار الضمير (PCR) في الغالب على حل الضمائر للإشارة في النص أثناء تجاهل السيناريو الإيفهور.الضمائر Exophoric شائعة في الاتصالات اليومية، حيث قد يستخدم المتحدثون بشكل
مباشر الضمائر للإشارة إلى بعض الكائنات الموجودة في البيئة دون إدخال الكائنات أولا.على الرغم من عدم ذكر هذه الكائنات في نص الحوار، إلا أنها غالبا ما يتم ترحيلها من قبل الموضوعات العامة للحوار.بدافع من ذلك، نقترح الاستفادة بشكل مشترك السياق المحلي والمواضيع العالمية للحوارات لحل مشكلة PCR خارج النص.توضح تجارب واسعة فعالية إضافة موضوع تنظيم الموضوع لحل الضمائر الإيفولية.
تؤيد الأدلة الحديثة دورا للمعالجة الأساسية في توجيه التوقعات البشرية حول الكلمات القادمة أثناء القراءة، بناء على مخبأ بين أوقات القراءة والكلمة المفاجئة التي يقدرها نموذج المعالجة الدلالي المفيد (Jaffe et al. 2020). الدراسة الحالية تستنسخ وتطويرهافي
هذا النتيجة (1) تمكين المحلل المحلل لمعالجة معلومات الكلمات الفرعية التي قد تقريب من المعرفة المورفولوجية البشرية بشكل أفضل، و (2) تمديد تقييم آثار COMERIAL من القراءة الذاتية لبيانات التصوير بالدماغ البشري.تشير النتائج إلى أن تأثير المعالجة القائم على التوقعات في كور معلومات لا يزال واضحا حتى في وجود خط الأساس النفسي القوي الذي يوفره نموذج الكلمة الفرعية، وأن تأثير comeference لوحظ في كل من بيانات القراءة والنفس ذاتي، وتوفير دليل علىتأثير متواضع.
الكيانات المتعلقة بالأحداث والأحداث في النص هي مكون رئيسي لفهم اللغة الطبيعية.دقة Coreference Coreference، على وجه الخصوص، أمر مهم بالنسبة للمصلحة المتزايدة بمهام تحليل المستندات متعددة الوثائق.في هذا العمل، نقترح نموذجا جديدا يمتد نموذج التنبؤ المتس
لسل الفعال لتحليل Corefery لإعدادات تبادل المستندات وتحقق نتائج تنافسية لكلا كلا كلا كائن الكيان والحدث مع توفير أدلة قوية على فعالية كل من النماذج المتسلسلة والاستدلال المرتفعإعدادات الوثيقة عبر المستندات.يتطلب نموذجنا بشكل تدريجي يذكر في تمثيل الكتلة ويتوقع الروابط بين الإشارة والمجموعات التي تم إنشاؤها بالفعل، تقريب نموذج أعلى للترتيب.بالإضافة إلى ذلك، نقوم بإجراء دراسات بديلة الأزمة التي توفر رؤى جديدة في أهمية مختلف المدخلات وأنواع التمثيل في Courceer.
عادة ما يتم تدريب النماذج العصبية الأكاديمية لدقة COMERASE (COREF) على مجموعة بيانات واحدة، ويتم قياس التحسينات النموذجية في نفس مجموعة البيانات.ومع ذلك، تعتمد تطبيقات COREF العالمية في العالم الحقيقي على المبادئ التوجيهية التوضيحي ومجال مجموعة البيا
نات المستهدفة، والتي تختلف غالبا عن تلك الموجودة في أونتونو.نحن نهدف إلى تحديد قابلية تحويل نماذج COREF بناء على عدد المستندات المشروح المتوفرة في مجموعة البيانات المستهدفة.نحن ندرس أحد عشر مجموعة بيانات مستهدفة ونتطلع إلى أن التدريب المستمر فعال باستمرار وفائدة بشكل خاص عندما تكون هناك عدد قليل من المستندات المستهدفة.نحن نؤسس معايير جديدة في العديد من مجموعات البيانات، بما في ذلك النتائج الحديثة على Preco.
تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقا
ئيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.
في هذه الورقة، نقدم تجارب حل النواة مع كورفوس كورفوس متعددة اللغات التي تم إنشاؤها حديثا (Nedoluzhko et al.، 2021).نحن نركز على اللغات التالية: التشيكية والروسية والبولندية والألمانية والإسبانية والكاتالونية.بالإضافة إلى التجارب أحادية الأحادية، نجمع
بين بيانات التدريب في تجارب متعددة اللغات وتدريب نماذج متضررة - لغلق سلافية وللجميع اللغات معا.نحن نعتمد على نموذج التعلم العميق في نهاية إلى نهاية تتكيف قليلا مع Corefud Corpus.تظهر نتائجنا أنه يمكننا الاستفادة من التعليقات التوضيحية المنسقة، واستخدام النماذج الانضمام تساعد بشكل كبير على اللغات مع بيانات التدريب الأصغر.
نشير إلى أن ممارسات التقييم المشتركة لحل النواة المستندات كانت غير متسقة بشكل غير واقعي في إعداداتها المفترضة، مما أثار نتائج تضخيم.نقترح معالج هذه المشكلة عبر مبادئ منهجية التقييم.أولا، كما هو الحال في المهام الأخرى، ينبغي تقييم النماذج بشأن الأهمية
المتوقعة بدلا من الإشراهات الذهبية.القيام بذلك يثير قضية خفية فيما يتعلق بمجموعات Singleton Comeference، والتي نتعلمها عن طريق فصل تقييم التقييم للكشف عن ربط COMELES.ثانيا، نجرب أن النماذج يجب ألا تستغل بنية الموضوع الاصطناعي لمجموعة بيانات البنك المركزي الأوروبي + المعيار، مما أجبر النماذج لمواجهة تحدي الغموض المعجمي، على النحو المقصود من قبل منشئو البيانات.نوضح بالتجريد التأثير الجذراني لمبادئ تقييمنا الأكثر واقعية لدينا على نموذج تنافسي، مما يؤدي إلى درجة أقل 33 F1 مقارنة بتقييم الممارسات اللانوية السابقة.
تعد دقة Coureference Event مشكلة بحثية مهمة في العديد من التطبيقات.على الرغم من النجاح الرائع الأخير للنماذج اللغوية المدربة مسبقا، فإننا نجادل بأنه لا يزال مفيدا للغاية لاستخدام الميزات الرمزية للمهمة.ومع ذلك، نظرا لأن المدخلات لتحليل Aquerence عادة
ما تأتي من مكونات المنبع في خط أنابيب استخراج المعلومات، فإن الميزات الرمزية المستخرجة تلقائيا يمكن أن تكون صاخبة وأن تحتوي على أخطاء.أيضا، اعتمادا على السياق المحدد، يمكن أن تكون بعض الميزات أكثر إفادة من غيرها.بدافع من هذه الملاحظات، نقترح وحدة نمطية معتمدة على السياق على الرواية السيطرة على تدفق المعلومات من ميزات المدخلات الرمزية.جنبا إلى جنب مع طريقة تدريب صاخبة بسيطة، فإن أفضل طرازات لدينا تحقق نتائج أحدث من الفنون على مجموعة بيانات: ACE 2005 و KBP 2016.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو
ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.