مربع الحوار هو كتلة لبناء أساسية لتفاعلات اللغة البشرية البشرية.يحتوي على كلمات متعددة الأحزاب المستخدمة لنقل المعلومات من طرف إلى آخر بطريقة ديناميكية ومتطورة.إن القدرة على مقارنة الحوار هي مفيدة في العديد من حالات استخدام العالم الحقيقي، مثل تحليلا
ت المحادثة لمكالمات مركز الاتصال وتصميم الوكيل الظاهري.نقترح تكيف جديد من أداة تحرير المسافة إلى سيناريو تشابه الحوار.يأخذ نهجنا في الاعتبار مختلف جوانب المحادثة مثل دلالات الكلام وتدفق المحادثة والمشاركين.نقيم هذا النهج الجديد ومقارنة مع تدابير التشابه الوثيقة الحالية على مجموعة من مجموعات البيانات الخاصة بالجملي.توضح النتائج أن أسلوبنا تتفوق على النهج الأخرى في اتخاذ تدفق حوار الاستسلام، ومن الأفضل أن يتماشى مع التصور البشري لمشاكل المحادثة.
أظهرت مؤخرا تقنيات محاذاة المستندات بناء على تمثيلات جملة متعددة اللغات في مؤخرا حالة النتائج الفنية.ومع ذلك، تعتمد هذه التقنيات على تقنيات قياس المسافة غير المزعجة، والتي لا يمكن تغريمها بالمهمة في متناول اليد.في هذه الورقة، بدلا من تقنيات قياس المس
افة غير المركبات هذه، فإننا نوظف التعلم المتري لاستخلاص قياسات المسافة الخاصة بالمهام.يتم إشراف هذه القياسات، مما يعني أن متري قياس المسافة يتم تدريبه باستخدام مجموعة بيانات متوازية.باستخدام مجموعة بيانات تنتمي إلى اللغة الإنجليزية، سنهالا، والتاميل، والتي تنتمي إلى ثلاث أسر لغوية مختلفة، نظهر أن مقاييس التعلم الخاصة بمهام المهام التي أشرفت على الفعالة تفوقت نظرائهم غير المعروضين، لمحاذاة المستندات.
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه
ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.
تقدم هذه الورقة وصف نظام فريق المحور، الذي يفسر العمل ذي الصلة والنتائج التجريبية لمشاركة فريقنا في مهمة Semeval 2021: الغموض المتعدد اللغات والتبلغة في السياق (MCL-WIC). بيانات هذه المهمة المشتركة هي أساسا بعض الزوجات الزوجية عبر اللغة أو متعددة الل
غات. اللغات المشمولة في Corpus تشمل اللغة الإنجليزية والصينية والفرنسية والروسية والعربية. الهدف المهمة هو الحكم على ما إذا كانت الكلمات نفسها في أزواج هذه الجملة لها نفس المعنى في الجملة. يمكن اعتبار ذلك مهمة التصنيف الثنائي لأزواج الجملة. ما نحتاج إليه هو استخدام طريقتنا لتحديد بدقة قدر الإمكان معنى الكلمات في زوج الجملة هي نفسها أو مختلفة. يتكون النموذج المستخدم من قبل فريقنا بشكل أساسي من خوارزميات روبرتا و TF-IDF. مؤشر تقييم النتائج لتقديم المهمة هو درجة F1. شاركنا فقط في مهمة اللغة الإنجليزية. وكانت النتيجة النهائية لنتائج التنبؤ بمجموعة الاختبار المقدمة من فريقنا 84.60.
طرق التعلم، وخاصة تكيف المجال، تساعد في استغلال البيانات المسمى في مجال واحد لتحسين أداء مهمة معينة في مجال آخر.ومع ذلك، لا يزال من غير الواضح العوامل التي تؤثر على نجاح تكيف المجال.نماذج الورق هذه النجاح ونجاح واختيار المجالات المصدر الأكثر ملاءمة ب
ين العديد من المرشحين في تشابه النص.نستخدم معلومات المجال الوصفية ومقاييس التشابه عبر المجال كيزات تنبؤية.في الغالب إيجابية، تشير النتائج أيضا إلى بعض المجالات حيث كان من الصعب التنبؤ بنجاح التكيف.
Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع
/ الرمز المميز.في هذه الورقة، نقدم نماذج التشابه الدلالي لأتراك وتطبيقها كقائد تقييم لمهمة تلخيص مبادرة.لتحقيق ذلك، قامنا بترجمة مجموعة بيانات STSB الإنجليزية إلى تركية وعرضت بيانات التشابه الدلالي الأول للتركية أيضا.أظهرنا أن أفضل نماذج التشابه لدينا لها محاذاة أفضل مع الأحكام البشرية المتوسطة مقارنة بالحصان في كل من علاقات بيرسون ورأس.
تدفق هذه الورقة تشابه داخل حدود وبين 84 أصناف لغة عبر تسعة لغات.يتم استخلاص هذه الشركة من المصادر الرقمية (الويب والتويت)، مما يتيح لنا تقييم ما إذا كانت هذه الشركات المشار إليها على جغرافية موثوقة في النمذجة الاختلاف اللغوي.الفكرة الأساسية هي أنه، إ
ذا تمثل كل مصدر بشكل كاف مجموعة متنوعة من اللغات الأساسية واحدة، فيجب أن تكون التشابه بين هذه المصادر مستقرة عبر جميع اللغات والبلدان.توضح الورقة أن هناك اتفاق ثابت بين هذه المصادر باستخدام تدابير التشابه القائم على التردد.يوفر هذا دليلا إضافيا على أن شركة Corsea المرجعية الرقمية التي تمت الإشارة إليها باستمرار تمثل الأصناف اللغوية المحلية.
مجردة، تم اقتراح العديد من المقاييس لتقييم تشابه (مجردة) بمعنى تمثيلات (AMRS)، لكن القليل يعرف عن الطريقة التي تتعلق بتصنيفات التشابه البشري. علاوة على ذلك، فإن المقاييس الحالية لديها نقاط القوة والضعف التكميلية: يتأكيد البعض على السرعة، في حين أن ال
بعض الآخر يجعل محاذاة هياكل الرسوم البيانية الصريحة، بسعر خطوة محاذاة مكلفة. في هذا العمل، نقترح مقاييس تشابه Weisfeiler-Leman Amr الجديدة التي توحد نقاط القوة المقاييس السابقة، مع تخفيف نقاط ضعفها. على وجه التحديد، فإن مقاييسنا الجديدة قادرة على مطابقة التحسسات الفاصلة والحرية والحث على N: M بين العقد. علاوة على ذلك، نقدم معيارا لمقاييس AMR بناء على الأهداف العلنية (الخيزران)، أول معيار لدعم التقييم التجريبي لمقاييس التشابه الرسمي في الرسم البياني. يزيد الخيزران إمكانية تفسير النتائج عن طريق تحديد أهداف علنية متعددة تتراوح بين أهداف تشابه الجملة لإجراء اختبارات الإجهاد التي تحقق متانة متري ضد تحويلات الرسم البياني المعني بالمعنى والمعنى. نعرض فوائد الخيزران عن طريق تنميط المقاييس السابقة ومقاييس خاصة بنا. تشير النتائج إلى أن مقاييس جديدة قد تكون بمثابة خط أساس قوي للعمل في المستقبل.
التشابه النّصي الدّلالي هو أساس عدد لا يحصى من التطبيقات ويلعب دوراً هاماً في مجالات متنوعة مثل استرجاع المعلومات ، والكشف عن السرقة الأدبية ، والترجمة الآلية ، وكشف الموضوع ، وتصنيف النص ، وتلخيص النص وغيرها.
ويعتمد العثور على التشابه بين نصين أو
فقرات أو جمل على قياس التشابه بين الكلمات بشكل مباشر أو غير مباشر.
هناك نوعان معروفان للتشابه:
معجمية(Lexicon) ودلالية.(Semantic)
يتعامل الأوّل مع الكلمات على أنها مجموعة من الأحرف: الكلمات متشابهة معًا إذا كانت تتشارك في نفس الأحرف بنفس الترتيب(تمتلك نفس السلسلة من المحارف).
يهدف النوع الثّاني إلى تحديد الدّرجة التي ترتبط بها كلمتين بشكل دلالي على سبيل المثال يمكن أن تكون المرادفات تمثل نفس الشيء أو يتم استخدامها في نفس السياق، ولذلك التّشابه الدّلالي بين الكلمات يجب أن يكون knowledge based وهذا يعني أنّ التشابه بين الكلمتين يعتمد على معلومات يمكن الحصول عليها من معاجم كبيرة.
استطاع (فان تيجم) و (فيكتور جيرمونسكي) في أعمالهما النقدية المقارنة ترسيخ معالم اتجاهين متقاربين نشأةً، و متباعدين إلى حد غير قليل منهجاً، و وسائل بحث . فالأول ممن ساروا على نهج (إبيل فيلمان) في النظر إلى العلاقات الأدبية الدولية نظرةً تاريخيةً سببية
ً أكيدة (النظرية التاريخية). و الثاني ممن نهجوا نهج النظرية النمطية (التيبولوجية)، متأثراً بطروحات (أ. فيسيلوفسكي) النقدية، المتأثر بالفلاسفة الألمان، بدءاً من النصف الثاني من القرن الثامن عشر. فطرح مصطلح التشابه و الاختلاف بين الآداب، بوصفه نتيجةً لتشابهٍ أو اختلافٍ في حركة تطور المجتمعات و أحوالها.
إلا أن تباعدهما من حيث المبدأ، لم يلغ اتفاقهما في بعض القضايا الجزئية، و اختلافهما في مسائل أخرى. و هذا ما سيحاول البحث النظر إليه، مستعيناً بالاستقراء وسيلة لاستنباط الأحكام، التي أغفلها الدارسون و المهتمون، أملاً بإعطاء كل ذي حقٍ حقه، بحيادية و موضوعية، تعتمد نصوص كلٍ منهما.