ترغب بنشر مسار تعليمي؟ اضغط هنا

نحن نتطلع إلى اختناق بيانات التوضيحية لتصنيف التسلسل.على وجه التحديد نسأل السؤال: إذا كان لدى المرء ميزانية التوضيحية N، ما هي العينات التي يجب أن نختارها للتعليق التوضيحي؟الحل الذي نقترحه يبحث عن التنوع في العينة المحددة، من خلال تعظيم كمية المعلوما ت المفيدة لخوارزمية التعلم، أو معادل عن طريق تقليل التكرار من العينات في الاختيار.يتم صياغة هذا في سياق التعلم الطيفي للوظائف المتكررة لتصنيف التسلسل.تمثل طريقةنا البيانات غير المسبقة في شكل مصفوفة Hankel، وتستخدم فكرة الحجم الطيفي الأقصى للعثور على كتلة فرعية مضغوطة يتم رسم عينات التعليق التوضيحي.تؤكد التجارب المعنية بتصنيف التسلسل أن استراتيجية أخذ العينات الطيفية لدينا هي في الواقع فعالة وتجسد نماذج جيدة.
النهج الحالي لجمع الأحكام البشرية لجودة الترجمة الآلية لمهمة الترجمة الأخبار في WMT - تصنيف القطاع مع سياق المستند - هو الأحدث في سلسلة من التغييرات في بروتوكول التعليق البشري WMT.نظرا لأن البروتوكولات التوضيحية هذه تغيرت مع مرور الوقت، فقد انجرفت بع يدا عن بعض الافتراضات الإحصائية الأولية التي تدعمها، مع عواقب تسمون صحة تصنيفات نظام المهام الأخبار WMT إلى سؤال.في المحاكاة بناء على البيانات الحقيقية، نوضح أن التصنيفات يمكن أن تتأثر بوجود القيم المتطرفة (أنظمة عالية الجودة أو منخفضة الجودة)، مما أدى إلى تصنيفات ونظام مختلفة.ونحن ندرس أيضا أسئلة تكوين مهمة التوضيحية وكيف قد تؤثر سهولة ترجم أو صعوبة ترجمة المستندات المختلفة في تصنيفات النظام.نحن نقدم مناقشة طرق لتحليل هذه القضايا عند النظر في التغييرات المستقبلية في بروتوكولات التعليق التوضيحي.
أثناء النظر في الأوقات الطبيعية في وثائق الأمن الغذائي، وجدنا أن التعليق التوضيحي التركيبي للتوسع في الوقت نفسه يتطلب العديد من التعليقات التوضيحية شبه المكررة للحصول على الدلالات الصحيحة للتعبيرات مثل 7 نوفمبر إلى 11 2021. للحد من هذه المشكلة، نحناس تكشاف استبدال الممتلكات الفاصل الفرعية للخضار بممتلكات فاصلة فاصلة فاخرة، وهذا هو، مما يجعل أصغر الوحدات (على سبيل المثال، 7 و 11 عاما بدلا من أكبر الوحدات (على سبيل المثال، 2021) رؤساء سلاسل التقاطع.لضمان ظل دلالات الفواصل الزمنية المشروحة دون تغيير على الرغم من تغييراتنا في بناء جملة مخطط التوضيحية، طبقنا العديد من التقنيات المختلفة للتحقق من صحة تغييراتنا.تم اكتشاف تقنيات التحقق من الصحة هذه وسمحتنا بحل العديد من الأخطاء المهمة في الترجمة الآلية لدينا من الفاصل الفرعي إلى بناء جملة فائق الفاصل الزمني.
تعد دول كيان تتبع مهمة معالجة لغات طبيعية تفترض أن تتطلب شرحا بشريا. من أجل تقليل الوقت والنفقات المرتبطة بالتعليق التوضيحي، نقدم طريقة جديدة لاستخراج حالات الكيان تلقائيا، بما في ذلك الموقع والوجود حالة الكيانات، بعد Dalvi et al. (2018) وتاندون وآخر ون. (2020). لهذا الغرض، نعتمد في المقام الأول على التمثيل الدلالي الناتج عن حالة محلل الحرف الحرفي الفن (Gung، 2020)، واستخراج الكيانات (مشاركين الأحداث) ودولهم، بناء على المسندات الدلالية للتمثيل الدليلي الذي تم إنشاؤه، وهو في تنسيق المنطق المقترح. للتقييم، استخدمنا Propara (Dalvi et al.، 2018)، وهي مجموعة بيانات لفهم القراءة التي يتم تفاحها مع الدول الكيانية في كل جملة، وتتبع تلك الدول في فقرات النصوص الإجرائية ذات التأليف البشري الطبيعي. بالنظر إلى القيود المقدمة من الطريقة، فإن خصائص شروح DataSet Propara، وأن نظامنا، Lexis، لا تستخدم بيانات التدريب الخاصة بمهام المهام وتعتمد فقط على Verbnet، والنتائج واعدة، وعرض قيمة الموارد المعجمية.
نقدم طريقة لدعم شرح حركات الرأس في المحادثات المسجلة بالفيديو.يتم استخدام شرائح حركة الرأس من البيانات المشروحة متعددة الوسائط لتدريب نموذج للكشف عن حركات الرأس في البيانات غير المرئية.يتم تحميل تسلسل الحركة المتوقعة الناتجة إلى أداة السندان لتحرير م ا بعد التوضيح.يتم مقارنة حركات الرأس المحددة تلقائيا والشروح الأصلية بتقييم التداخل بين الاثنين.وأظهر هذا التحليل أن Onsets الحركة تم اكتشافه بسهولة أكبر من الإزاحة، وأشارت إلى عدد من الأنماط في عدم التطابق بين التعليقات التوضيحية الأصلية والتنبؤات النموذجية التي يمكن التعامل معها بعبارات عامة في إرشادات ما بعد التوضيحية.
التعليق التوضيحي المعرفي العالمي (UCCA) هو مخطط توضيحي دلالي ينظم النصوص في هيكل الوسائد الخشن، مما يوفر تغطية واسعة من الظواهر الدلالية.في الوقت نفسه، لا تزال هناك حاجة إلى علاج محمظ من العديد من الفئات.فئة الإعلان ذات أهمية خاصة، حيث تغطي مجموعة وا سعة من معاني مختلفة بشكل أساسي مثل النفي والسببية والجانب وقياس الحدث.في هذه الورقة، نقدم مخطط التعليق التوضيحي الصقل لفئة AUCCA Adverbial، والتي تبين أن UCCA Adverbials يمكن أن تكون بالفعل في الفئات الفرعية في 7 أنواع الدلالية على الأقل، والقيام بذلك يمكن أن تساعد في توضيح وتكريم تسميات الحبيبات الخشنة على خلاف ذلك.نحن نقدم مجموعة مبدئية من المبادئ التوجيهية التوضيحية، وكذلك تجارب التجريبية التوضيحي مع اتفاق مرتفع بين المشتريات، مما يؤكد صلاحية المخطط.
تقدم هذه الورقة العديد من التحديات التي تواجهها عند إشراف Treebanks التركية وفقا للمبادئ التوجيهية للتبض الشامل (UD) وتقترح الحلول لمعالجتها.معظم هذه التحديات تنبع من الافتقار إلى الدعم الكافي في إطار UD إلى بدقة تمثل مورفيمز البادئة والاشتقامات المع قدة، مما يؤدي إلى فقدان كبير للمعلومات من أجل التركية.تؤثر هذه الخسارة سلبا على الأدوات التي تم تطويرها بناء على هذه Treebanks.نشأنا وناقشت هذه القضايا داخل المجتمع على بوابة UD الرسمية.تعرض هذه الورقة هذه القضايا ومقترحاتنا تمثل أكثر دقة معلومات مورفوسنكتاسية للتركية في حين تلتزم بمبادئ توجيهية للتكييف.يهدف هذا العمل إلى المساهمة في تمثيل اللغات التركية وغيرها من اللغات الشاقة في Treebanks القائمة على UD، والتي بدورها تساعد على تطوير مجموعات بيانات مشروحة بدقة لهذه اللغات.
غالبا ما تكون أنظمة المحادثة الموجودة في معظمها، مما يفترض أن تصطب المستخدمين سيتبعون عن كثب نظام ontology. ومع ذلك، في سيناريوهات العالم الواقعي، من المستحسن للغاية أن يستخدم المستخدمون التحدث بحرية وبطبيعة الحال. في هذا العمل، نحاول بناء نظام حوار تركز على المستخدمين لتوصية المحادثة. نظرا لعدم وجود رسم خرائط نظيفة لنكل النموذج المجاني للمستخدم لعلاج الأطباق، فإننا نقوم أولا بنموذج تفضيلات المستخدمين كتوزيعات مقدرة على نظام OnTology ونصوص المستخدمين على هذه التوزيعات. إن تعلم مثل هذه الرسوم الخرائط يشكل تحديات جديدة على التفكير في أنواع مختلفة من المعرفة، بدءا من المعرفة العفاهية، ومعرفة المنطقية لحالات المستخدمين الخاصة. تحقيقا لهذه الغاية، نبني مجموعة بيانات جديدة تسمى الدقيقة التي تركز على هذه الإعدادات الواقعية، مع حوارات 5.1k، تتحول 26 ألفا إلى ردود المستخدم عالية الجودة. نقوم بإجراء تجارب، مما يدل على حد سواء فائدة وتحديات إعداد مشكلتنا. نعتقد أن الدقة يمكن أن يكون بمثابة مورد قيمة لدفع الأبحاث الحالية من النظام المركزي للعميل إلى النظام المركزي للمستخدم. الرمز والبيانات متاح علنا.
أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه، نقدم LitEScale، مكتبة برامج مجانية لإنشاء وإدارة مهام التوضيحية BWS.يحسب LitEScale tuples typles للتعليق ويدير المستخدمين وعملية التوضيحية، ويخلق معيار الذهب النهائي.يمكن الوصول إلى وظائف LitEScale برمجيا من خلال وحدة نمطية Python، أو عبر واجهتين لمستخدمين بديلين، واحدة قائمة على وحدة التحكم النصية ومقرها على الويب.لقد نمت ونشرنا أيضا نسخة كاملة من Litescale كاملة مع دعم متعدد المستخدمين.
تحيز وسائل الإعلام هي ظاهرة سائدة موجودة في معظم أشكال الوسائط المطبوعة والإلكترونية مثل المقالات الإخبارية والمدونات أو التغريدات، وما إلى ذلك. نظرا لأن وسائل الإعلام تلعب دورا محوريا في تشكيل الرأي العام تجاه الأحداث السياسية، غالبا ما تستخدم كل من الأحزاب السياسية والإعلام في كثير من الأحيان هذه المصادركمنافذ لنشر التحيزات الخاصة بهم للجمهور.كانت هناك بعض الأبحاث حول الكشف عن التحيز السياسي في مقالات إخبارية.ومع ذلك، لا يحاول أي منه تحليل طبيعة التحيز أو تحديد حجم التحيز في نص معين.تقدم هذه الورقة تحيزا سياسيا مشروحا كوربوس بيز.POBICO-21، المشروح باستخدام مخطط مصمم خصيصا مع 10 ملصقات لالتقاط تقنيات مختلفة تستخدم لإنشاء تحيز سياسي في الأخبار.نخلق تصنيف هذه التقنيات بناء على مساهمتها في التحيز.بعد التحقق من صحة الترتيب، نقترح طرق لاستخدامها لتحديد حجم التحيز في المقالات الإخبارية السياسية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا