ترغب بنشر مسار تعليمي؟ اضغط هنا

شخصية مفيدة لتنبؤ استجابة الحوار. ومع ذلك، فإن الشخصية المستخدمة في الدراسات الحالية محددة مسبقا ويصعب الحصول عليها قبل محادثة. لمعالجة هذه المشكلة، نقوم بدراسة مهمة جديدة، اسمه مكبر صوت مكبر الصوت (SPD)، الذي يهدف إلى اكتشاف شخصيات المتكلم بناء على نص المحادثة العادي. في هذه المهمة، يتم تفتيش شخص أفضل مطابقة من المرشحين بالنظر إلى نص المحادثة. هذه مهمة مطابقة دهالية متعددة إلى العديد لأن كل من السياقات والشخصية في SPD تتكون من جمل متعددة. يعزز التبعية الطويلة الأجل والتكرار الديناميكي بين هذه الجمل صعوبة هذه المهمة. نحن نبني مجموعة بيانات ل SPD، التي يطلق عليها مواضيع شخصيا على أخصائي الدردشة (PMPC). علاوة على ذلك، نقيم العديد من النماذج الأساسية واقتراح شبكات مطابقة الكلام إلى الملف الشخصي (U2P) لهذه المهمة. تعمل نماذج U2P بتصبيح جيد يعالج كل من السياقات والعشرون كمجموعات من تسلسل متعددة. بعد ذلك، يتم تسجيل كل زوج تسلسل ويتم الحصول على درجة إجمالية قابلة للتفسير للحصول على زوج سياق شخصي من خلال التجميع. تظهر نتائج التقييم أن نماذج U2P تتفوق على نظرائهم الأساسيين بشكل كبير.
كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.
في هذه الورقة، نستخدم تعميم المجال لتحسين أداء نظام التحقق من مكبر الصوت عبر الأجهزة.استنادا إلى نظام التحقق من المتكلم التدريبي، نستخدم خوارزميات تعميم المجال لضبط المعلمات النموذجية.أولا، نستخدم DataSet Voxceleb2 لتدريب ECAPA-TDNN كنموذج أساسي.ثم ا ستخدم مجموعة بيانات ChT-TDSV وخوارزميات تعميم المجال التالية لضبطها: Dann، CDNN، Coral Coral.اختبارات نظامنا المقترح 10 سيناريوهات مختلفة في مجموعة بيانات NSYSU-TDSV، بما في ذلك جهاز واحد وأجهزة متعددة.أخيرا، في سيناريو الأجهزة المتعددة، انخفض أفضل معدل خطأ على قدم المساواة من 18.39 في الأساس إلى 8.84.حقق بنجاح تحديد الهوية عبر الجهاز على نظام التحقق من مكبر الصوت.
بالنسبة للأطفال، أدى النظام المدرب على جثة كبيرة من مكبرات الصوت الكبار أسوأ من النظام المدربين على جثة أصغر بكثير من خطاب الأطفال.هذا بسبب عدم تطابق الصوت بين التدريب واختبار البيانات.لالتقاط المزيد من التقلبات الصوتية، قامنا بتدريب نظام مشترك مع بي انات مختلطة من البالغين والأطفال.ينجذب النظام المشترك إلى أفضل أغاني للأطفال دون تدهور للبالغين.وبالتالي، فإن النظام الفردي المدرب مع البيانات المختلطة ينطبق على التحقق من السماعات لكل من البالغين والأطفال.
تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعي ة و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية. سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية. اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.
يشتمل التعرف على الصوت قسمين أساسيين و هما التعرف على الكلام و التعرف على المتكلم، حيث تعد عمليات التعرف هذه من أهم التقنيات الحديثة و قد تم تطوير العديد من الأنظمة التي تختلف بالطرق المستخدمة في استخراج السمات و طرق التصنيف لتدعم أنظمة تعرف من هذا ا لنوع. اشتملت الدراسة في هذا البحث على القسمين السابقين، حيث تم تصميم نظام تعرف على المتكلم و أوامره الصوتية و استخدام عدة خوارزميات متكاملة لإنجاز البحث. قمنا بإجراء دراسة تحليلية لخوارزمية Mel Frequency Cepstral Coefficients ((MFCC المستخدمة في استخراج السمات، و تمت دراسة بارامترين خاصين بهذه الخوارزمية هما عدد المرشحات في بنك المرشحات و عدد السمات المأخوذة من كل إطار و علاقة هذين البارامترين ببعضهما و مدى تأثير قيمتهما على نسب التعرف. و تم استخدام الشبكات العصبية ذات التغذية الأمامية و الانتشار الخلفي للخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنف و حللنا أداء الشبكة للوصول إلى أفضل خصائص و مكونات محققة عملية التعرف. كما تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت و تأثيرها في نسب التعرف على الصوت.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا