به گزارش خبرگزاری شبستان، کامران قاصدی مجری طرح با اشاره به اهمیت بازشناسی گفتار در حوزه ارتباطات هوشمند رایانه و انسان، گفت: بازشناسی گفتار به دلیل کاربردهای فراوان و فناوریهای جدید و ایفای نقش اساسی در حوزه راتباطات هوشمند زایانه و انسان یکی از موضوعات مهم و مورد توجه محققان است ولی سامانه های بازشناسی خودکار گفتار برای انجام ماموریت های مورد نظر در شرایط واقعی به دلیل وجود عناصر مزاحم و مخرب مانند انواع نویز با مشکلات زیادی همراه است.
وی با بیان اینکه برای حل این مشکل تاکنون روشهای مختلفی ارائه شده است، اظهار داشت: در این راستا پروژه ای در قالب پایان نامه دوره کارشناسی ارشد، با عنوان" بازشناشی گفتار مستقل از فرد بااستفاده از تلفیق اطلاعات صوتی و تصویری" در دانشگاه امیرکبیر اجرایی شد.
قاصدی بازشناسی صوتی و تصویری گفتار را مستلزم استخراج ویژگیهای تصویری ذکر کرد و ادامه داد: برای این منظور با استفاده از یک مدل شبکه عصبی، فضای رنگی جدیدی به دست آمده، تا تمایز بیشتری میان پیکسلهای لب و غیرلب ایجاد شود و سپس ویژگی های مورد نظر از سیگنال تصویری استخراج شده است.
در این تحقیق علاوه برویژگی های صوتی از ویژگی های تصویری نیز برای بازشناسی گفتار استفاده شد و در نهایت موفق به بهبود بازشناسی بویژه در شرایط نویزی شدیم.
پایان پیام/
نظر شما