استفاده از بازنمایی تنک و الگوریتم یادگیری ماشینی در آشکارساز فعالیت گفتار

نوع مقاله : مقاله پژوهشی

نویسنده

گروه مهندسی برق، واحد نوشهر، دانشگاه آزاد اسلامی، نوشهر، ایران.

چکیده

در این مقاله یک آشکارساز فعالیت گفتار بر مبنای بازنمایی تنک و آموزش لغت­نامه در فضای دو بعدی طیفی-زمانی ارائه شده است. مؤلفه ­های فضای طیفی-زمانی علاوه بر ابعاد فرکانس و زمان، دارای دو بعد دیگر مقیاس و نرخ هستند. در سالهای اخیر، استفاده از بازنمایی تنک و الگوریتم ­های یادگیری ماشینی در آموزش لغت ­نامه ­ها، جداسازی بهتر قسمت­ های گفتار و نویز را در پی داشته است. ایده اصلی در این روش، بازسازی هر سیگنال گفتار با استفاده از تعداد محدودی اتم ­های پایه است. در این الگوریتم با استفاده از فضای دو بعدی طیفی-زمانی و با کمک بازنمایی تنک، لغت­ نامه­ هایی با اندازه اتم ­های متفاوت حاصل شده که با روشهای یادگیری K-SVD و NMF آموزش داده می ­شوند. عملکرد این آشکارساز فعالیت ­گفتار در گفتار فارسی وانگلیسی ارزیابی شد. بطور مثال نتایج عملکرد این آشکارساز پیشنهادی در SNRهای بیشتر از 0 در گفتار انگلیسی برای نویر سفید و ماشین بیشتر از71/92 درصد و 82/91 درصد و برای گفتار فارسی بیشتر از 90 درصد می ­باشد که عملکرد خوب آشکارساز فعالیت ­گفتار پیشنهادی نسبت به سایر روش­ها را نشان می­دهد.

کلیدواژه‌ها


عنوان مقاله [English]

The Use of Sparse Representation and Machine Learning Algorithms in Voice Activity Detection

نویسنده [English]

  • Mohaddeseh Eshaghi
Department of Electrical Engineering, Nowshahr Branch, Islamic Azad University, Nowshahr, Iran
چکیده [English]

This paper proposes the Voice Activity Detection (VAD) method was made using two-dimensional STRF (Spectro-Temporal Response Field) space based on sparse representation and learning algorithm. Two-dimensional Spectral-temporal components have two dimensions of time and frequency. In recent years, sparse representation has gained a prominent place in speech processing techniques, including improved speech and noise separation methods, the basic idea in this method is to reconstruct each speech signal using a finite number of basic atoms. In this algorithm, using auditory spectrogram and sparse representation, a dictionary with different atom sizes and KSVD and NMF learning methods were constructed. The performance of this VAD in Persian speech and English speech was evaluated. For example, the proposed VAD performance was obtained in SNRs greater than 0dB in English speech is more than 92.71 percent and 91.82 percent in White noise and Car noise respectively and for Persian speech more than 90 percent, which shows the good performance of the proposed VAD compared to other methods.

کلیدواژه‌ها [English]

  • machine learning algorithm
  • sparse representation
  • Speech activity detector
  • two-dimensional spectral-temporal space
CAPTCHA Image