MCRA기반의 노이즈 제거 및 음성인식 시스템을 위한 신호 분류

Title
MCRA기반의 노이즈 제거 및 음성인식 시스템을 위한 신호 분류
Authors
양혜영
Keywords
mcra기반의노이즈제거및음성인식시스템을위한신호분류
Issue Date
2012
Publisher
인하대학교
Abstract
네트워크 발달로 음성통신의 중요성이 점차 증가하면서 마이크로폰에서의 음성 향상 기술에 대한 연구가 주목받고 있다. 실제적인 음성향상 시스템에서 잡음을 정확하게 추정하는 것과 보다 정확한 음성인식을 위한 전처리가 주요한 요소이며, 다양한 환경 특히 비정상 잡음 신호나 간섭신호 또는 신호 대 잡음비가 낮은 신호를 처리할 수 있어야 한다. 최근에 주목받는 잡음 추정방법으로 최소값 제어 재귀 평균 기법은 서브밴드에서 신호 존재 확률로 조절하는 스무딩 매개변수를 이용하여 파워 스팩트럼에 평균을 취하는 방법이다. 하지만 이러한 MCRA (Minima Controlled Recursive Averaging) 알고리즘에도 몇 가지 문제점이 있다. 갑작스런 딜레이가 존재시 딜레이가 생기고, 각 서브밴드에서 신호의 존재를 현재 프레임만의 잡음이 섞인 신호의 국부에너지와 주어진 윈도우에서 최소값 사이의 비로 정한 값과 특정임계값만을 가지고 비교를 하기 때문에 신뢰성이 떨어진다. 일반적으로 음성의 활동은 인접한 프레임들과 강력한 상호 연관성이 있으므로 음성이 활동하는 프레임의 바로 전 프레임이나 바로 다음 프레임은 음성이 활동할 가능성이 높다고 할 수 있고 그 반대도 성립한다. 최근에 제안된 음성 활동의 상호 연관성을 고려한 새로운 음성 검출기 (VAD, Voice Activity Detection) 에서는 조건 사후 최대 확률 (CMAP, Conditional Maximum A Posteriori, Second-order) 기법을 적용하여 우수한 성능을 보고하였다. 본 논문에서는 특정 임계값만을 사용하여 각 서브밴드에서 음성 신호의 유무를 추정하는 기존의 MCRA (Minima Controlled Recursive Averaging) 방법에 이전 프레임의 음성 부재 확률 (LSAP, Local Speech Absence Probability) 과 현재 프레임의 스펙트럴 편차를 이용하여 음성 신호 유무에 대한 조건을 추가한 2차 조건 사후 최대 확률 (Second-order Conditional Maximum A Posteriori, Second-order CMAP) 을 적용하여 음성 존재 확률의 성능을 향상 시켜 우수한 잡음 추정 방법을 도출하여 MCRA (Minima Controlled Recursive Averaging) 를 제시한다. 제안된 알고리즘이 기존의 MCRA(Minima Controlled Recursive Averaging)방법과 비교하여 SNR(Signal Noise Ratio)이 약 0.18dB 향상되었다. 노이즈 추정기법에 더불어 음성인식 전처리 과정 중 잡음 신호 분류기법을 소개한다. Indoor 잡음 환경에서 효과적인 원거리 음성인식을 위한 음원분류 기법 기반의 음성 검출 기술 개발한다. 음원분류 기법은 총 3가지로 분류 한다. 첫째는 단순 잡음 신호 Noise, 둘째는 음성인식에 영향을 줄만한 잡음이 섞인 음성신호 Noisy Speech, 셋째는 음성인식 자체가 불가능 할 정도로 잡음이 섞인 음성신호 Heavy noise speech 이다. 전 처리단에서 분류에 따른 각각의 신호정보를 음성 인식기에 제공하여 보다 적응적인 음성 인식기를 구현하는데 이용하고자 한다. 제안된 방법은 기존의 LG음성인식기 인식률 82.01%에서 84.27%로 향상되었다. 특히, Heavy noise speech와 같이 음성인식 자체가 불가능한 신호는 음성인식 과정에서 배제시키거나 사용자에게 미리 정보를 알림으로서 편의를 제공한다.
Description
제 1 장 서 론 1 제 2 장 잡음전력 추정기법 2.1 Minimum Statistics 기반 잡음전력 추정 4 2.2 Soft Decision 기반 잡음전력 추정 6 2.3 Minima Controlled Recursive Averaging 기반 잡음전력 추정 9 2.3 MCRA를 기반으로 하여 LSAP와 편차를 이용한 잡음전력 추정 13 제 3 장 음원분류 기법 22 3.1 제안된 음원분류 기법 23 3.2 PI와 PM of NACF 및 MCR와 Petrosian 24 3.2.1 PI 생산 과정 25 3.3 SNR Maximum 및 시그모이드 함수 33 제 4 장 실험결과 및 고찰 36 4.1 제안된 MCRA 실험 결과 37 4.2 제안된 음원분류 기법 실험 결과 38 제 5 장 결론 46 참 고 문 헌 그림 1. F16 잡음 (SNR = 10dB) 에서의 비교 16 그림 2. F16 잡음 (SNR = 10dB) 에서의 음성 존재 확률 비교 18 그림 3. F16 노이즈 파워 예측값의 비교 21 그림 4. Indoor 잡음 및 다양한 잡음 환경에 의한 음성인식 22 그림 5. 음성인식기 전처리 23 그림 6. 제안된 feature기반 식별 블럭도 23 그림 7. 문장의 시간 파형 24 그림 8. 음성 생산의 해부에 관한 횡단면 25 그림 9. 성대 주름 그림, 두 단계로 후두 아래를 보여주는 그림 26 그림 10. 성문음의 공기 흐름 파형 28 그림 11. (a) 비음성 구간와 음성구간의 파형 (b) NACF 함수의 PIS (c) NACF 함수의 PMS 30 그림 12. 비음성 거부 파라미터의 히스토그램 PIS-MCR 31 그림 13. 비음성 거부 파라미터의 히스토그램 PMS-MCR 31 그림 14. PMS Petrosian 32 그림 15. PIS Petrosian 32 그림 16. 시그모이드 함수 34 그림 17. Indoor 환경의 MCR of Smoothed PM 38 그림 18. Babble 환경의 MCR of Smoothed PM 39 그림 19. 로봇청소기 환경의 MCR of Smoothed PM 40 그림 20. 클래스A,B,C에 따른 MCR 41 그림 21. Indoor SNR 41 그림 22. Babble SNR 42 그림 23. 로봇청소기 SNR 42 그림 24. Class A, B, C에 대한 MCR 43 그림 25. Class A, B, C에 대한 New MCR 43 그림 26. Class A, B, C에 대한 MCR 그리고 New MCR 44 그림 27. Class A, B, C에 대한 Training data 44 표 1. 기존의 알고리즘과 제안된 알고리즘의 PESQ 결과 비교 37
URI
http://dspace.inha.ac.kr/handle/10505/23508
Appears in Collections:
College of Engineering(공과대학) > Electronic Engineering (전자공학) > Theses(전자공학 석박사 학위논문)
Files in This Item:
24590.pdfDownload

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse