본문 바로가기

AI/음성인식

(2)
바이든? 날리면? 주파수 기반 음성처리 노이즈 제거 동영상은 영상과 음성으로 이루어져 있다. 영상은 두 눈으로 명확히 보이므로 분석이 어렵지 않으나, 음성은 여러 잡음과 multi-speaker 문제로 분석이 어렵다. 본 글에서는 음성을 분석하여 노이즈를 제거하고 속도를 빠르거나 느리게 하는 실습을 진행한다. 음성은 아래와 같이 시간영역에서 파형으로 이뤄져 있다. 그리고 이 파형은 실제 우리가 원하는 음성과, 잡음으로 이뤄져 있다. 우리는 잡음을 제거하고, 원하는 음성 부분만 듣고 싶다. 실습 순서는 아래와 같다. 1) 유튜브에서 원하는 영상을 다운로드한다 2) 영상에서 음성을 추출한다 3) 전체 음성에서 원하는 부분만 자른다 4) 주파수 영역에서 음성을 분석한다 5) 주파수 변환(mel-spectogram)을 그래프로 확인한다 6) 음성을 빠르거나 느리..
TTS 1. 마인즈랩의 TTS, 글을 쓰면 소리를 만들어준다 https://api.maum.ai/kr/tts/#none API를 구매하려면 99000원을 내야한다... 구매 시, API를 이용하여 대량의 Synthesis data를 만들 수 있을 거 같다. 2. Carpedm20의 github https://github.com/sokcuri/multi-speaker-tacotron-tensorflow 3. 김앵커 추가 https://github.com/melonicedlatte/multi-speaker-tacotron-tensorflow http://hellogohn.com/post_one298 4. 박규병, KSS 한글 TTS 데이타셋 https://www.kaggle.com/bryanpark/korean-s..