본문 바로가기

AI

(25)
바이든? 날리면? 주파수 기반 음성처리 노이즈 제거 동영상은 영상과 음성으로 이루어져 있다. 영상은 두 눈으로 명확히 보이므로 분석이 어렵지 않으나, 음성은 여러 잡음과 multi-speaker 문제로 분석이 어렵다. 본 글에서는 음성을 분석하여 노이즈를 제거하고 속도를 빠르거나 느리게 하는 실습을 진행한다. 음성은 아래와 같이 시간영역에서 파형으로 이뤄져 있다. 그리고 이 파형은 실제 우리가 원하는 음성과, 잡음으로 이뤄져 있다. 우리는 잡음을 제거하고, 원하는 음성 부분만 듣고 싶다. 실습 순서는 아래와 같다. 1) 유튜브에서 원하는 영상을 다운로드한다 2) 영상에서 음성을 추출한다 3) 전체 음성에서 원하는 부분만 자른다 4) 주파수 영역에서 음성을 분석한다 5) 주파수 변환(mel-spectogram)을 그래프로 확인한다 6) 음성을 빠르거나 느리..
LLM 실습 1) dolly with langchain Intro llama 언어모델이 공개된 후 Opensource와 상업용으로 이용이 가능한 많은 언어모델이 출시되고 있다. 오늘은 이 중 Databricks에서 공개한 dolly 사용법에 대해 알아보자 Dolly는 pythia 모델에 15,000개의 databricks-dolly-15k(instruction/response 데이터셋)으로 fine-tuning한 모델이다. databricks-dolly-15k 데이터셋은 Databricks 직원들이 InstructGPT paper를 참고하여 brainstorming, classification, closed QA, generation, information extraction, open QA and summarization들을 포함하는 데이터셋을 만들었다. ..
GPT3 3편) HyperCLOVA(한국어 GPT3), CLOVA Studio 사용후기 안녕하세요 자연어처리를 연구하고 있는 고우영입니다. 최근 네이버에서 한국어 초대규모 AI HyperCLOVA 언어모델을 개발하여 직접 사용해보면서 인공지능의 가능성과 한계를 체험해보고자 네이버 HyperCLOVA 에반젤리스트로 지원하여 크로버 스튜디오 클로즈 베타에 참여했습니다. 오늘은 한국어 초대규모 AI HyperCLOVA의 언어모델을 활용할 수 있는 No Code AI 도구인 CLOVA Studio 사용후기를 공유합니다. 0. GPT3 관련 지난 글 - GPT3 1편) GPT3 이론 파헤치기 https://keep-steady.tistory.com/52 GPT3 1편) GPT3 이론 파헤치기 최근 인공지능 기반 자연어처리는 거대 언어모델 개발로 큰 성공을 거두고 있습니다. 오늘은 GPT3에 대해 알..
GPT3 2편) OpenAI API로 chatbot을 만들어보자! 거대 언어모델 GPT3가 화재다. 수많은 데이터를 엄청 큰 Transformer decoder 모델로 이루어진 GPT 모델로 학습한 GPT3. 지금까지 언어모델은 Pretrain을 통해 학습한 후 많진 않지만 적지 않은 꽤 많은 데이터를 수집하여 fine-tuning을 해서 언어모델의 parameter weights 값들을 업데이트해야 동작했다. 하지만 GPT3 모델은 weight 업데이트 없이 언어모델의 입력인 prompt에 정보를 잘 담으면 학습 없이도 많은 task가 가능하다. GPT3로 할수있는 task는 자연어처리의 모든 task이다. 분류/요약/번역/챗봇 등등 수많은 task가 학습 없이 prompt 입력 만으로 가능하다. 본 글에선 1) OpenAI의 API를 이용해 GPT3를 이용하는 방법..
GPT3 1편) GPT3 이론 파헤치기 최근 인공지능 기반 자연어처리는 거대 언어모델 개발로 큰 성공을 거두고 있습니다. 오늘은 GPT3에 대해 알아봅시다. 1. 언어모델(Language Model) 언어모델은 크게 Auto encoding 모델과 Auto regressive 모델 두 종류로 나눌 수 있습니다. 1.1. Auto-Encoding Auto-Encoding 모델은 임의로 문장에서 빈칸([MASK])을 만든 후 주변 단어를 통해 문맥상 빈칸을 맞추는 방식입니다.을 위한 BERT, Electra, RoBerta가 이 방식에 속합니다. 동일 문장이라도 random masking 위치에 따라 서로 다른 정보 학습할 수 있고, Downstream task에 Fine-tuning 시 [MASK] 토큰이 등장하지 않으므로 Pre-trainin..
(이미지 분류 고급) 1_대선후보 이미지 자동 크롤링! 무한개까지 AI에서 이미지 공부할 때 MNIST만 돌려보는 건 지겹지 않은가?? 이미지 분류 고급과정에선 아래와 같이 이미지 분류의 A to Z를 Hands-on 과정으로 다룬다. 1. 이미지 자동 크롤링 2. EfficientNet을 이용한 이미지 분류 3. GradCAM을 이용한 XAI(Explainable AI) 4. 적대적 공격(Adversarial attack)으로 내 모델 공격하기 그중 첫 번째, 이미지 자동 크롤링! - 목적: 이미지 분류를 위한 데이터셋을 만들자 - 순서 1) 분류하고자 하는 클래스(class) 정하기 - 개 or 고양이 - 사과 or 딸기 2) 구글&네이버에서 지정한 클래스를 폴더별로 다운로드 (https://keep-steady.tistory.com/28)에서 네이버 이미지 크롤링..
5분만에 끝장내는 AutoML(h20) 사용법 5분만에 H2O AutoML을 끝장내보자. 사실 5분도 안걸린다. 구글 Colab에서 바로 사용할 수 있다. Github 주소 : github.com/keep-steady/automl_h20_practice_python 실습 colab 주소 : colab.research.google.com/drive/1oRIdDWNL_NMdwmGmrS8rK0KiJOdtt5MH?usp=sharing => colab을 연 후 아래 그림과 같이 data.csv를 기본 경로에 업로드 AI프렌즈 김** 선생님께서 아주 좋은 데이터를 공유해주셨다. 여러 가지 feature를 이용하여 서류 합불을 예측할 수 있는 데이터이다. 최근 AI프렌즈에선 AutoML에 관심 있는 사람들이 많다. 나는 작년 NAS 논문 몇 개 읽어 보고 코드 ..
XLM, 다언어 임베딩 및 비지도학습 기반 번역 XLM(Cross-lingual Language Model Pre-training) code : https://github.com/facebookresearch/XLM paper: https://arxiv.org/abs/1901.07291 정리 : https://yhdosu.tistory.com/entry/Cross-lingual-Language-Model-Pre-training https://yhdosu.github.io/2018/11/05/XLM.html TransCoder는 XLM을 기반으로 한다. 저자인 Facebook AI Research의 Guillaume Lample는 비지도학습 기반 번역 기술의 대가이다. 다 언어간 Cross-linguality를 높이기 위해 XLM 모델을 개발하기도 했다..