본문 바로가기

분류 전체보기

(44)
한국어 자연어처리 1편_서브워드 구축(Subword Tokenizer, Mecab, huggingface VS SentencePiece) 실습 코드(jupyter notebook) : github.com/keep-steady/NLP_for_korean.git 자연어처리를 오랫동안 하다 보니 나만의 한글 데이터셋에 Bert, Transformer 등 새로운 모델의 입력을 만들어야 할 일이 많다. 하지만 길고 긴 Pretraining을 수행 전 subword vocab을 만드는 건 정말 중요하다. 아무리 Pretraining을 잘 수행했어도 subword의 품질이 최종 성능에 많은 영향을 미친다. 특히 vocab은 중간에 바꿀 수 없어서 몇 달간 학습한 Pretraining 결과도 쓸모없어지는 수가 있다. 필자 이전 구글의 sentencepiece를 쭉 이용해와서 새롭고 빠른 tokenizer가 나왔다 해도 별 생각이없었다. 얼마나 빠르길래?..
서브워드 분절하기(sentencepiece, bpe, sub-word, bpe-droupout) 자연어처리를 오랫동안 하다보니 나만의 한글 데이터셋에 Bert, Transformer 등 새로운 모델의 입력을 만들어야 할 일이 많다. 한국어 자연어처리를 하는사람들이라면 매번 데이터셋에 맞는 sub-word 모델을 학습하고 vocab 사전을 만들어야한다 본 글에서는 내 데이터를 서브워드 분절하는 방법을 다루고자 한다 서브워드를 만드는 알고리즘은 사실 너무 많다. 1) 구글의 sentencepiece 2) opennmt 3) rust로 짜여 속도가 빠른 huggingface의 tokenizers 4) bpe 기법을 고안한 rsennrich의 코드 본 글에서는 구글의 sentencepiece 사용법을 다루고 다음글에서 huggingface의 tokenizers와 비교해 보려 한다 자연어 처리 시 모든 단어..
OCR 정리 OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다 현실에서 굉장히 쓸 일이 많다 그래서 아래 2단계로 진행이 된다 1) 'Text Localization' : 사진에서 텍스트 위치를 찾음 2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다 OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf Training dataset : 이미지 1000개 & 라벨 1000개 - 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4) Tes..
(이미지 분류 고급) 2_EfficientNet을 이용한 대선후보 분류 Hands-On AI에서 이미지 공부할 때 MNIST만 돌려보는 건 지겹지 않은가?? 이미지 분류 고급과정에선 아래와 같이 이미지 분류의 A to Z를 Hands-on 과정으로 다룬다. 1. 이미지 자동 크롤링 2. EfficientNet을 이용한 이미지 분류 3. GradCAM을 이용한 XAI(Explainable AI) 4. 적대적 공격(Adversarial attack)으로 내 모델 공격하기 2022 대선후보 데이터셋 구축: 이전글 참고 https://keep-steady.tistory.com/29 그중 두 번째, EfficientNet을 이요한 이미지 분류 - 목적: 최신 이미지 분류 모델 학습 - 순서 1) 데이터 준비 - dataset - dataloader 2) EfficientNet 모델 준비 3) 학습 ..
Django(장고) 구축 코드로 일단 따라해보기(2) https://www.youtube.com/watch?v=gHCyMBqv_U0&list=PLvX6vpRszMkwECdbxNX8s9R-vcUFGqqtC&index=9 1. django_web/settings.py 이미지 파일을 저장할 폴더 위치 설정 # 이미지 파일을 저장할 폴더 위치 MEDIA_URL = '/media/' MEDIA_ROOT= os.path.join(BASE_DIR, 'media') 2. webapp/urls.py from django.conf.urls import url from . import views from django.conf import settings from django.conf.urls.static import static # 어떤 글자가 들어오던지 views의 firs..
Djangh(장고) 구축 코드로 일단 따라해보기(1) OpenCV로 사진을 처리하는 장고Web을 만들어보자 이번장에서는 장고를 설치/설정하자 webapp : https://www.youtube.com/watch?v=ducNMHN6UCk&list=PLvX6vpRszMkwECdbxNX8s9R-vcUFGqqtC WebFramework : Django Linux Python Opencv 가상환경에서 1) 장고 설치 >>pip install django 2) OpenCV 설치 >> python -m pip install opencv-python 장고 프로젝트 만들기 현 폴더에서 oepncv_webapp 이름의 프로젝트 생성 >> django-admin startproject django_web . >> python manage.py runserver 127.0.0...
1) 이미지 분류 따라해보기 : 네이버 데이터 크롤링! 20초면 끝 -50개까지만 가능 이미지 분류를 위해 샘플데이터를 만들어 보자 MNIST만 맨날 하는 건 지겹지 않은가?? 이번엔 아래와 같이 이미지 분류의 A to Z를 연재하려 한다 1. 이미지 크롤링 2. EfficientNet을 이용한 이미지 분류 3. GradCAM을 통한 XAI 그중 첫 번째, 이미지 크롤링! 아주 쉽다. 본래 아래 url의 구글 이미지 다운로드(!pip install google_images_download)를 사용하면 더 쉬웠지만 구글이 업데이트 과정에 이를 막아놨다. https://pypi.org/project/google_images_download/ google_images_download Python Script to download hundreds of images from 'Google Image..
Django 입문, 한줄한줄 따라하기!! (3) Django 배포하기!!! https://tutorial.djangogirls.org/ko/deploy/ 배포하기! · Django Girls Tutorial Git은 git-scm.com에서 내려받을 수 있습니다. 설치는 쉽답니다. 딱 한 단계만 빼고 기본 설정대로 다음 다음 다음을 계속 눌러주면 쉽게 설치할 수 있어요. 다섯 번째 PATH 환경 설정(Adjusting your PATH en tutorial.djangogirls.org 배포(deployment) : 애플리케이션을 인터넷에 올려 다른 사람들도 볼 수 있게 해주는 것 1. 내 컴퓨터에서 웹서거 배갈 및 테스트 2. GitHub에 업로드 3. GitHub의 코드를 인터넷에 서버에서 업데이트 : PythonAnywhere에 소규모 애플리케이션..