OCR 정리

AI/영상인식(Vision)

keep-steady 2020. 6. 24. 17:19

OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다

현실에서 굉장히 쓸 일이 많다

그래서 아래 2단계로 진행이 된다

1) 'Text Localization' : 사진에서 텍스트 위치를 찾음

2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다

Training dataset : 이미지 1000개 & 라벨 1000개

- 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4)

Test dataset : 500개

- 파이토치 코드 오픈

- 파이썬 Tesseract 를 이용해서 이미지에서 OCR

파이썬(Python) - 머신러닝 프로젝트(2) - OCR 이미지 문자열 추출(파이썬)

파이썬 Tesseract - 프로젝트 설명 OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 두번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미

niceman.tistory.com

Python에서 Tesseract 사용하기 for OCR

Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝

junyoung-jamong.github.io

imglab을 이용하여 직접 라벨링 한다

Reference