본문 바로가기

AI/영상인식(Vision)

OCR 정리

OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다

현실에서 굉장히 쓸 일이 많다

그래서 아래 2단계로 진행이 된다

1) 'Text Localization' : 사진에서 텍스트 위치를 찾음

2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다

 

 

OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

 

Training dataset : 이미지 1000개 & 라벨 1000개

    - 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4)

Test dataset : 500개

 

ICDAR 2015 OCR 데이터셋 구성

 

 

왼쪽 이미지와 오른쪽 라벨로 구성

 

 

오른쪽 사진 속 글자들의 위치, 텍스트가 기입되어 있음

 

 

 

 

OCR 공부해보기

1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다

- https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

- FOTS: Fast Oriented Text Spotting with a Unified Network 논문이 가장 성능이 좋다(CVPR18) 

   - 파이토치 코드 오픈

      - 논문    : https://arxiv.org/pdf/1801.01671.pdf

      - 코드    : https://github.com/jiangxiluning/FOTS.PyTorch

      -비디오 : https://www.youtube.com/watch?v=F7TTYlFr2QM

 

2. Tesseract OCR engine, 무료 ocR(파이썬 가능)

    - 파이썬 Tesseract  이용해서 이미지에서 OCR

   1) https://niceman.tistory.com/157?category=1009824

 

파이썬(Python) - 머신러닝 프로젝트(2) - OCR 이미지 문자열 추출(파이썬)

파이썬 Tesseract - 프로젝트 설명 OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 두번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미

niceman.tistory.com

    2) https://junyoung-jamong.github.io/computer/vision,/ocr/2019/01/30/Python%EC%97%90%EC%84%9C-Tesseract%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%B4-OCR-%EC%88%98%ED%96%89%ED%95%98%EA%B8%B0.html

 

Python에서 Tesseract 사용하기 for OCR

Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝

junyoung-jamong.github.io

 

3. 데이타 라벨링

imglab 이용하여 직접 라벨링 한다

https://www.google.com/imgres?imgurl=https%3A%2F%2Fi.ytimg.com%2Fvi%2F4yLL21weN8w%2Fmaxresdefault.jpg&imgrefurl=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3D4yLL21weN8w&docid=2urGEk2AIs5ytM&tbnid=FEjDIXiHC56lcM%3A&vet=10ahUKEwj55t2D4NHhAhWHHHAKHUs8Bz4QMwg-KAAwAA..i&w=1280&h=720&bih=846&biw=1388&q=imglab%20custom%20dataset&ved=0ahUKEwj55t2D4NHhAhWHHHAKHUs8Bz4QMwg-KAAwAA&iact=mrc&uact=8

 

 

 

 

Reference

https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition