OCR 정리
OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다
현실에서 굉장히 쓸 일이 많다
그래서 아래 2단계로 진행이 된다
1) 'Text Localization' : 사진에서 텍스트 위치를 찾음
2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다
OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf
Training dataset : 이미지 1000개 & 라벨 1000개
- 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4)
Test dataset : 500개
OCR 공부해보기
1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다
- https://github.com/hwalsuklee/awesome-deep-text-detection-recognition
- FOTS: Fast Oriented Text Spotting with a Unified Network 논문이 가장 성능이 좋다(CVPR18)
- 파이토치 코드 오픈
- 논문 : https://arxiv.org/pdf/1801.01671.pdf
- 코드 : https://github.com/jiangxiluning/FOTS.PyTorch
-비디오 : https://www.youtube.com/watch?v=F7TTYlFr2QM
2. Tesseract OCR engine, 무료 ocR(파이썬 가능)
- 파이썬 Tesseract 를 이용해서 이미지에서 OCR
1) https://niceman.tistory.com/157?category=1009824
3. 데이타 라벨링
imglab을 이용하여 직접 라벨링 한다
Reference
https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf
https://github.com/hwalsuklee/awesome-deep-text-detection-recognition