OCR 정리
OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다
현실에서 굉장히 쓸 일이 많다
그래서 아래 2단계로 진행이 된다
1) 'Text Localization' : 사진에서 텍스트 위치를 찾음
2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다
OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf
Training dataset : 이미지 1000개 & 라벨 1000개
- 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4)
Test dataset : 500개
OCR 공부해보기
1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다
- https://github.com/hwalsuklee/awesome-deep-text-detection-recognition
- FOTS: Fast Oriented Text Spotting with a Unified Network 논문이 가장 성능이 좋다(CVPR18)
- 파이토치 코드 오픈
- 논문 : https://arxiv.org/pdf/1801.01671.pdf
- 코드 : https://github.com/jiangxiluning/FOTS.PyTorch
-비디오 : https://www.youtube.com/watch?v=F7TTYlFr2QM
2. Tesseract OCR engine, 무료 ocR(파이썬 가능)
- 파이썬 Tesseract 를 이용해서 이미지에서 OCR
1) https://niceman.tistory.com/157?category=1009824
파이썬(Python) - 머신러닝 프로젝트(2) - OCR 이미지 문자열 추출(파이썬)
파이썬 Tesseract - 프로젝트 설명 OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 두번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미
niceman.tistory.com
Python에서 Tesseract 사용하기 for OCR
Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝
junyoung-jamong.github.io
3. 데이타 라벨링
imglab을 이용하여 직접 라벨링 한다
Reference
https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf
https://github.com/hwalsuklee/awesome-deep-text-detection-recognition