OCR 정리

OCR은 사진에서 텍스트위 위치를 찾고, 찾은 텍스트위치에서 글자를 추출하는 알고리즘이다

현실에서 굉장히 쓸 일이 많다

그래서 아래 2단계로 진행이 된다

1) 'Text Localization' : 사진에서 텍스트 위치를 찾음

2) 'Text Segmentation&Recognition' : Localization으로 찾은 부분에서 background와 글자를 segmentation 하고 글자를 인식한다

OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

Training dataset : 이미지 1000개 & 라벨 1000개

- 라벨 : (x1, y1), (x2, y2), (x3, y3), (x4, y4)

Test dataset : 500개

OCR 공부해보기

1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다

- https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

- FOTS: Fast Oriented Text Spotting with a Unified Network 논문이 가장 성능이 좋다(CVPR18)

- 파이토치 코드 오픈

- 논문 : https://arxiv.org/pdf/1801.01671.pdf

- 코드 : https://github.com/jiangxiluning/FOTS.PyTorch

-비디오 : https://www.youtube.com/watch?v=F7TTYlFr2QM

2. Tesseract OCR engine, 무료 ocR(파이썬 가능)

- 파이썬 Tesseract 를 이용해서 이미지에서 OCR

1) https://niceman.tistory.com/157?category=1009824

파이썬(Python) - 머신러닝 프로젝트(2) - OCR 이미지 문자열 추출(파이썬)

파이썬 Tesseract - 프로젝트 설명 OCR 추출 부터 이어지는 머신러닝을 활용한 프로젝트 두번 째 포스팅 입니다. 제가 진행하는 프로젝트는 SMS로 수신되는 다양한 이미지 스팸(SPAM) 광고 문자(이미

niceman.tistory.com

2) https://junyoung-jamong.github.io/computer/vision,/ocr/2019/01/30/Python%EC%97%90%EC%84%9C-Tesseract%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%B4-OCR-%EC%88%98%ED%96%89%ED%95%98%EA%B8%B0.html

Python에서 Tesseract 사용하기 for OCR

Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝

junyoung-jamong.github.io

3. 데이타 라벨링

imglab을 이용하여 직접 라벨링 한다

https://www.google.com/imgres?imgurl=https%3A%2F%2Fi.ytimg.com%2Fvi%2F4yLL21weN8w%2Fmaxresdefault.jpg&imgrefurl=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3D4yLL21weN8w&docid=2urGEk2AIs5ytM&tbnid=FEjDIXiHC56lcM%3A&vet=10ahUKEwj55t2D4NHhAhWHHHAKHUs8Bz4QMwg-KAAwAA..i&w=1280&h=720&bih=846&biw=1388&q=imglab%20custom%20dataset&ved=0ahUKEwj55t2D4NHhAhWHHHAKHUs8Bz4QMwg-KAAwAA&iact=mrc&uact=8

Reference

https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

저작자표시 비영리 변경금지

'AI > 영상인식(Vision)' 카테고리의 다른 글

(이미지 분류 고급) 1_대선후보 이미지 자동 크롤링! 무한개까지 (4)	2022.04.05
(이미지 분류 고급) 2_EfficientNet을 이용한 대선후보 분류 Hands-On (18)	2020.06.15
1) 이미지 분류 따라해보기 : 네이버 데이터 크롤링! 20초면 끝 -50개까지만 가능 (0)	2020.05.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI, NLP를 연구하는 엔지니어

OCR 정리

OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

OCR 공부해보기

1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다

2. Tesseract OCR engine, 무료 ocR(파이썬 가능)

3. 데이타 라벨링

Reference

'AI > 영상인식(Vision)' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

OCR 정리

OCR 데이터셋 - ICDAR 2015 - https://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf

OCR 공부해보기

1. 이활석님의 OCR 정리 깃헙이 정말 잘되있다. 추천한다

2. Tesseract OCR engine, 무료 ocR(파이썬 가능)

3. 데이타 라벨링

Reference

'AI > 영상인식(Vision)' 카테고리의 다른 글

'AI/영상인식(Vision)' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역