tensorflow로 OCR 개발기

By Aria on September 4, 2018

모델 개발을 위한 초석

tf.test.TestCase

기본 모델 구현 + test case 작성 ➔ dataset 및 input pipeline 작성 ➔ dataset으로 돌려보고 에러 잡기

난이도별 단계별 dataset

기본 모델을 만들 때,
- 모델의 각 모듈을 간단히 테스트할 수 있는 테스트 케이스를 만들자.
- 데이터셋을 작게 지정해서 실험하자.
- 런타임 도중 오류가 나는 것은 tf.Print로 디버깅하자.
기본 모델이 돌아가기 시작하면,
- 여러 모델 구조와 dataset으로 실험을 하면서 최적의 set을 찾자.
- 물론 새로 만드는 모듈들에 대한 테스트케이스도 필요하다.

Why CNN?

Why RNN?

Why CTC?

No explicit alignment
한 글자에 해당하는 이미지가 어디부터 어디까지 일까?
‘대충 10px’ 이런 규칙은 쉽게 망가진다.
설명 변수와 예측 변수 사이의 관계 정렬이 되어있지 않을 때 사용한다.
그렇다면 어떻게 할까?
먼저 매 timestep 마다 결과값을 예측한 후에,
1. Collapse repeats
2. Remove blank tokens
3. Finish
확률은 어떻게 계산될까?
CTC Loss: Dynamic programming으로 all possible combinations을 구해 확률 계산.

Conditional independence assumption
Pooling size 제한: 이미지를 압축하기 위해 pooling을 많이 하는데, 글자를 인식하기 위해서는 사이즈를 많이 줄일 수 없다. 어쩔 수 없이 feature map 사이즈가 커지게 된다.

vanilla CNN에 비해 더 큰 수용장
self-attention: feature끼리 더 많은 정보를 공유하게 하면서 병렬적으로 계산을 할 수 있음.
➔ LSTM을 없애보기 위한 시도

속도를 향상시키는건 성공, 하지만 output의 정확도가 많이 떨어지게 되었다.