CNN 알고리즘이 anchor를 활용하는지에 따라 다를 것 같습니다.
제품에서 인식 가능한 파일의 형식과 포멧은 미리 정의되어 있습니다. 자세한 내용은 메일로 문의부탁드립니다.
안녕하세요. 이미지의 전처리과정을 사람이 처리한 사례는 아직 없었습니다. 다만 AI의 특성상 데이터에 영향이 크기 때문에 전처리에 실수가 있다면 인식율에도 악영향을 미칠 것으로 예상됩니다.
필기체의 경우 이미지 만으로 정확한 글씨를 인식하기 어려운 측면이 있습니다. 이럴 경우 오탈자를 단어사전을 통해 보정하거나 문맥을 활용하여 수정하는 등의 추가 보완 장치가 필요합니다.
현재는 영어, 한국어에 대해서만 가능합니다.
트윈리더에서는 입력된 문서의 종류를 분류하는 기능을 제공합니다.
정형 문서에서는 표가 존재하는 영역을 추출하고 구조를 파악하는 수준에서 레이아웃 분석을 하고 있습니다.
비정형 문서에서 정보의 추출은 아직 제공하지 않습니다. 현재 NLP기술을 이용하여 정보를 추출하는 연구를 진행하고 있습니다.
시스템에서 일부 이미지만 사용하겠다고 미리 정의내리면 가능합니다.
위치를 찾고 문자화하는 부분은 CNN 기반의 텍스트 인식 알고리즘을 활용합니다.
문서에서 정보를 추출해야 하는 업무 중 단순반복업무로 업무의 난이도는 높지 않지만 처리할 데이터가 많아 인건비 부담이 큰 분야가 적합합니다.
애자일소다의 AI OCR은 단순히 글씨를 읽는 기능뿐만아니라 정형화된 형태로 데이터를 추출하는 기능까지 제공합니다.
다양한 문서로 구성된 검증데이터를 이용하여 인식률을 테스트합니다. 텍스트의 위치를 제대로 찾는지 텍스트는 정확히 읽고 있는지, 원하는 정보를 제대로 추출하는 지를 정량적으로 체크합니다.
AI를 이용한 OCR에서는 텍스트의 위치가 어디에 있던 텍스트 인식이 가능합니다. 다만 의미있는 정보를 추출할 때 위치 정보가 불규칙적이라면 NLP기술을 활용하여 정보를 얻을 수 있도록 데이터가 구성되어야 합니다.
낮은 해상도를 보강처리하는 선처리를 제공하지는 않습니다. 주어진 이미지에서 노이즈제거나 이진화 등으로 인식률향상을 위한 선처리를 진행합니다.
AI의 특성상 다양한 데이터를 학습할수록 여러 문서들을 인식할 수 있습니다. 최대한 다양한 이미지들을 학습시켜서 인식률을 높이려는 노력을 하고 있고 100%인식은 어렵기 때문에 추가적인 보완장치를 이용하여 인식결과를 보정하고 있습니다.