혼합단, 표 안의 표, 머리글·각주가 섞인 한국형 PDF도
OCR 없이 텍스트 레이어 기반으로 '읽기 흐름'에 맞춰 해독해
LLM이 쓰기 좋은 텍스트로 변환합니다.
Problem
다단 + 표 + 이미지가 혼재하면 읽기 순서가 붕괴됩니다.
중첩 표와 병합 셀이 테이블의 의미 구조를 붕괴시킵니다.
반복 헤더와 각주가 본문에 섞여 노이즈가 폭증합니다.
한글 중심 폰트와 독특한 문서 습관이 추출 품질 편차를 만듭니다.
그래서 "추출"이 아니라 구조 복원 + 노이즈 제어가 필요합니다.
Core Value
사람이 읽는 흐름에 맞춰 문단을 재구성합니다. 혼합단에서도 논리적 순서를 유지합니다.
중첩 표와 병합 셀의 의미 구조를 유지합니다. 표의 맥락이 살아있는 결과물을 제공합니다.
본문·표·각주·머리글을 분리해 RAG 파이프라인의 노이즈를 줄입니다.
Features
혼합단/다단에서도 읽기 순서로 텍스트를 재구성합니다.
표 안의 표, 병합 셀까지 구조를 유지합니다.
머리글/바닥글/각주를 본문에서 분리해 품질을 높입니다.
수백 페이지도 Job API로 처리하며, 상태 조회와 취소를 지원합니다.
원문 특정 영역을 이미지로 변환해 검수 및 근거 제시를 지원합니다.
Performance
자사 벤치마크 기준
초고속 해독으로 실시간 서비스(대화형 / RAG 검색형)에 적용 가능
대용량 문서도 병렬 처리로 빠르게 완료합니다.
처리 중 오류가 나도 전체 서비스 영향이 최소화되도록 설계했습니다.
Delivery
불특정 다수 대상이 아니라 계약된 기업에 한해 전용 서버(독립 인스턴스)를 구축하고, 해당 환경에서 API 사용량을 계량해 안정적으로 제공합니다.
데이터와 트래픽이 완전히 분리된 전용 인스턴스를 제공합니다.
페이지 / 요청 / 처리량 기준으로 투명하게 과금합니다.
계약 범위 내에서 운영과 업데이트 정책이 포함됩니다.