한컴 데이터 로더
문서 데이터 추출 SDK for AI
한컴 데이터 로더는 RAG(Retrieval-Augmented Generation) 솔루션 구축을 위한 핵심 기술로서 다양한 형식의 문서 서식을 효과적으로 데이터화하여 목적에 맞게 활용할 수 있도록 지원해 주는 문서 데이터 추출 SDK입니다.
- 문서 내 정확한
데이터 추출 및 분리
- 문서를 의미단위로 구분하기 위한
메타 데이터 추출
- json, csv 등의 포맷 형식
지원을 통한 다양한 활용성
한컴의 AI 문서 데이터 추출 기술
문서 내 텍스트·표·차트·이미지를 효과적으로 데이터화하여, AI 학습 및 RAG 솔루션을 위한 메타 데이터로 제공합니다.
메타 데이터 종류
Passage Meta Data
- 페이지번호, 위치, 문단 정보 등
- 문서 관련 메타 정보 (수정날짜 등)
텍스트
- 텍스트 추출
- 문단/테이블/머리말/꼬리말 등 문서 레이아웃별 텍스트처리
- 다단 형태별 구분
테이블
- 행/열 병합 셀 구분 및 처리
- 표 안의 표 구분 및 처리
- 페이지내 나눠진 연결된 표 정보인식
- 경계선 없는 표 인식 처리
이미지
- 이미지화 된 텍스트 및 테이블 정보 추출
- 이미지 검색을 위한 메타 정보
한컴의 AI 데이터 특화 기술
한컴 데이터 로더는
RAG 솔루션 구축의 핵심 기술로서 전처리(LOAD - SPLIT) 과정에서의 정확도 및 공정 시간을 획기적으로 개선해 줍니다.