한컴 데이터 로더

한컴 데이터 로더 문서 데이터 추출 SDK for AI

한컴 데이터 로더는 RAG(Retrieval-Augmented Generation) 솔루션 구축을 위한 핵심 기술로서 다양한 형식의 문서 서식을 효과적으로 데이터화하여 목적에 맞게 활용할 수 있도록 지원해 주는 문서 데이터 추출 SDK입니다.

  • 문서 내 정확한
    데이터 추출 및 분리
  • 문서를 의미단위로 구분하기 위한
    메타 데이터 추출
  • json, csv 등의 포맷 형식
    지원을 통한 다양한 활용성

한컴의 AI 문서 데이터 추출 기술

문서 내 텍스트·표·차트·이미지를 효과적으로 데이터화하여, AI 학습RAG 솔루션을 위한 메타 데이터로 제공합니다.

메타 데이터 종류

Passage Meta Data
  • 페이지번호, 위치, 문단 정보 등
  • 문서 관련 메타 정보 (수정날짜 등)
텍스트
  • 텍스트 추출
  • 문단/테이블/머리말/꼬리말 등 문서 레이아웃별 텍스트처리
  • 다단 형태별 구분
테이블
  • 행/열 병합 셀 구분 및 처리
  • 표 안의 표 구분 및 처리
  • 페이지내 나눠진 연결된 표 정보인식
  • 경계선 없는 표 인식 처리
이미지
  • 이미지화 된 텍스트 및 테이블 정보 추출
  • 이미지 검색을 위한 메타 정보

한컴 데이터 로더는 RAG 솔루션 구축의 핵심 기술로서 전처리(LOAD - SPLIT) 과정에서의 정확도 및 공정 시간을 획기적으로 개선해 줍니다.

RAG 솔루션 구축의 핵심 기술 설명 이미지

닫기