본문 바로가기
데이터 엔지니어링/AI

대량의 PDF 문서, 어떻게 vector DB에 적재할까?

by blog_autumn 2025. 8. 24.

오늘은 참 황당한 일이 생겼다.

700페이지가 넘는 PDF 문서를 Knowledge Base에 넣어야 한다는 미션이 떨어졌다.


원본 파일은 어디에…?

PDF to 텍스트 문서 export기능을 사용했다. 에러가 발생했다...

어.. 왜 안되지... 이게 되어야하는데..

 

 

혹시 몰라서 다른 부서에 물어봤다.

“혹시 원본 워드 파일 있으신가요…?”

 

돌아온 답은 씁쓸했다.

 

  • 최근 문서는 있지만 예전 문서는 없다.
  • 담당자도 바뀌었고, 예전에는 템플릿(이미지)만 두고 필요한 부분만 수정해서 쓰곤 했다.
  • 외부 문서는 대부분 우편으로 받아 스캔한 것이라 원본은 아예 없다.

결국, 내가 가진 건 이미지 기반 PDF뿐이었다.

이제 OCR 없이는 방법이 없다.


시도해본 OCR들

1. 어도비(Adobe)

“비싼 기업용 솔루션이니 잘 되겠지?”

(디자이너들 빵먹으러 간다고 노트북 빈다길래 빌려서 돌려봤다.)

그런데 결과는… 망했다.

 

  • 한국어는 아예 인식이 안 되고
  • 괴상하게 영어로 변환되거나
  • 문장이 다 끊겨버린다.

 

이럴 거면 그냥 내가 키보드로 치는 게 더 빠를 뻔했다.

 


2. 웹에서 검색한 OCR 서비스

 

검색해서 이것저것 써봤다.

근데 대부분 유료 결제가 필요했고,

무료 샘플을 돌려본 결과도 별로였다.

 

게다가 우리 데이터팀은 예산이 없다… 😅

1인팀이라 그런가... 내가 돈 필요하면 어필하는 능력이 없나보다..

돈 들어간다 그러면 오픈소스로 찾아보는게 습관이 된것같다. 

스타트업 출신이면 이런가...


 

3. Claude/Haiku 이미지  to 텍스트 모델

그러다가 우연히 발견했다.

AWS Bedrock KB에 PDF를 넣었는데,

Claude나 Haiku 모델을 쓰면 잘 들어가는 것이다.

 

“엥? 이게 왜 되지?” 싶어서 콘솔을 살펴봤는데,

알고 보니 이미지를 텍스트로 바꾸는 OCR 모델이 뒤에서 돌고 있었다.

 


결국 찾은 답

 

그래서 직접 Image-to-Text 모델을 찾아서 로컬에서 돌려봤다.

표는 줄글로 변환해서 넣었고,

프롬프트도 조금 손질했다.

 

결과는… 성공적! 🎉

드디어 700페이지 PDF를 깔끔하게 텍스트로 추출할 수 있었다.

 


후기와 팁

혹시 나처럼 이미지 PDF 때문에 고생하는 분들이라면,

  • Image-to-Text 조합을 강력 추천한다.
  • 양이 많으면 hugginface에서 모델 뽑아쓰면 좋다. 요즘 이분들 성능 좋다.

 

단, 참고할 점이 있다.

2025년 8월 기준으로 한국 리전에서 AWS Sonnet 4.0 모델은 리밋이 자주 걸린다.

특히 오후 3시쯤.

아마 미국 사람들이 그 시간쯤 일어나서 GPU를 쓰기 시작해서 그런 게 아닐까 싶다. 🤔

 


오늘도 삽질은 했지만, 결국 답은 찾았다.

앞으로 이런 PDF OCR 미션이 오더라도 이제는 조금 덜 걱정할 수 있을 것 같다.