본문 바로가기
데이터 엔지니어링/AI

예전에는 이렇게 ai를 했었다.

by blog_autumn 2025. 8. 11.

LLM 이전 시대의 AI 시스템 구축기 — BERT와 OCR로 만든 맞춤형 AI 인프라

오늘날에는 LLM과 LangChain을 통해 몇 줄의 코드로 Agent AI를 만들 수 있지만, 불과 몇 년 전만 해도 AI 시스템을 만들기 위해선 모델 학습부터 서버 인프라 세팅까지 직접 해내야 했습니다.

1. 배경

지금처럼 HuggingFace나 LangChain, OpenAI API로 쉽게 AI 파이프라인을 만들기 전에는, 모델 선택 → 데이터 수집·라벨링 → 파인튜닝 → 배포까지 모든 과정을 직접 관리했습니다. 이번 글에서는 그 시절의 AI 구축 사례로 BERT 기반 텍스트 분류 모델Korean OCR 모델 파인튜닝 경험을 공유합니다.

 

2. BERT를 이용한 맞춤형 카테고리 분류

모델: BERT with Fine-tuning 데이터셋: name, sub-category 출력: customized category

텍스트 입력을 기반으로 세부 카테고리를 자동 분류하는 모델을 설계했습니다.

3. OCR 모델 파인튜닝

라이브러리: EasyOCR GitHub: https://github.com/jaidedai/easyocr 인프라: AWS EC2 학습: 기존 Korean OCR 모델 파인튜닝 (epoch 300,000 / 23시간 소요)

4. Workflow

  1. 모델 선택
  2. 데이터셋 로드
    • 라벨링
    • 사내 데이터 소스
  3. 모델 세팅 (참고 링크)
    • Transformation: None
    • Prediction: CTC
    • Sequence modeling stage: BiLSTM
    • Vision: VGG

5. 지금과 비교

이 과정은 데이터 수집, 전처리, 모델 학습, 서버 배포까지 모든 것을 수작업으로 해야 했습니다. 반면, 지금은 LangChain과 LLM API를 활용하면 몇 줄의 코드만으로 에이전트를 만들고, 데이터 파이프라인을 연결할 수 있습니다.

Lesson Learned: 과거의 경험 덕분에 모델 내부 구조, 데이터 품질, 학습 과정에 대한 이해가 깊어졌고, 지금도 LLM 활용 시 구조 설계에 큰 도움이 됩니다.