LLM 이전 시대의 AI 시스템 구축기 — BERT와 OCR로 만든 맞춤형 AI 인프라
오늘날에는 LLM과 LangChain을 통해 몇 줄의 코드로 Agent AI를 만들 수 있지만, 불과 몇 년 전만 해도 AI 시스템을 만들기 위해선 모델 학습부터 서버 인프라 세팅까지 직접 해내야 했습니다.
1. 배경
지금처럼 HuggingFace나 LangChain, OpenAI API로 쉽게 AI 파이프라인을 만들기 전에는, 모델 선택 → 데이터 수집·라벨링 → 파인튜닝 → 배포까지 모든 과정을 직접 관리했습니다. 이번 글에서는 그 시절의 AI 구축 사례로 BERT 기반 텍스트 분류 모델과 Korean OCR 모델 파인튜닝 경험을 공유합니다.
2. BERT를 이용한 맞춤형 카테고리 분류
모델: BERT with Fine-tuning 데이터셋: name, sub-category 출력: customized category
텍스트 입력을 기반으로 세부 카테고리를 자동 분류하는 모델을 설계했습니다.
3. OCR 모델 파인튜닝
라이브러리: EasyOCR GitHub: https://github.com/jaidedai/easyocr 인프라: AWS EC2 학습: 기존 Korean OCR 모델 파인튜닝 (epoch 300,000 / 23시간 소요)
4. Workflow
- 모델 선택
- 데이터셋 로드
- 라벨링
- 사내 데이터 소스
- 모델 세팅 (참고 링크)
- Transformation: None
- Prediction: CTC
- Sequence modeling stage: BiLSTM
- Vision: VGG
5. 지금과 비교
이 과정은 데이터 수집, 전처리, 모델 학습, 서버 배포까지 모든 것을 수작업으로 해야 했습니다. 반면, 지금은 LangChain과 LLM API를 활용하면 몇 줄의 코드만으로 에이전트를 만들고, 데이터 파이프라인을 연결할 수 있습니다.
Lesson Learned: 과거의 경험 덕분에 모델 내부 구조, 데이터 품질, 학습 과정에 대한 이해가 깊어졌고, 지금도 LLM 활용 시 구조 설계에 큰 도움이 됩니다.

'데이터 엔지니어링 > AI' 카테고리의 다른 글
| 대량의 PDF 문서, 어떻게 vector DB에 적재할까? (0) | 2025.08.24 |
|---|---|
| [VectorDB] Anthropic 전략, Contextual Retrieval 성능측정 (1) | 2025.08.20 |
| [AI-Vector DB]DB가 다르면 결과가 다르게 나온다고? 직접 해보자 (4) | 2025.08.13 |
| 호옥시... tmux 아세요? 옛날에 tmux로 여러 ai model 훈련시킨... (1) | 2025.08.11 |