LLM 이전 시대의 AI 시스템 구축기 — BERT와 OCR로 만든 맞춤형 AI 인프라

오늘날에는 LLM과 LangChain을 통해 몇 줄의 코드로 Agent AI를 만들 수 있지만, 불과 몇 년 전만 해도 AI 시스템을 만들기 위해선 모델 학습부터 서버 인프라 세팅까지 직접 해내야 했습니다.

1. 배경

지금처럼 HuggingFace나 LangChain, OpenAI API로 쉽게 AI 파이프라인을 만들기 전에는, 모델 선택 → 데이터 수집·라벨링 → 파인튜닝 → 배포까지 모든 과정을 직접 관리했습니다. 이번 글에서는 그 시절의 AI 구축 사례로 BERT 기반 텍스트 분류 모델과 Korean OCR 모델 파인튜닝 경험을 공유합니다.

2. BERT를 이용한 맞춤형 카테고리 분류

모델: BERT with Fine-tuning 데이터셋: name, sub-category 출력: customized category

텍스트 입력을 기반으로 세부 카테고리를 자동 분류하는 모델을 설계했습니다.

3. OCR 모델 파인튜닝

라이브러리: EasyOCR GitHub: https://github.com/jaidedai/easyocr 인프라: AWS EC2 학습: 기존 Korean OCR 모델 파인튜닝 (epoch 300,000 / 23시간 소요)

4. Workflow

모델 선택
데이터셋 로드
- 라벨링
- 사내 데이터 소스
모델 세팅 (참고 링크)
- Transformation: None
- Prediction: CTC
- Sequence modeling stage: BiLSTM
- Vision: VGG

5. 지금과 비교

이 과정은 데이터 수집, 전처리, 모델 학습, 서버 배포까지 모든 것을 수작업으로 해야 했습니다. 반면, 지금은 LangChain과 LLM API를 활용하면 몇 줄의 코드만으로 에이전트를 만들고, 데이터 파이프라인을 연결할 수 있습니다.

Lesson Learned: 과거의 경험 덕분에 모델 내부 구조, 데이터 품질, 학습 과정에 대한 이해가 깊어졌고, 지금도 LLM 활용 시 구조 설계에 큰 도움이 됩니다.

'데이터 엔지니어링 > AI' 카테고리의 다른 글

대량의 PDF 문서, 어떻게 vector DB에 적재할까? (0)	2025.08.24
[VectorDB] Anthropic 전략, Contextual Retrieval 성능측정 (1)	2025.08.20
[AI-Vector DB]DB가 다르면 결과가 다르게 나온다고? 직접 해보자 (4)	2025.08.13
호옥시... tmux 아세요? 옛날에 tmux로 여러 ai model 훈련시킨... (1)	2025.08.11

어텀의 블로그

예전에는 이렇게 ai를 했었다.

LLM 이전 시대의 AI 시스템 구축기 — BERT와 OCR로 만든 맞춤형 AI 인프라

1. 배경

2. BERT를 이용한 맞춤형 카테고리 분류

3. OCR 모델 파인튜닝

4. Workflow

5. 지금과 비교

'데이터 엔지니어링 > AI' 카테고리의 다른 글

티스토리툴바

예전에는 이렇게 ai를 했었다.

1. 배경

2. BERT를 이용한 맞춤형 카테고리 분류

3. OCR 모델 파인튜닝

4. Workflow

5. 지금과 비교

'데이터 엔지니어링 > AI' 카테고리의 다른 글

관련글

티스토리툴바