AWS4 대량의 PDF 문서, 어떻게 vector DB에 적재할까? 오늘은 참 황당한 일이 생겼다.700페이지가 넘는 PDF 문서를 Knowledge Base에 넣어야 한다는 미션이 떨어졌다.원본 파일은 어디에…?PDF to 텍스트 문서 export기능을 사용했다. 에러가 발생했다...어.. 왜 안되지... 이게 되어야하는데.. 혹시 몰라서 다른 부서에 물어봤다.“혹시 원본 워드 파일 있으신가요…?” 돌아온 답은 씁쓸했다. 최근 문서는 있지만 예전 문서는 없다.담당자도 바뀌었고, 예전에는 템플릿(이미지)만 두고 필요한 부분만 수정해서 쓰곤 했다.외부 문서는 대부분 우편으로 받아 스캔한 것이라 원본은 아예 없다.결국, 내가 가진 건 이미지 기반 PDF뿐이었다.이제 OCR 없이는 방법이 없다.시도해본 OCR들1. 어도비(Adobe)“비싼 기업용 솔루션이니 잘 되겠지?”(디.. 2025. 8. 24. (데옵) 데이터 몇 명이나 본다고 돈을 이만큼 써? (data) 오픈소스로 직접 해봤다![Airbyte] 데이터팀의 Airbyte 데이터 마이그레이션 서비스 실험기데***팀에서는 "왜 굳이 데이터 마이그레이션 서비스를 써야 하냐. 그냥 데이터 엔지니어가 필요할때마다 뽑아서 주면 되는거 아니야"는 DMS의 불필요성 의문을 제기함 고민 끝에 오픈소스를 살펴보기로 했던 이야기입니다.지금이라면 반박하겠지만 그땐 1인팀이고 데이터 직무 초반이라서 다른 방법을 찾아야 하는줄만 알았다.그때 그 데브옵스 팀장님... 그분나가심그래도 이거 해봤다💡 When I searched data community, I saw many mention data migration service with SNS integration.1. Infra Build — Airbyte 설치git clone https://github.com/airb.. 2025. 8. 11. ELK with AWS's EC2, 아무것도 모르고 하라고 해서 한것 AWS EC2를 활용한 ELK 시스템 설치 시도기Windows 환경 개발자가 AWS EC2 Linux에서 ELK를 설치하며 겪은 기록과 배운 점1. AWS EC2를 활용한 이유개인 노트북이 Windows OS 환경이기 때문에, Linux 기반 설치와 운영 테스트를 위해 AWS EC2를 활용했습니다.2. ELK란 무엇인가?ELK는 ElasticSearch + Logstash + Kibana의 조합입니다.ElasticSearch: 로그를 저장하는 데이터베이스Logstash: 클라우드 내에서 발생하는 로그를 ElasticSearch에 전달하는 파이프라인Kibana: 브라우저에서 데이터를 시각화하고 탐색하는 도구3. 기존 데이터 처리 방식과 한계이전에는 Python으로 데이터를 추출·저장(MySQL), AI 모.. 2025. 8. 11. EC2, aurora-Mysql, LINUX_Ubuntu 동기 회사에서 AWS RDS를 통해 시스템 DB를 구축하는 것을 보았고, 1년간 일부 기능을 무료로 사용할 수 있었기에 자체적으로 실습해봄Tools AWS(mysql, workbench, putty) laptop(window)내용 aws 계정 가입 EC2(AWS로 부터 컴퓨터를 빌리는 것) 생성 linux_Ubuntu를 사용. rds(관계형 데이터베이스 시스템)중 Mysql을 생성 AWS aurora는 사용량에 따라 요금 및 용량을 자동으로 조절하여 DB의 bump을 방지할 수 있는 기능이 있음. AWS AURORA를 사용해보았으나 input과 output의 2가지 기능을 따로 분리하는 DB가 자동으로 생성되었음. 해당 부분의 경험이 없었기에.. 2025. 8. 10. 이전 1 다음