인프라 및 DevOps 환경 구축
Prometheus+Grafana 모니터링, 이상치 데이터 자동 수집, CI/CD 및 Docker 배포 표준화
배경
전국 20개 이상 현장에 납품된 온프레미스 장비의 상태를 원격으로 파악할 수 없어, 장애가 발생해야 비로소 인지하는 사후 대응 방식이었습니다. AI 모델 개선을 위한 이상치 데이터도 수동으로 수집하고 있어 누락이 빈번했고, 수동 배포와 이슈 트래킹 부재로 릴리스 과정에서 휴먼 에러가 반복되었습니다.
해결 과정
모니터링 인프라 (Phase 7): Prometheus + Grafana 기반으로 하드웨어 상태, 카메라 온도/FPS, CPU/GPU 연산량 메트릭을 수집하는 실시간 대시보드를 구축했습니다. 임계값 기반 Slack 알림을 연동하고, Sentry 에러 추적과 구조화 로깅(JSON format)을 도입하여 장애 징후를 사전에 감지하고 선제 대응할 수 있는 체계를 마련했습니다.
데이터 수집 자동화: FastAPI + Socket.IO 기반 실시간 이상치 데이터 수집 시스템을 구축했습니다. 온프레미스 장비에서 자동으로 특이 데이터를 감지하여 중앙 서버로 전송하는 구조로, 수동 수집을 자동화하고 데이터 누락을 방지했습니다.
CI/CD 및 배포 표준화: Jira 기반 프로젝트 관리 체계를 도입하고, GitHub Actions CI/CD 파이프라인(lint + 자동 테스트)을 구축했습니다. Docker Compose 기반 온프레미스 배포를 표준화하여 리소스 제한, 로깅, 헬스체크를 적용했습니다.
개발 워크플로우 자동화 (AIO Webhook): GitHub PR 이벤트를 Slack 알림 + Notion 태스크로 자동 변환하는 3플랫폼 연동 서비스를 별도로 개발했습니다. HMAC-SHA256 서명 검증, Celery 비동기 처리, 크로스 플랫폼 사용자 자동 매핑(이메일/이름 기반)을 구현하고 Kubernetes 2 replica로 프로덕션 배포했습니다.
성과
- 원격에서 전국 20개 이상 장비 상태 실시간 모니터링, 장애 대응이 사후적 → 선제적으로 전환
- 이상치 데이터 자동 수집으로 AI 모델 학습 데이터 품질 향상
- CI/CD 자동화로 배포 전 버그 사전 발견, Jira 체계적 이슈 관리로 팀 업무 가시성 확보
- 3플랫폼(GitHub, Slack, Notion) 연동 웹훅 서비스로 리뷰 요청 누락 방지 및 개발 워크플로우 자동화