Search

처음부터 ‘딸깍’은 아니다: AI와 함께한 데이터 환경 구축기

URL
생성 일시
2026/02/19 02:06
최종 편집 일시
2026/02/19 02:06
태그
딜라이트룸
파일과 미디어
|| AI를 뺄래야 뺄수가 없다 요즘 링크드인, 뉴스, SNS 등 뭘 틀어도 AI를 안볼래야 안볼수가 없을 정도로 모두의 화두가 되고 있는데 현실인데요. 솔직히 말하면 너무 많은 이야기가 오가고 하루 아침에 바뀌는것도 많아 약간은 어지러운 것도 사실입니다. 약간의 여담을 덧붙히자면… 개인적으로 약간의 마이너 감성이 있어서 아바타 & 오징어 게임도 안보고, 스타트업(?)에서 일하고 있는데, 몇년 전부터 음지에서 몰래몰래 사람들과 공부하던 Attention, GPT, RL 등이 너무 메이저가 되버려서, 갑자기 유명해진 나만의 인디가수를 바라보는 심경이 약간 들기도 합니다,,, 본론으로 돌아와서… 이번에 새롭게 딜라이트룸 내부의 DARO 서비스를 위한 분석계를 구축하고, 분석 환경을 운영하는 과정에서 클로드 코드와 함께 고민하고 협업하며 많은 부분 생산성을 올릴수 있었고, 그 과정에서 얻은 것들을 공유해보려 합니다. 좋은 건 알겠는데 사용처를 고민하고 있다면 도움이 되지 않을까하는 바램입니다. 다들 바쁘고, 난 계속 운영 데이터를 찌르고 있고,,, 딜라이트룸의 광고 솔루션 BM인 DARO는 25년 런칭 이후 가파른 매출 성장세를 보이고 있는데요. 빠르게 성장하는 제품인만큼 안정적인 데이터 환경 구축의 대한 우선순위가 밀리는게 현실이였고, 데이터를 담당하는 사람으로써도 ‘일단 시장에서 가치를 만들어 내는것이 먼저다’ 라는 생각으로 지표 성장에 많은 집중을 했었습니다. 그러다보니, 많은 제품 초기 단계의 분석가들이 그렇듯, 자연스럽게 운영 DB에 쿼리를 날리면서 데이터 분석을 하게 되고, 결국엔 한계에 다다르게 됬었는데요. 운영 DB에 쿼리를 잘못 날려서 이슈가 생길수 있는 리스크를 항상 갖게 되고 유연한 데이터 파이프라인 및 오케스트레이션이 불가능해, 데이터 마트 구성이 어려울 뿐만 아니라 데이터가 클수록 빠른 쿼리 결과를 얻기도 어렵게 되었습니다. 결론적으로 데이터와 거리가 점점 생기면서 이곳저곳 데이터를 살펴보기 힘든 상황이 되버렸었는데요. 데이터 소스가 많아지고, 고객사들도 많아지면서 일별 TB 단위의 데이터를 다루게 되면서 DARO 도메인 또한 이런 이슈들을 무시할수 없게 되어, 분석 환경 구축을 시작하게 되었습니다. 기본적인 MDW 구성 DARO는 SDK, SSP, CPS 등 굉장히 방대한 여러 데이터를 자체 Kafka & 3rd party Report API 등을 통해 수집 중이었기 때문에 기본적으로 S3를 기반으로 한 Data Lake를 구성하여 그 위에 Athena를 활용하는 구조를 가져갔습니다. 그에 더해, 기존에 사용 중인 Airflow와 DBT를 통해 Orchestration을 가져오도록 엔지니어분이 1차적인 기반 작업을 해주셨는데요. 간단 아키텍쳐 구성 리소스는 항상 적고, 목이 마른자가 우물을 파기 때문에 이후 실질적인 Data Pipelining & Modeling 과 운영 작업은 직접 진행하게 되었고, 클로드 코드와 함께 많은 부분 효율화 해볼수 있었습니다. 데이터 Pipelining & Modeling 핵심적으로는 클로드 코드의 skill 기능을 통해 파이프라인 생성과 모델링에서의 반복적인 부분을 자동화 시킬수 있었는데요. 직접 생성/사용한 skill들은 두가지로, source를 연결하는 부분과 그 후 데이터 테이블들을 생성하는 부분을 분리했습니다. /add-dbt-daro-source - S3 데이터를 Athena 외부 테이블로 등록하는 커맨드 - S3 경로 탐색 → 샘플 파일 다운로드 → 스키마(컬럼/타입) 자동 추출 - dbt_project.yml에 partition projection 설정 추가 (dt 파티션 기반) - AWS Glue에 외부 테이블 생성 (create_external_table 매크로 실행) - daro_s3.yml에 source 정의 등록 (컬럼 설명 포함) - Athena 쿼리 + dbt show로 데이터 접근 검증 분석 환경 구축의 첫 번째 단계는 S3에 있는 source 파일들을 Athena와