네오사피엔스(Neosapience)는 AI 음성 합성 및 언어 지능 기술을 바탕으로 AI 연기자 서비스인 타입캐스트(Typecast)를 운영하는 스타트업입니다. 2017년 설립 이후 딥러닝 기반의 감정 표현 및 다국어 TTS(Text-to-Speech) 원천 기술을 연구하며 콘텐츠 제작 환경의 변화를 시도해 왔으며, 현재는 글로벌 서비스로의 성장을 목표로 기술적 역량을 쌓아가고 있습니다. 이러한 서비스 운영의 핵심인 LLM 추론 최적화는 “정밀도를 낮추면 빨라진다” 수준의 단일 […] ||
네오사피엔스(Neosapience)는 AI 음성 합성 및 언어 지능 기술을 바탕으로 AI 연기자 서비스인 타입캐스트(Typecast)를 운영하는 스타트업입니다. 2017년 설립 이후 딥러닝 기반의 감정 표현 및 다국어 TTS(Text-to-Speech) 원천 기술을 연구하며 콘텐츠 제작 환경의 변화를 시도해 왔으며, 현재는 글로벌 서비스로의 성장을 목표로 기술적 역량을 쌓아가고 있습니다.
이러한 서비스 운영의 핵심인 LLM 추론 최적화는 “정밀도를 낮추면 빨라진다” 수준의 단일 변수 문제가 아닙니다. 실제 운영 환경에서는 GPU 인스턴스 선택(g5, g6e, g7e), 정밀도(INT8/INT4/FP8 등), 배치 크기(Batch Size), 트래픽 분포(동시성/지연시간 요구), 그리고 네트워크 연결 구조(AWS PrivateLink 기반 프라이빗 연결 및 리전 제약)가 서로 맞물려 하나의 의사결정 문제를 이룹니다.
정밀도(Precision)란 모델 가중치를 표현하는 숫자 형식입니다. FP16(16비트 부동소수점)이 기본이며, INT8/INT4(8/4비트 정수)나 FP8(8비트 부동소수점)으로 압축(양자화)하면 메모리 사용량과 연산량이 줄어 추론 속도가 향상되지만, 모델 정확도에 영향을 줄 수 있습니다.
이 글에서는 AWS g5(A10G), g6e(L40S), 그리고 신규 출시된 g7e(RTX PRO 6000 Blackwell) 인스턴스에서 TensorRT-LLM 기반으로 배치 크기 변화에 따른 처리량(token/s)과 첫 토큰 지연시간(ms) 특성을 측정하고, 그 결과를 실제 운영 환경의 조건에 대입해 “벤치마크와 프로덕션 사이의 간극”을 설명합니다.
결론적으로, 네오사피엔스의 운영 조건에서는 g6e(L40S) + INT8 조합이 가장 균형 잡힌 선택이었습니다. 이는 단일 GPU 성능뿐 아니라, 전체 시스템 관점의 사용자 체감 레이턴시와 운영 안정성을 함께 고려한 결과입니다.
이 블로그 포스트에서는 네오사피엔스가 Amazon EC2 G5, G6e, G7e 인스턴스에서 경량 LLM 추론의 배치 최적화를 수행한 과정과, 운영 환경의 제약을 반영하여 최적의 인스턴스-정밀도 조합을 선택한 사례를 소개합니다.
배치 최적화는 왜 ‘경량 LLM’에서 더 중요해지는가
최근 LLM 트렌드는 초대형 파운데이션 모델 중심으로 빠르게 전개되고 있습니다. 하지만 실제 AI 제품/서비스는 거대한 모델 하나로만 구성되지 않습니다. 많은 서비스는 다음과 같은 경량 추론 계층(lightweight inference tier)을 함께 운영합니다.
간단한 대화/명령 처리(빠른 응답이 중요한 인터랙션)
프롬프트 전처리/후처리(형식 통일, 필터링, 규칙 기반 보정 등)
STT/TTS 전후단 텍스트 처리(정규화, 문장 분리/결합, 라우팅)
멀티에이전트 시스템에서의 lightweight reasoning 노드(작은 의사결정/라우팅)
<그림 1. 경량 LLM 추론 계층의 서비스 아키텍처>
이 계층은 보통 다음과 같은 요구사항을 동시에 만족해야 합니다.
낮은 지연시간(특히 첫 토큰 지연)
높은 동시성(처리량 확장성)
예측 가능한 운영비(토큰당 비용)
즉, “최대 성능”보다 운영 조건에서의 균형이 중요합니다.
이 글은 그 균형점을 찾기 위해, 인스턴스·정밀도·배치·운영 제약을 함께 고려하는 접근을 다룹니다.
의사결정 프레임: GPU, 정밀도, 배치, 그리고 운영 제약을 함께 본다
AWS에서 LLM 추론을 운영할 때는 다음