Amazon EKS에서 Friendli Container로 LLM 추론 최적화하기

URL

https://aws.amazon.com/ko/blogs/tech/optimizing-llm-inference-using-friendli-container-on-amazon-eks/

생성 일시

2026/02/08 12:25

최종 편집 일시

2026/02/08 12:25

태그

AWS

파일과 미디어

FriendliAI는 AI 추론 효율을 크게 개선하는 고성능 서빙 엔진을 서비스하는 기업입니다. FriendliAI의 엔진은 높은 Throughput과 비용 절감 효과를 통해 기업이 생성형 AI 서비스를 효율적으로 운영할 수 있도록 지원합니다. Figure 1: Friendli Container Logo Friendli Container Amazon EKS Add-on은 AWS 인프라를 기반으로 생성형 AI 서비스를 확장하면서, Inference 효율을 극대화하는 솔루션입니다. 이 Add-on을 추가하면 기존 Amazon EKS […] || FriendliAI는 AI 추론 효율을 크게 개선하는 고성능 서빙 엔진을 서비스하는 기업입니다. FriendliAI의 엔진은 높은 Throughput과 비용 절감 효과를 통해 기업이 생성형 AI 서비스를 효율적으로 운영할 수 있도록 지원합니다. Figure 1: Friendli Container Logo Friendli Container Amazon EKS Add-on은 AWS 인프라를 기반으로 생성형 AI 서비스를 확장하면서, Inference 효율을 극대화하는 솔루션입니다. 이 Add-on을 추가하면 기존 Amazon EKS 워크플로우에 Friendli Container를 즉시 통합할 수 있으며, 모든 비용은 AWS 통합 빌링 시스템을 통해 편리하게 관리됩니다. 이를 통해 Inference 비용 절감, 빠른 확장성(Scaling), 그리고 향상된 Throughput을 여러분의 워크로드에 즉각 적용할 수 있습니다. 지금부터 Friendli Container Add-on을 여러분의 EKS에 손쉽게 추가하는 방법을 확인해 보겠습니다. Friendli Container 개요 Friendli Container는 FriendliAI의 고성능 서빙 솔루션을 고객의 환경에 바로 도입할 수 있도록 설계된 Docker 이미지입니다. 이 서비스는 FriendliAI의 핵심 최적화 기술들을 컨테이너 형태로 제공합니다. 이를 통해 고객의 설정 내에서 원활하게 작동하는, 현재 가장 빠른 Latency를 자랑하는 AI Inference 엔진을 사용할 수 있습니다. 비록 FriendliAI에서 관리하는 엔드포인트(Friendli Dedicated Endpoint)와 같이 모든 최적화가 포함된 것은 아니지만, 고객의 인프라 내에서 고성능 추론을 구동하기 위한 중요한 성능 강화 기능들을 갖추고 있습니다. Friendli Container는 Latency를 줄이고 GPU 사용량을 최소화하여 비용 효율성을 극대화하도록 최적화된 제품입니다. 또한 AI 모델 배포를 위해 확장 가능하고 격리된 환경을 제공하여 최상의 성능을 달성할 수 있도록 돕습니다. GPU 사용량 50% 이상 절감 Latency 2배 이상 개선 Throughput 2배 이상 향상 이때 Friendli Container가 그 역량을 온전히 발휘하기 위해서는, GPU 리소스를 효율적으로 관리하고 Orchestration을 지원할 수 있는 인프라가 필수적입니다. Amazon EKS와의 통합이 그것을 가능하게 만듭니다. Amazon EKS 개요 Kubernetes(K8S)는 컨테이너화된 애플리케이션을 관리하기 위한 표준 솔루션으로, 기업이 다양한 환경에서 워크로드를 배포, 확장 및 관리할 수 있게 해줍니다. Auto Scaling, Load Balancing, Self-healing과 같은 강력한 기능을 통해 복잡한 애플리케이션 관리를 단순화합니다. 그러나 Kubernetes를 효율적으로 관리하려면 깊은 전문 지식이 필요한데, 이 때문에 Amazon EKS와 같은 관리형 서비스가 필요할 수 있습니다. Amazon EKS는 AWS 환경에서 Kubernetes를 사용하여 컨테이너화된 애플리케이션을 손쉽게 배포, 관리 및 확장할 수 있게 해주는 완전 관리형 서비스입니다. EKS는 Kubernetes 클러스터 관리를 단순하게 만들고, 안전하고 확장 가능하며 가용성이 높은 플랫폼을 제공합니다. 또한 다른 AWS 서비스와 긴밀하게 통합