Amazon Bedrock을 이용하여 다양한 AI 서비스를 구축하고 Poc단계부터 실제 서비스를 런칭하는 단계까지 안정적인 AI 서비스를 구축하는 것은 쉽지 않은 긴 여정입니다. 특히 LLM의 토큰 사용량 관리와 토큰 최적화는 운영서비스를 런칭한 이후 겪게 되는 중요한 문제들이라고 할수 있습니다. AI 서비스를 성공적으로 런칭한 고객들 조차도 LLM 토큰 사용량에 대한 명확한 모니터링, 토큰 최적화, 그리고 리밋 증설하는 부분에서 […] ||
Amazon Bedrock을 이용하여 다양한 AI 서비스를 구축하고 Poc단계부터 실제 서비스를 런칭하는 단계까지 안정적인 AI 서비스를 구축하는 것은 쉽지 않은 긴 여정입니다. 특히 LLM의 토큰 사용량 관리와 토큰 최적화는 운영서비스를 런칭한 이후 겪게 되는 중요한 문제들이라고 할수 있습니다. AI 서비스를 성공적으로 런칭한 고객들 조차도 LLM 토큰 사용량에 대한 명확한 모니터링, 토큰 최적화, 그리고 리밋 증설하는 부분에서 어려움을 겪는 것을 보게 되었습니다. 이 블로그에서는 실제 AI 서비스를 구축한 많은 고객사분들에게 Bedrock 토큰 사용량 관리 및 최적화 방법에 대한 조금이나마 도움을 드리고자 해서 쓰게 되었습니다.
Amazon Bedrock의 3가지 엔드포인트 및 Limit 증설방법
먼저 Amazon Bedrock에서 사용할수 있는 3가지 엔드포인트 유형을 말씀드리겠습니다. Regional Endpoint 는 각 리전별 단일 Bedrock 엔드포인트 입니다. 그리고 Cross Region Inference(CRIS) Endpoint로 Geo CRIS 와 Global CRIS 2가지 유형이 있습니다.
1. Regional 엔드포인트
각 리전에 존재하는 표준 Bedrock API 엔드포인트로, 다음과 같은 형태로 구성됩니다. 서울리전을 예로 들어서 설명 드리겠습니다.
bedrock.ap-northeast-2.amazonaws.com (Control plane) : 관리 및 제어를 담당하는 엔드포인트로 모델 자체를 실행하는 것이 아니라, 모델의 목록을 조회하거나 모델 상세정보를 확인하고, Provisioned Throughput 생성및 관리, 그리고 모델 파인튜닝 작업을 관리할 때 사용합니다.
bedrock-runtime.ap-northeast-2.amazonaws.com ( Data Plane) : 실제 모델 추론(Inference)을 수행하는 엔드포인트입니다. 사용자가 텍스트나 이미지를 입력하고 모델로부터 응답을 받는 핵심적인 실행단계로 주로 사용하는 엔드포인트라고 할수 있습니다.
bedrock-agent.ap-northeast-2.amazonaws.com ( Agent Plane) : AI 에이전트 및 기술적 오케스트레이션을 관리하는 엔드포인트로 단순한 모델 호출을 넘어, 복잡한 작업을 자율적으로 수행하는 에이전트 설계를 담당합니다. Bedrock Agent나 Knowledge Base를 생성하고 관리하는데 사용합니다.
구분
Bedrock (Control)
Bedrock Runtime
Bedrock Agent
핵심 역할
모델 관리 및 인프라 설정
실제 모델 추론 (응답 생성)
자율 에이전트 및 지식기반 구축
호출 빈도
낮음 (초기 설정 시)
매우 높음 (실시간 서비스)
중간 (에이전트 로직 설계 시)
사용 사례
사용 가능한 모델 리스트 보여줘
이 질문에 답변해줘
이 문서를 참고해서 결제까지 완료해 줘
엔드포인트의 구성과 종류에 대한 자세한 내용은 Amazon Bedrock Endpoint 할당량 문서를 참조해주세요.
모델을 단일 리전에서 호출하는 방식입니다. 만약 해당리전에서 서비스가 중단된다면, 서비스가 복구될 때까지 다른 리전의 엔드포인트로 Fail over 하도록 모델을 호출하는 애플리케이션 코드를 직접 수정해야 합니다. Cross Region Infrerence가 나오기 전까지 기본적으로 사용했기때문에, 혹시