태그 아카이브

모든 태그를 기준으로 포스트를 필터링할 수 있습니다.

태그 필터

LLM vLLM 추론

vLLM: 고성능 LLM 추론 및 서빙 엔진

vLLM은 높은 처리량과 메모리 효율성을 제공하는 LLM 추론 및 서빙 엔진입니다. PagedAttention 기술로 최대 처리량을 달성하며, OpenAI 호환 API를 통해 쉽게 통합할 수 있습니다.