Bufflow - 페이지

대규모 언어모델(LLM)을 실제 서비스 환경에 배포할 때 가장 먼저 직면하는 문제는 추론 속도, GPU 메모리 관리, 동시 요청 처리입니다. 이러한 문제를 해결을 좀더 쉽게 처리하기 위해 다양한 추론 최적화 도구들이 소개 되고 있습니다. 다만, 다른 분야 패키지에 비해 지배적으로 사용되고 있는 추론 최적화 도구가 없을 뿐만 아니라 이에 대한 파이썬 코드 작성 스타일 또한 관련 파이썬 코드 작성 방식도 개발자마다 상이해 일관된 스타일에 기반한 협업이 쉽지 않은 상황입니다. 이러한 환경을 고려하여, 추론 최적화 도구인 vLLM을 추천하고 추천하는 이유를 본 포스팅에서 설명합니다. 아울러, 통일된 스타일을 제안하기 위한 코드 예시와 vLLM의 한계에 따른 주의점까지 본포스팅에서 다루고자 합니다.

vLLM 활용 이유

PagedAttention 기반의 고효율 메모리 관리
TensorRT-LLM 등 대체 솔루션에 비해, Python 기반 API가 단순하고 일관적임
SSE 기반 스트리밍에 최적화된 구조 제공
Hugging Face 생태계와 완전한 호환성

vLLM 코드 스타일 제안

아래 코드는 vllm을 활용하여 sse 통신이 가능하도록 작성해둔 코드 이며, 객체 지향으로 작성하여 효율성을 높이고자 노력하였습니다. 아래 코드 스타일을 참고하여 주세요. 단 출력 형태는 SSE(Server-Sent Events) 출력시 출력 표준제안 를 참고하여 코드를 완성하였습니다.

import&nbsp;asyncio
import&nbsp;json
import&nbsp;traceback
import&nbsp;uuid
from&nbsp;dataclasses&nbsp;import&nbsp;dataclass,&nbsp;field
from&nbsp;typing&nbsp;import&nbsp;Any,&nbsp;AsyncGenerator,&nbsp;Dict,&nbsp;Optional

from&nbsp;fastapi&nbsp;import&nbsp;FastAPI
from&nbsp;fastapi.responses&nbsp;import&nbsp;StreamingResponse
from&nbsp;pydantic&nbsp;import&nbsp;BaseModel
from&nbsp;transformers&nbsp;import&nbsp;AutoTokenizer
from&nbsp;vllm.engine.arg_utils&nbsp;import&nbsp;AsyncEngineArgs
from&nbsp;vllm.engine.async_llm_engine&nbsp;import&nbsp;AsyncLLMEngine
from&nbsp;vllm.sampling_params&nbsp;import&nbsp;SamplingParams

#&nbsp;---&nbsp;1.&nbsp;설정&nbsp;관리&nbsp;클래스&nbsp;(Configuration)&nbsp;---
@dataclass
class&nbsp;VLLMConfig:
&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;vLLM&nbsp;엔진&nbsp;및&nbsp;모델&nbsp;설정을&nbsp;관리하는&nbsp;데이터&nbsp;클래스&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;model_path:&nbsp;str&nbsp;=&nbsp;&quot;{model_path}&quot;
&nbsp;&nbsp;&nbsp;&nbsp;dtype:&nbsp;str&nbsp;=&nbsp;&quot;bfloat16&quot;
&nbsp;&nbsp;&nbsp;&nbsp;gpu_memory_utilization:&nbsp;float&nbsp;=&nbsp;0.75
&nbsp;&nbsp;&nbsp;&nbsp;tensor_parallel_size:&nbsp;int&nbsp;=&nbsp;2
&nbsp;&nbsp;&nbsp;&nbsp;max_num_seqs:&nbsp;int&nbsp;=&nbsp;16
&nbsp;&nbsp;&nbsp;&nbsp;max_model_len:&nbsp;int&nbsp;=&nbsp;4096
&nbsp;&nbsp;&nbsp;&nbsp;limit_mm_per_prompt:&nbsp;Dict[str,&nbsp;int]&nbsp;=&nbsp;field(default_factory=lambda:&nbsp;{&quot;image&quot;:&nbsp;0})
&nbsp;&nbsp;&nbsp;&nbsp;trust_remote_code:&nbsp;bool&nbsp;=&nbsp;True

#&nbsp;---&nbsp;2.&nbsp;엔진&nbsp;매니저&nbsp;클래스&nbsp;(Engine&nbsp;Manager)&nbsp;---
class&nbsp;VLLMEngineManager:
&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;vLLM&nbsp;엔진의&nbsp;생명주기(초기화,&nbsp;접근)를&nbsp;담당하는&nbsp;클래스&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;__init__(self,&nbsp;config:&nbsp;VLLMConfig):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.config&nbsp;=&nbsp;config
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self._engine:&nbsp;Optional[AsyncLLMEngine]&nbsp;=&nbsp;None
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self._tokenizer&nbsp;=&nbsp;None
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self._lock&nbsp;=&nbsp;asyncio.Lock()

&nbsp;&nbsp;&nbsp;&nbsp;async&nbsp;def&nbsp;get_engine(self)&nbsp;-&gt;&nbsp;AsyncLLMEngine:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;싱글톤&nbsp;패턴을&nbsp;사용하여&nbsp;엔진&nbsp;인스턴스를&nbsp;반환&nbsp;(Double-checked&nbsp;locking)&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;self._engine&nbsp;is&nbsp;not&nbsp;None:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;self._engine

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;async&nbsp;with&nbsp;self._lock:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;self._engine&nbsp;is&nbsp;not&nbsp;None:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;self._engine
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(&quot;&gt;&gt;&gt;&nbsp;Initializing&nbsp;vLLM&nbsp;Engine...&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;engine_args&nbsp;=&nbsp;AsyncEngineArgs(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;model=self.config.model_path,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dtype=self.config.dtype,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;gpu_memory_utilization=self.config.gpu_memory_utilization,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tensor_parallel_size=self.config.tensor_parallel_size,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_num_seqs=self.config.max_num_seqs,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_model_len=self.config.max_model_len,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;limit_mm_per_prompt=self.config.limit_mm_per_prompt,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;trust_remote_code=self.config.trust_remote_code,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;disable_log_stats=False
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self._engine&nbsp;=&nbsp;AsyncLLMEngine.from_engine_args(engine_args)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(&quot;&gt;&gt;&gt;&nbsp;vLLM&nbsp;Engine&nbsp;is&nbsp;ready.&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;e:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(f&quot;!!!&nbsp;Engine&nbsp;initialization&nbsp;failed:&nbsp;{e}&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;raise&nbsp;e
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;self._engine

&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;get_tokenizer(self):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;토크나이저&nbsp;로드&nbsp;(Lazy&nbsp;Loading)&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;self._tokenizer&nbsp;is&nbsp;None:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self._tokenizer&nbsp;=&nbsp;AutoTokenizer.from_pretrained(self.config.model_path)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;e:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(f&quot;!!!&nbsp;Tokenizer&nbsp;loading&nbsp;failed:&nbsp;{e}&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;raise&nbsp;e
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;self._tokenizer

#&nbsp;---&nbsp;3.&nbsp;채팅&nbsp;서비스&nbsp;클래스&nbsp;(Service&nbsp;Logic)&nbsp;---
class&nbsp;ChatCompletionService:
&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;사용자&nbsp;요청을&nbsp;처리하고&nbsp;스트리밍&nbsp;응답을&nbsp;생성하는&nbsp;서비스&nbsp;클래스&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;__init__(self,&nbsp;engine_manager:&nbsp;VLLMEngineManager):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.engine_manager&nbsp;=&nbsp;engine_manager

&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;_build_prompt(self,&nbsp;question:&nbsp;str)&nbsp;-&gt;&nbsp;str:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;프롬프트&nbsp;템플릿&nbsp;구성&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tokenizer&nbsp;=&nbsp;self.engine_manager.get_tokenizer()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;System&nbsp;Prompt를&nbsp;User&nbsp;메시지에&nbsp;병합&nbsp;(Gemma&nbsp;호환성)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;system_instruction&nbsp;=&nbsp;(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;You&nbsp;are&nbsp;Gemma-3,&nbsp;a&nbsp;helpful,&nbsp;honest,&nbsp;and&nbsp;concise&nbsp;AI&nbsp;assistant.&nbsp;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;Answer&nbsp;clearly,&nbsp;avoid&nbsp;hallucinations,&nbsp;and&nbsp;think&nbsp;step-by-step&nbsp;internally.&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;Ask&nbsp;for&nbsp;clarification&nbsp;when&nbsp;needed&nbsp;and&nbsp;follow&nbsp;the&nbsp;user’s&nbsp;instructions&nbsp;precisely.&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;conversation&nbsp;=&nbsp;[
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{&quot;role&quot;:&nbsp;&quot;user&quot;,&nbsp;&quot;content&quot;:&nbsp;f&quot;{system_instruction}\n\nQuestion:&nbsp;{question}&quot;}
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;]

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#return&nbsp;tokenizer.apply_chat_template(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;&nbsp;&nbsp;&nbsp;conversation,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;&nbsp;&nbsp;&nbsp;tokenize=False,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;&nbsp;&nbsp;&nbsp;add_generation_prompt=True
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;f&quot;&lt;bos&gt;&lt;start_of_turn&gt;system\n{system_instruction}&lt;end_of_turn&gt;\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;f&quot;&lt;start_of_turn&gt;user\n{question}&lt;end_of_turn&gt;\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;f&quot;&lt;start_of_turn&gt;model\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;e:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(f&quot;Template&nbsp;apply&nbsp;failed,&nbsp;using&nbsp;raw&nbsp;string:&nbsp;{e}&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;f&quot;&lt;start_of_turn&gt;user\n{question}&lt;end_of_turn&gt;\n&lt;start_of_turn&gt;model\n&quot;

&nbsp;&nbsp;&nbsp;&nbsp;async&nbsp;def&nbsp;generate_response_sse(self,&nbsp;question:&nbsp;str,&nbsp;request_id:&nbsp;str&nbsp;=&nbsp;None)&nbsp;-&gt;&nbsp;AsyncGenerator[str,&nbsp;None]:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&quot;&quot;&quot;SSE&nbsp;포맷으로&nbsp;답변&nbsp;스트리밍&quot;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;request_id&nbsp;is&nbsp;None:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;request_id&nbsp;=&nbsp;str(uuid.uuid4())

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;engine&nbsp;=&nbsp;await&nbsp;self.engine_manager.get_engine()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;prompt&nbsp;=&nbsp;self._build_prompt(question)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(&quot;QUESTION&quot;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print(prompt)

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sampling_params&nbsp;=&nbsp;SamplingParams(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_tokens=2048,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;temperature=0.5,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;top_p=0.9,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;repetition_penalty=1,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;skip_special_tokens=True
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;results_generator&nbsp;=&nbsp;engine.generate(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;prompt,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sampling_params,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;request_id=request_id
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;generated_text&nbsp;=&nbsp;&quot;&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;async&nbsp;for&nbsp;request_output&nbsp;in&nbsp;results_generator:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;output&nbsp;in&nbsp;request_output.outputs:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;new_text&nbsp;=&nbsp;output.text
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;len(new_text)&nbsp;&gt;&nbsp;len(generated_text):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;delta&nbsp;=&nbsp;new_text[len(generated_text):]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;generated_text&nbsp;=&nbsp;new_text
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;SSE&nbsp;Event:&nbsp;message
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;&quot;event:&nbsp;message\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;f&quot;data:&nbsp;{json.dumps({'text':&nbsp;delta},&nbsp;ensure_ascii=False)}\n\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;SSE&nbsp;Event:&nbsp;DONE
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;&quot;event:&nbsp;done\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;&quot;data:&nbsp;[DONE]\n\n&quot;

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;e:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;traceback.print_exc()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;&quot;event:&nbsp;error\n&quot;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;f&quot;data:&nbsp;{json.dumps({'error':&nbsp;str(e)},&nbsp;ensure_ascii=False)}\n\n&quot;

#&nbsp;1.&nbsp;설정&nbsp;로드
config&nbsp;=&nbsp;VLLMConfig()&nbsp;#&nbsp;필요&nbsp;시&nbsp;인자로&nbsp;설정&nbsp;변경&nbsp;가능

#&nbsp;2.&nbsp;매니저&nbsp;및&nbsp;서비스&nbsp;인스턴스화&nbsp;(Dependency&nbsp;Injection)
engine_manager&nbsp;=&nbsp;VLLMEngineManager(config)
chat_service&nbsp;=&nbsp;ChatCompletionService(engine_manager)

print(&quot;&gt;&gt;&gt;&nbsp;Starting&nbsp;Stream&nbsp;Process...&quot;)
app&nbsp;=&nbsp;FastAPI(title=&quot;Gemma-3&nbsp;Chat&nbsp;API&quot;,&nbsp;version=&quot;1.0.0&quot;)
class&nbsp;ChatRequest(BaseModel):
&nbsp;&nbsp;&nbsp;&nbsp;question:&nbsp;str

@app.post(&quot;/chat&quot;)
async&nbsp;def&nbsp;chat(request:&nbsp;ChatRequest):
&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;3.&nbsp;서비스&nbsp;실행
&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;StreamingResponse(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;chat_service.generate_response_sse(request.question),
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;media_type=&quot;text/event-stream&quot;,
&nbsp;&nbsp;&nbsp;&nbsp;)

vLLM 활용시 주의점

vLLM은 서버에 장착된 GPU 자원을 최대한 활용해 추론 엔진을 초기화합니다. 이 과정에서 지정된 GPU를 독점적으로 점유하기 때문에, 동일한 GPU를 사용하는 다른 프로세스나 서비스와 자원 충돌이 발생할 수 있습니다. 따라서 운영 환경에서 vLLM을 사용할 때는 GPU에 상주하는 모델 수를 최소화하는 것이 중요합니다. 기본적으로 GPU 개수만큼만 모델 엔진이 생성되므로, 불필요한 모델 로딩을 피해야 합니다.

프롬프트 엔지니어링 기반의 파이프라인을 사용하는 경우라면 이미 로딩된 vanilla 모델을 재사용해 불필요한 모델 초기화를 방지할 수 있습니다. 반면, 파인튜닝이 필요한 경우에는 LoRA 방식을 적용하는 것이 효율적입니다. 예를 들어 저는 Gemma 모델에 LoRA 가중치 두 개를 동시에 로드해두고, 조건문을 통해 필요한 가중치만 선택해 사용하는 방식으로 운영합니다.

Release Note

2025-12-10 - ver 0.1.0

초안 업로드

Contact us

AI 엔지니어링

vLLM을 이용한 LLM 추론 코드 소개 및 스타일 제안

vLLM 활용 이유

vLLM 코드 스타일 제안

vLLM 활용시 주의점

Release Note