머신러닝 모델 배포: TensorFlow Serving과 ONNX 실습

8월 28, 2024

머신러닝 모델을 개발하는 것은 시작에 불과하며, 개발된 모델을 효과적으로 배포하는 것이 중요한 과제입니다. 모델을 생산 환경에 배포하는 과정은 성능, 확장성, 호환성 등 여러 요소를 고려해야 합니다. TensorFlow Serving과 Open Neural Network Exchange (ONNX)는 이러한 배포 과정을 지원하는 두 가지 주요 기술입니다. 이 글에서는 TensorFlow Serving과 ONNX를 사용한 머신러닝 모델 배포 방법을 실습을 통해 알아보겠습니다.

TensorFlow Serving 소개

TensorFlow Serving은 TensorFlow 모델을 효율적으로 배포하기 위한 고성능 서비스 시스템입니다. 이 시스템은 모델의 버전 관리, 요청 처리, 비동기 배치 예측 등을 지원하여 대규모 인프라에서의 머신러닝 모델 서빙을 용이하게 합니다.

핵심 특징:

모델 버전 관리: 여러 버전의 모델을 동시에 호스팅하고, 자동으로 최신 모델로 업데이트할 수 있습니다.
고성능: TensorFlow Serving은 gRPC를 사용하여 고성능 네트워크 통신을 제공합니다.
확장성: 요청에 따라 자동으로 스케일 업 및 스케일 다운이 가능합니다.

ONNX 소개

ONNX(Open Neural Network Exchange)는 다양한 머신러닝 프레임워크 간의 모델 호환성을 위해 개발된 개방형 포맷입니다. ONNX를 사용하면, 예를 들어 PyTorch로 훈련된 모델을 ONNX 포맷으로 변환하여 다른 프레임워크에서도 사용할 수 있습니다.

핵심 특징:

프레임워크 간 호환성: 다양한 머신러닝 프레임워크와 툴 사이의 모델을 쉽게 이동할 수 있습니다.
표준화된 포맷: ONNX는 머신러닝 모델의 구조와 데이터를 표준화된 방식으로 저장합니다.

실습: TensorFlow Serving을 이용한 모델 배포

모델 준비: TensorFlow를 사용하여 모델을 훈련하고 SavedModel 포맷으로 저장합니다.


    
import tensorflow as tf

# 모델 정의 및 훈련 코드 생략
model = build_model()
model.train(input_data, labels)

# 모델 저장
tf.saved_model.save(model, "/tmp/model/1/")

TensorFlow Serving 시작: Docker를 사용하여 TensorFlow Serving 컨테이너를 실행합니다.


    
docker run -p 8501:8501 --name=tf_serving --mount type=bind,source=/tmp/model/,target=/models/model -e MODEL_NAME=model -t tensorflow/serving

모델 요청: REST API를 통해 모델에 예측 요청을 보냅니다.


    
import requests
import json

data = json.dumps({"signature_name": "serving_default", "instances": [input_data]})
headers = {"content-type": "application/json"}
json_response = requests.post('http://localhost:8501/v1/models/model:predict', data=data, headers=headers)
predictions = json.loads(json_response.text)['predictions']

실습: ONNX를 이용한 모델 호환성 확보

모델 변환: PyTorch 모델을 ONNX 포맷으로 변환합니다.


    
import torch.onnx
import torchvision.models as models

model = models.resnet18(pretrained=True)
model.eval()
dummy_input = torch.randn(1, 3, 224, 224)
torch.onnx.export(model, dummy_input, "model.onnx")

모델 사용: ONNX 모델을 다른 프레임워크에서 불러와 사용합니다.


    
import onnxruntime

ort_session = onnxruntime.InferenceSession("model.onnx")
outputs = ort_session.run(None, {'input': input_data.numpy()})

결론

TensorFlow Serving과 ONNX는 머신러닝 모델을 배포하고 호환성을 유지하는 데 각각 유용한 도구입니다. 이들 기술을 활용하면 모델 배포 과정을 자동화하고, 다양한 환경에서 모델을 효율적으로 사용할 수 있습니다. 머신러닝 프로젝트의 성공적인 배포와 운영을 위해 이러한 기술들을 적극적으로 활용해야 합니다.

정보보관함

CSS-in-JS의 이해: Styled Components와 Emotion 비교

머신러닝 모델 배포: TensorFlow Serving과 ONNX 실습

TensorFlow Serving 소개

핵심 특징:

ONNX 소개

핵심 특징:

실습: TensorFlow Serving을 이용한 모델 배포

실습: ONNX를 이용한 모델 호환성 확보

결론

이 블로그의 인기 게시물

CSS-in-JS의 이해: Styled Components와 Emotion 비교

Kotlin의 코루틴(Coroutine)과 Java의 쓰레드(Thread) 비교

클라우드 네이티브 애플리케이션 개발: 12-Factor App 원칙