在Triton中部署半精度的TensorRT模型使用 TensorRT 的API或者命令行工具可以将 ONNX 模型转换成支持 TensorRT 的 engine 模型文件,然后使用 Triton Inference Server 进行部署可以获得2~4倍的吞吐量的提升。但是,当在转换过程中设置了量化参数 — fp16或者…Aug 30, 20231Aug 30, 20231