imyiangyang – Medium

imyiangyang

Home

About

在Triton中部署半精度的TensorRT模型

使用 TensorRT 的API或者命令行工具可以将 ONNX 模型转换成支持 TensorRT 的 engine 模型文件，然后使用 Triton Inference Server 进行部署可以获得2～4倍的吞吐量的提升。但是，当在转换过程中设置了量化参数 — fp16或者…

Aug 30, 2023

在Triton中部署半精度的TensorRT模型

Aug 30, 2023

Ethereum for web developers

原文： medium.com@mvmurthy 翻译：YiAng 于 2018–03–01

Apr 8, 2018

Ethereum for web developers

Apr 8, 2018

imyiangyang

imyiangyang

Following

Google Developers
AndroidPub
Tang
ARK.io | Blog
Consensys

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams