Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
很棒的教學,感謝林博士 🥰 請教還會不會有後續更多 Serving & Inference 的技巧&實務教學? 例如 Serving 不同 Quantaization & Sparse (Pruning) Model,找尋網路上關於 Serving Sparse Model 的資訊非常稀少。 目前只有看到 vLLM 推一個 llm_compressor library 以及 nv 官方有 TensorRT-Model-Optimizer library 有 sparse model 的一些相關資訊 但也不是很清楚😓
推薦使用RunPod上的vLLM
max token这东西,很难调,用Mistral的话,token太大,至少我看到过它有时候会重复最后一句话而且endless。
fading effect .... such romantic
很棒的教學,感謝林博士 🥰 請教還會不會有後續更多 Serving & Inference 的技巧&實務教學?
例如 Serving 不同 Quantaization & Sparse (Pruning) Model,找尋網路上關於 Serving Sparse Model 的資訊非常稀少。
目前只有看到 vLLM 推一個 llm_compressor library 以及 nv 官方有 TensorRT-Model-Optimizer library 有 sparse model 的一些相關資訊 但也不是很清楚😓
推薦使用RunPod上的vLLM
max token这东西,很难调,用Mistral的话,token太大,至少我看到过它有时候会重复最后一句话而且endless。
fading effect .... such romantic