Serving Large Language Models with KubeRay on TPUs

Deploying Many Models Efficiently with Ray Serve

Lessons From Fine-Tuning Llama-2

NoCap - Blame Myself/Block Fever Snippet (Official Video)

LIL WAYNE WARNS KENDRICK LAMAR TO CHILL BEFORE HE DESTROYS HIM IN A DISSTRACK!

24 Hours In Colorado

Enabling Cost-Efficient LLM Serving with Ray Serve

Anyscale

Просмотров 6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 25 ноя 2024

Комментарии • 4

@elephantum 4 месяца назад ⁺⁴
It should be noted, that since this talk, Anyscale deprecated Ray LLM and now recommend vLLM
@_nitingoyal_ 24 дня назад
vLLM requires Ray Serve to provide distributed inference.
@yukewang3164 8 месяцев назад ⁺³
awesome talk, with useful insights!
@MrEmbrance 3 месяца назад
no thanks

Следующие

Автовоспроизведение

Serving Large Language Models with KubeRay on TPUs

Serving Large Language Models with KubeRay on TPUs

Deploying Many Models Efficiently with Ray Serve

Deploying Many Models Efficiently with Ray Serve

Lessons From Fine-Tuning Llama-2

Lessons From Fine-Tuning Llama-2

NoCap - Blame Myself/Block Fever Snippet (Official Video)

NoCap - Blame Myself/Block Fever Snippet (Official Video)

LIL WAYNE WARNS KENDRICK LAMAR TO CHILL BEFORE HE DESTROYS HIM IN A DISSTRACK!

LIL WAYNE WARNS KENDRICK LAMAR TO CHILL BEFORE HE DESTROYS HIM IN A DISSTRACK!

24 Hours In Colorado

24 Hours In Colorado

JUICE WRLD *FREE* Skin is OUT NOW!

JUICE WRLD *FREE* Skin is OUT NOW!

What are AI Agents?

What are AI Agents?

Fast LLM Serving with vLLM and PagedAttention

Fast LLM Serving with vLLM and PagedAttention

Revealing ORI (O Routing Intelligence) at Ray Summit 2024

Revealing ORI (O Routing Intelligence) at Ray Summit 2024

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

Exploring the Latency/Throughput & Cost Space for LLM Inference // Timothée Lacroix // CTO Mistral

KubeRay: A Ray cluster management solution on Kubernetes

KubeRay: A Ray cluster management solution on Kubernetes

Quantization vs Pruning vs Distillation: Optimizing NNs for Inference

Quantization vs Pruning vs Distillation: Optimizing NNs for Inference

Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference

Efficiently Scaling and Deploying LLMs // Hanlin Tang // LLM's in Production Conference

Why Agent Frameworks Will Fail (and what to use instead)

Why Agent Frameworks Will Fail (and what to use instead)

Qwen Just Casually Started the Local AI Revolution

Qwen Just Casually Started the Local AI Revolution

А на фронте все хуже и хуже...

А на фронте все хуже и хуже...

Чистка воды совком от денег

Чистка воды совком от денег

Антон Теляков купил Яхту и не разрешает прохожим её фотографировать

Антон Теляков купил Яхту и не разрешает прохожим её фотографировать

Гонка с навигатором

Гонка с навигатором

ПЕРВЫЕ ШАЖКИ ТЕО😍😍😍 #димасблог #аняищук #baby #семья #семейный

ПЕРВЫЕ ШАЖКИ ТЕО😍😍😍 #димасблог #аняищук #baby #семья #семейный

Внезапно! Что на самом деле подорвал «Орешник»

Внезапно! Что на самом деле подорвал «Орешник»

ЗСУ на Курщині. Росіяни, покинуті своєю владою #суджа #тромедіа #курськ

ЗСУ на Курщині. Росіяни, покинуті своєю владою #суджа #тромедіа #курськ