Супер! Это уже позволяет не просто со страхом думать про эти А100, а уже позволяет начать на них работать, плюс ещё с той сеткой, про которую другие ещё только мечтают.
Здравствуйте, можно что то подобное сделать для 3d моделей ? Идея такая что при входе загружаем 3д модель скана лица например в формате .obj на выходе получать более правильно полигональную, качественную 3д модель. ? Может подскажите решение..
Основная разница - вместо 2D патчей Sora использует 3D "spacetime" патчи (три измерения: ширина, высота, временная метка). Инфа о времени позволяет генерировать последовательности кадров для видео. Можно предположить, что и весят данные больше - из-за третьего измерения в векторе
Следующая часть - генерация видео с помощью Diffusion Transformer: ruclips.net/video/XTmRXXJP454/видео.htmlfeature=shared
Супер! Это уже позволяет не просто со страхом думать про эти А100, а уже позволяет начать на них работать, плюс ещё с той сеткой, про которую другие ещё только мечтают.
Да, особенно эта идея Masked Transformers - мощная штука. Скоро будут у Sora конкуренты
Руслан, спасибо за твои видео!!!
Не знаю как вы относитесь к Гарри Поттеру, но видеть как с экранов ютуба меня обучает его дядя (Сириус Блэк) очень забавно!! Спасибо за вашу работу!!
😁 не дядя, крестный отец
@@ruslandev я оставил комментарий и оставил его с уважением!))
Здравствуйте, можно что то подобное сделать для 3d моделей ? Идея такая что при входе загружаем 3д модель скана лица например в формате .obj на выходе получать более правильно полигональную, качественную 3д модель. ? Может подскажите решение..
Спасибо за видео! А можно использовать модели для распознования изображений например?
Можно, gpt-4v и LLaVa например
Руслан, привет! Спасибо за контент! Очень полезная инфо! Пожалуйста побольше таких видео "пилите" по возможности.
спасибо 👍
Очень доступно, отдельное спасибо за демонстрацию! Жду новых видео !
спасибо 👍
А можно обучить модель на 10-20 картинках художника?
Отлично разложил по полочкам
Просто шикарно! Незаслуженно мало просмотров. Один из лучших контентов
Спасибо!
Интересно, насколько больше занимает информация в модели для одного токена в случае видео относительно моделей для статики?
Основная разница - вместо 2D патчей Sora использует 3D "spacetime" патчи (три измерения: ширина, высота, временная метка). Инфа о времени позволяет генерировать последовательности кадров для видео. Можно предположить, что и весят данные больше - из-за третьего измерения в векторе
Тема интересная! Спасибо, Руслан!
ты молодец, хвалю
Интересно! Подписываюсь.
не пропускаю ни одно видео. очень интересно
класс, спасибо
Офигенно, спасибо !
Больше конкретные таких видео пошаговых это топ 🎉
Можешь подробнее раскрыть тему обучения llm например мистрать на своих данных? такая каша в голове
есть такие планы
Руслан, точно имеет! Очень адекватная подача 👍
спасибо
Имеет смысл выложить ещё!
Посмотрел четыре раза и уже начинаю думать, что здесь имеет место какая-то дичь для программистов..