Как LLM учится рисовать через код: новый взгляд на языковые модели

Михаил Исаев

Просмотров 2,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 31 янв 2025
Пример креативного использования LLM (Large Language Model) для решения нетривиальных задач, которые выходят за рамки общения. Вместо прямого рисования, модель использует язык программирования (JavaScript) как инструмент для визуализации, что подчеркивает гибкость и многозадачность языковых моделей.
Трансформация текстового понимания в визуальный контент: программа показывает, как LLM может "мысленно" представить объект, который затем превращается в реальный рисунок через программные команды. Модель не просто "видит" объект, она его описывает так, чтобы другие системы могли его визуализировать.
Попробовать можно здесь: dewiar.com/ai_...
Все новости, идеи и предложения в Телеграм: t.me/dewiarx
Если вы считаете, что то, чем я занимаюсь, полезно, и хотите меня поддержать, буду очень благодарен! Вот ссылка на донат:
www.paypal.com...
Спасибо за вашу поддержку! 🙏

Комментарии • 98

@nataliya6429 22 дня назад ⁺¹
Спасибо! Прикольно! Генерация монстров улыбнула 😀Интересно, что все рисунки похожи на аппликации из бумаги, как будто одни детали наложены на другие... Смотрела с удовольствием)
@MrDewiar 19 дней назад
Так и есть)) Это рисование на холсте работает методом генерации простых геометрических фигур=) Иногда это выглядит очень мило)))
@АндресДеФонсека 4 месяца назад ⁺⁴
Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!
@MrDewiar 4 месяца назад ⁺¹
Спасибо Вам за высокую оценку
@kkellaxx 3 месяца назад ⁺¹
Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть
@MrDewiar 3 месяца назад
@@kkellaxx благодарю за экспертный отзыв 👍
@oliverhann 4 месяца назад ⁺³
Очень крутая идея и подход!
@MrDewiar 4 месяца назад ⁺¹
Спасибо!
@AlexeiRybalkin 4 месяца назад ⁺⁴
Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.
@MrDewiar 4 месяца назад ⁺¹
@@AlexeiRybalkin спасибо за отзыв!
@Жизньврассказах-ъ8ш 4 месяца назад ⁺²
Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!
@MrDewiar 4 месяца назад ⁺¹
Будем развивать! Спасибо Вам!
@daddaylenny 4 месяца назад ⁺⁴
Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉
@MrDewiar 4 месяца назад ⁺³
@@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝
@SankuroSanki 4 месяца назад ⁺⁵
Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок
@MrDewiar 4 месяца назад ⁺²
Вот такой комментарий совсем не ожидал увидеть! Благодарю!
@A.Bedulev 4 месяца назад ⁺²
Очень интересная мысль и тестирование.
@MrDewiar 4 месяца назад
Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics
Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"
@ShulmanAlex 4 месяца назад ⁺¹
Обалдеть! Подход бомба
@MrDewiar 4 месяца назад
Спасибо, будем развивать!
@ВалентинВоробей-ц2х 4 месяца назад ⁺¹
Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅
@MrDewiar 4 месяца назад ⁺¹
Валентин, да, интересное движение мысли у Вас.. будем развивать!
@anatolykosychenko8038 4 месяца назад ⁺¹
Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.
@MrDewiar 4 месяца назад
Спасибо Вам!
@artdiksonSTAR 4 месяца назад ⁺¹
Крутой тест. Это я вам подтверждаю как художник.
@MrDewiar 4 месяца назад
Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?
@artdiksonSTAR 4 месяца назад ⁺¹
@@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.
@MrDewiar 4 месяца назад ⁺¹
@@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍
@jonathanloder2789 4 месяца назад ⁺¹
Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!
@MrDewiar 4 месяца назад
Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения
@РоманКудрявский 4 месяца назад ⁺¹
@@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.
@MrDewiar 4 месяца назад ⁺¹
@@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту
@valerimihailov4819 4 месяца назад ⁺²
Интересное решение.
На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно.
Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов.
Получались забавные изображения. А иногда билиберда.
Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊
@MrDewiar 4 месяца назад
Валерий, благодарю!
@расслабон 4 месяца назад ⁺¹
Михаил- Вы просто монстр!) 👏👏👏
@MrDewiar 4 месяца назад
@@расслабон благодарю 🤝
@sergeykondrashov4188 4 месяца назад ⁺²
Классно! Можно визуализировать мат. графы, электрические схемы и т. п..
@MrDewiar 4 месяца назад ⁺¹
@@sergeykondrashov4188 нужно пробовать, да
@oksanastrelnikova6970 4 месяца назад ⁺²
Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите
@MrDewiar 4 месяца назад ⁺¹
@@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ
@whoareyouqqq 4 месяца назад ⁺¹
Очень креативная идея, спасибо!
@MrDewiar 4 месяца назад
Спасибо!
@VasylynaSkyba 4 месяца назад ⁺¹
Благодарю, было очень интересно
@MrDewiar 4 месяца назад
@@VasylynaSkyba спасибо Вам за отзыв
@VasylynaSkyba 4 месяца назад
@@MrDewiar ruclips.net/video/b-PxSLQoU-I/видео.htmlsi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)
@gadellatypov63 10 дней назад
Перспективная идея для генерации геометрически точных изображений. Можно научить генерировать svg, чертежи
@monsier_chess 4 месяца назад ⁺¹
Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом.
Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать.
По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.
@MrDewiar 4 месяца назад
Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.
@romanbolgar 4 месяца назад ⁺¹
Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать
@MrDewiar 4 месяца назад ⁺²
На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов
@YakovenkoPsy 4 месяца назад ⁺²
Интересная идея
@MrDewiar 4 месяца назад
Спасибо
@user-of-world 4 месяца назад ⁺¹
У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!
@MrDewiar 4 месяца назад
Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!
@vitall789 4 месяца назад ⁺²
Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!
@MrDewiar 4 месяца назад
@@vitall789 согласен с Вами
@dolotube 4 месяца назад ⁺¹
Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты.
Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла.
P.S. 21:06 Согласен с выводом "маленькое чудо".
@MrDewiar 4 месяца назад
@@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило
@Neurodelok 4 месяца назад ⁺²
Я так год назад анимацию заката делал
и снеговик и снег идёт (это другая)
@Neurodelok 4 месяца назад
Мало кто оценил))😊
@MrDewiar 4 месяца назад
@@Neurodelok оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))
@Neurodelok 4 месяца назад ⁺¹
Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.
@Neurodelok 4 месяца назад ⁺¹
А так да, анимаци заката в стиле word office.. )
@MrDewiar 4 месяца назад
@@Neurodelok да, было бы интересно глянуть
@Xaero546 2 месяца назад ⁺¹
Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.
@MrDewiar 2 месяца назад
Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.
@whoareyouqqq 4 месяца назад ⁺¹
Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях
@MrDewiar 4 месяца назад
Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями
@МихаилБелый-р9б 4 месяца назад ⁺²
"Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."
@MrDewiar 4 месяца назад
Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект
@my-rules 4 месяца назад ⁺²
класс
@MrDewiar 4 месяца назад
Спасибо!
@Alter-Ego-Persona 4 месяца назад
@@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@sergeykondrashov4188 4 месяца назад ⁺¹
Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)
@MrDewiar 4 месяца назад
Креативно))
@HEDELKA 4 месяца назад ⁺¹
Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки
@MrDewiar 4 месяца назад ⁺¹
Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается
@МаксимМедведев-ф9м 4 месяца назад ⁺¹
хммм а если мы готовую картинку загрузим - сможем с ней работать ?
@MrDewiar 4 месяца назад
Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))
@АлексКорсун-з6г 4 месяца назад ⁺¹
Привет, идея интересная. насколько ее можно применить к черчению ?
@MrDewiar 4 месяца назад
@@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины
@d_meroving 4 месяца назад ⁺¹
Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex
@MrDewiar 4 месяца назад
Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..
@Alter-Ego-Persona 4 месяца назад ⁺¹
Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому
@MrDewiar 4 месяца назад
Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи
@VasylynaSkyba 4 месяца назад ⁺¹
Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ
@MrDewiar 4 месяца назад
Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить
@VasylynaSkyba 4 месяца назад ⁺¹
@@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?
@MrDewiar 4 месяца назад
@@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть
@vitall789 4 месяца назад ⁺¹
По этому даже можно определить политический предпочтения модели - нарисовал себя негром!
@MrDewiar 4 месяца назад ⁺¹
@@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))
@gadellatypov63 10 дней назад
Запрос на небо и землю на русском языке, значит результат всё серое и мрачное)
@Сергей-р1ю1ь 4 месяца назад ⁺¹
Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут
@MrDewiar 4 месяца назад ⁺²
Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки
@2009Spread 4 месяца назад ⁺¹
Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.
@Trendish_channel Месяц назад ⁺¹
да, но также это можно было бы использовать в генерации каких либо звуков вместо того, чтобы ползать с микрофоном за $2 000 и потом еще и обрабатывать
@MrDewiar Месяц назад
Вообще использовать языковые модели для других, совершенно не типичных, задач - интересный эксперимент. По звукам, я еще не думал над этим

Следующие

Автовоспроизведение

Как Я Превращаю Любые Документы в Идеальные Промпты для ИИ! Узнай Секрет