Как LLM учится рисовать через код: новый взгляд на языковые модели

Поделиться
HTML-код
  • Опубликовано: 25 ноя 2024
  • Пример креативного использования LLM (Large Language Model) для решения нетривиальных задач, которые выходят за рамки общения. Вместо прямого рисования, модель использует язык программирования (JavaScript) как инструмент для визуализации, что подчеркивает гибкость и многозадачность языковых моделей.
    Трансформация текстового понимания в визуальный контент: программа показывает, как LLM может "мысленно" представить объект, который затем превращается в реальный рисунок через программные команды. Модель не просто "видит" объект, она его описывает так, чтобы другие системы могли его визуализировать.
    Попробовать можно здесь: dewiar.com/ai_...
    Все новости, идеи и предложения в Телеграм: t.me/dewiarx

Комментарии • 92

  • @oliverhann
    @oliverhann 2 месяца назад +3

    Очень крутая идея и подход!

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      Спасибо!

  • @АндресДеФонсека
    @АндресДеФонсека 2 месяца назад +4

    Идея гениальна! ) Это гораздо глубже, чем может показаться изначально! Поздравляю!

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      Спасибо Вам за высокую оценку

    • @kkellaxx
      @kkellaxx Месяц назад +1

      Даааа ето же жесть, етому его никто не учил, реально САМА. Я на Си игрушки делал и знаю что ето не так просто как кажется. Ето X, Y + RGB. Ей надо понять что ето дожно быть круглым и подставить фомулу круга потом его закрасить. А как понять на что лицо пожоже, если она разберется что на круг то ето прям крутая нейронка, а ещееее и на овал и формулу подставит и все правильно соединит... Гениально, ето пожоже на самообучение. Кто тему не понял, учите матчасть

    • @MrDewiar
      @MrDewiar  Месяц назад

      @@kkellaxx благодарю за экспертный отзыв 👍

  • @Жизньврассказах-ъ8ш
    @Жизньврассказах-ъ8ш 2 месяца назад +2

    Это похоже на маленького ребенка, который начинает рисовать. В будущем я думаю, благодаря Вам возможно будет и создавать тексты и картинки в одном окне, так сказать. Михаил, благодарю!

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      Будем развивать! Спасибо Вам!

  • @SankuroSanki
    @SankuroSanki 2 месяца назад +5

    Идея лучшая из всех что я видел за 2 года изучение возможностей нейронок

    • @MrDewiar
      @MrDewiar  2 месяца назад +2

      Вот такой комментарий совсем не ожидал увидеть! Благодарю!

  • @A.Bedulev
    @A.Bedulev 2 месяца назад +2

    Очень интересная мысль и тестирование.

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо большое. Сегодня сделал еще и в виде арены dewiar.com/dew_ai/arena-graphics
      Можно будет сравнивать модели между собой одновременно. Со дня на день станет доступна новая GPT-o1, сразу посмотрим что у нее с "воображением"

  • @AlexeiRybalkin
    @AlexeiRybalkin 2 месяца назад +3

    Гениально, клубокое виденье и нетривиальный подход. Михаил спасибо за знания.

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@AlexeiRybalkin спасибо за отзыв!

  • @daddaylenny
    @daddaylenny 2 месяца назад +4

    Михаил Вас можно даже поздравить с рождением творца,в этой модели просматривается будущее.Человек рассказывает о своих воспоминаниях и тут же получает их в виде образов...благодарю 🎉

    • @MrDewiar
      @MrDewiar  2 месяца назад +3

      @@daddaylenny Благодарю. Ждем Gpt5, посмотрим на что она будет способна в рамках этого решения 🤝

  • @valerimihailov4819
    @valerimihailov4819 2 месяца назад +2

    Интересное решение.
    На самом деле, таким образом проверять мировоззрение и логику нейронок очень интересно.
    Я похожим образом заставлял нейронки рисовать, но давал команду,- нарисуй собаку с помощью текстовых символов.
    Получались забавные изображения. А иногда билиберда.
    Мне такой вариант очень понравился, а моя дочка думаю будет в восторге! 😊

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Валерий, благодарю!

  • @sergeykondrashov4188
    @sergeykondrashov4188 2 месяца назад +2

    Классно! Можно визуализировать мат. графы, электрические схемы и т. п..

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@sergeykondrashov4188 нужно пробовать, да

    • @oksanastrelnikova6970
      @oksanastrelnikova6970 2 месяца назад +2

      Или рисовать архитектурные планы по описанию. Например: создай оптимальную внутреннюю планировку первого этажа 2х этажной виллы, включающую прихожую, гостиную, кухню, спальню и туалет в пространстве 5 х 12 м. Переведи в формат .dwg (или .rvt). Было бы ну просто подарком для архитекторов, рабоющих в архикаде или ревите

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@oksanastrelnikova6970 это более тонкая задача. Быстрее всего ее нужно решать другими инструментами.. например, если бы такое уже работало в браузере как программа.. осталось бы добавить управление через ИИ

  • @ВалентинВоробей-ц2х
    @ВалентинВоробей-ц2х 2 месяца назад +1

    Круто! Очень интересный подход вы разработали! По такой системе можно воспроизводить и музыку, и интонацию ответов ии, и даже осознанные движения и мимику, если конвертировать язык запрос в робота. Ой, кажется только что мы подошли еще на один шаг ближе к скорому киберпанку😅

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      Валентин, да, интересное движение мысли у Вас.. будем развивать!

  • @anatolykosychenko8038
    @anatolykosychenko8038 2 месяца назад +1

    Hi Ya & best wishes. SuperB! Thanks for work. Be Happy. Sevastopol/Crimea.

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо Вам!

  • @artdiksonSTAR
    @artdiksonSTAR 2 месяца назад +1

    Крутой тест. Это я вам подтверждаю как художник.

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Благодарю! Стоит ли это сделать теперь в виде "арены нейросетей" - чтобы можно было одновременно запустить несколько нейронок, и чтобы каждая из них нарисовала свое видение на наш запрос в отдельном окошке на единой страничке?

    • @artdiksonSTAR
      @artdiksonSTAR 2 месяца назад +1

      @@MrDewiar было бы неплохо дать нейронке дорисовывать детали и давать ей изображение что бы она пыталась срисовать. Не перерисовывать весь лист а дорисовывать детальки и менять. Тогда она могла бы создавать векторные файлы. Наверно)))). Это я так. Теоретизирую)))). А если ввести режим одновременного рисунка в соседних блоках по одному промпту - это был бы шикарный тест.

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@artdiksonSTAR Благодарю. А по дорисовке, я сделаю отдельное решение. Готовлю его 👍

  • @ShulmanAlex
    @ShulmanAlex 2 месяца назад +1

    Обалдеть! Подход бомба

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо, будем развивать!

  • @jonathanloder2789
    @jonathanloder2789 2 месяца назад +1

    Клод по такому принципу может генерировать SVG-изображения. Фактически Вы добавили такую возможность на любую языковую модель. Получилось здорово! Думаю, что здесь большой потенциал!

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо. SVG я тоже пробовал, но тяжеловато дается LLM, иногда так долго думает, что невозмоно работать. Может быть я что-то не так делал, но пока с SVG не выходит сделать решения

    • @РоманКудрявский
      @РоманКудрявский 2 месяца назад +1

      @@MrDewiar GPT-4, GPT-4o, Claude 3.5 Sonet, Llama 3.1 свободно генерят svg. На нормальном железе никаких проблем.

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@РоманКудрявский Да, делают.. я пробовал. Но даже таких простых изображений как в этом моем решении я не смог получить на SVG, хотя сам очень уважаю этот формат за надежность и простоту

  • @whoareyouqqq
    @whoareyouqqq 2 месяца назад +1

    Очень креативная идея, спасибо!

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо!

  • @VasylynaSkyba
    @VasylynaSkyba 2 месяца назад +1

    Благодарю, было очень интересно

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@VasylynaSkyba спасибо Вам за отзыв

    • @VasylynaSkyba
      @VasylynaSkyba 2 месяца назад

      @@MrDewiar ruclips.net/video/b-PxSLQoU-I/видео.htmlsi=L2A1l8KW5PVxpuEH оох, я не вставила ссылку)

  • @romanbolgar
    @romanbolgar 2 месяца назад +1

    Согласен необычно интересно. Может в дальнейшем будут какие-то более прикладные применения. Хотя действительно я бы не стал на этом заострять внимание. 20:02 - Интересно что они себя позиционируют как антропоморфных существ. Рисуют лицо глаза. Я почему-то думал они начнут рисовать связи Сложные алгоритмы компьютеры. Ещё Интересно насколько точно . Насколько известно даже у самых продвинутых нейросетей почему-то была проблема с рисованием пальцев. Почему-то для них так сложно было понять что пальцев на одной руке должно быть пять. Может здесь рисовали бы лучше потому что логика работает То есть другой принцип. Я пробовал даже сложные модели В основном выдают какой-то бред когда я им полностью описываю Как должна выглядеть структура молекулы воды. Уже молчу про более сложные молекулы. Может как-то двигаться в этом направлении... То есть делать упор на точность понимания. И эти две технологии возможно когда-то друг друга дополнят. Но как всегда некогда расписывать

    • @MrDewiar
      @MrDewiar  2 месяца назад +2

      На самом деле я сам думаю, что нам хватило бы и трех пальцев)))) В остальном, да, мне не приходили такие мысли, Вы тонко подметили особенности в передаче этих моментов

  • @monsier_chess
    @monsier_chess 2 месяца назад +1

    Классная идея! Нечто похожее приходило, так как сам тесно использвал формат SVG, с помощью которого сам что-то простенькое составлял кодом.
    Не знал кстати что в целом языковые модели справляются с такой задачей лучше чем я мог бы ожидать.
    По поводу идеи для уроков, мне кажется стоит использовать некий комбинированный подход: скорее не генерировать картинки, а подбирать их из интернета, заранее сгенерированной базы или чего-то подобного. Задачей ИИ скорее будет анимировать имеющиеся картинки.

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Да, я такой подход тоже продумывал. Как вариант, можно использовать CSS шрифты, есть иконочные шрифты - они векторные, на SVG построены. Можно их использовать. Но получится такой вид, как бы инфографикой-иконками.

  • @расслабон
    @расслабон 2 месяца назад +1

    Михаил- Вы просто монстр!) 👏👏👏

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@расслабон благодарю 🤝

  • @YakovenkoPsy
    @YakovenkoPsy 2 месяца назад +2

    Интересная идея

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо

  • @user-of-world
    @user-of-world 2 месяца назад +1

    У блендера вроде есть api. Идея использовать генерацию кода для рисования как бенчмарк креативности это огонь!

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Если у блендера есть АПИ, это будет очень здорово.. я изучу этот момент.. если это есть, обязательно сделаю решение на его основе!

  • @vitall789
    @vitall789 2 месяца назад +2

    Приберегите идею, для большее мощного граф. инструментария + будущей мощной модели, это действительно выход из ресурсного капкана!

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@vitall789 согласен с Вами

  • @Xaero546
    @Xaero546 16 дней назад +1

    Это ответ на мысли многих философов. Можно ли через текст описать окружающий мир не видя его. При том, что значения слов определяются через друг друга.

    • @MrDewiar
      @MrDewiar  7 дней назад

      Проводя такие эксперименты сам открываю для себя новые грани понимания многих вещей. Этим данное направление и интересно.

  • @DenysLos-lb4xe
    @DenysLos-lb4xe 2 месяца назад +2

    Я так год назад анимацию заката делал
    и снеговик и снег идёт (это другая)

    • @DenysLos-lb4xe
      @DenysLos-lb4xe 2 месяца назад

      Мало кто оценил))😊

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@DenysLos-lb4xe оно не слишком впечатляюще смотрится, больше как детские рисунки.. людям подавай 3д графику)))

    • @DenysLos-lb4xe
      @DenysLos-lb4xe 2 месяца назад +1

      Вчера заставил пиксельарт рисовать 20×20.. может скину если реализую "коллекцию" навесив атрибуты нейро.

    • @DenysLos-lb4xe
      @DenysLos-lb4xe 2 месяца назад +1

      А так да, анимаци заката в стиле word office.. )

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@DenysLos-lb4xe да, было бы интересно глянуть

  • @whoareyouqqq
    @whoareyouqqq 2 месяца назад +1

    Не надо забывать что языковую модель можно отдельно тюнить работать с канвасом, если бы специфических данных в корпусе не было совсем то никакая модель ничего толкового не нарисовала бы. И это хорошо видно на локальных моделях

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Я попробую прокачать свою локальную модель.. в ней 9 миллиардов параметров, и у нее пока очень плохо получается.. посмотрю, удастся ли улучшить это отдельными инструкциями

  • @sergeykondrashov4188
    @sergeykondrashov4188 2 месяца назад +1

    Попробовал визуализатор, велосипед абстрактный получился. А вот с визуализацией задачи Эйлера о семи мостах Кёнигсберга не справился. А ментальная карта с этой задачей получилась забавной и поучительной)

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Креативно))

  • @d_meroving
    @d_meroving 2 месяца назад +1

    Вообще с GPT обретают вторую жизнь многие ранее странные доменно-специфичные языки, такие как PostScript или Latex

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Да, теперь многое зависит просто от креативности.. да и маркдаун, формат разметки благодаря LLM получил вторую жизнь..

  • @my-rules
    @my-rules 2 месяца назад +2

    класс

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо!

    • @web-impuls
      @web-impuls 2 месяца назад

      @@MrDewiar Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
      Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
      Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

  • @МихаилБелый-р9б
    @МихаилБелый-р9б 2 месяца назад +2

    "Жаль, что у Вас ограниченные возможности. Таким, как Вы, нужно давать неограниченные ресурсы и команду для создания шедевров."

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Спасибо! Постепенно добавляются люди из разных точек нашей планеты. Есть ощущение, что скоро может появиться больше возможностей.. удивительно, что это постепенно вырастает в более серьезны проект

  • @dolotube
    @dolotube 2 месяца назад +1

    Как-то я мучал Клода на тему "обсуждаем идею иллюстрации для статьи". И когда я сказал "что-то не представляю, как это уместить", Клод мне выдал рисунок в HTML+CSS, где расположил основные элементы - вот тут гора, вот тут человечек, вот тут кнопка, символизирующая то-то. Это было очень мило. Тем более, что у Клода уже были реализованы артефакты.
    Основная проблема идеи в том, что LLM обучались не многофакторно, а только в L-измерении. Они понятия не имеют, что такое "верх" или "лево", как визуально "внутри" отличается от "снаружи", не отличат "круг" от "квадрата". Они видят разницу по использованию слов в том или ином контексте, но не увязывают это с визуальным измерением. У языковых моделей специализация другая. И поэтому упомянутый выше рисунок от Клода был лишен смысла.
    P.S. 21:06 Согласен с выводом "маленькое чудо".

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@dolotube интересно это наблюдать, и иногда это даже трогает, когда у LLM получается удачно и мило

  • @HEDELKA
    @HEDELKA 2 месяца назад +1

    Вы не пробовали просить пиксели? Типо если получить все пиксели и через код преобразовать их в фото, то может быть будет возможность получать те же самые изображения, тут будет большой + можно писать полноценные видео, так как у нас будет доступ к предыдущим ответам прекрепляя их мы будем вести целые цепочки

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      Я размышлял, их очень много, будет идти много токенов.. как только увеличиваем количество элементов на выдаче от ИИ, он начинает сильно медленно выдавать результат, и много путается

  • @АлексКорсун-з6г
    @АлексКорсун-з6г 2 месяца назад +1

    Привет, идея интересная. насколько ее можно применить к черчению ?

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@АлексКорсун-з6г можно пробовать, но быстрее всего будут неточности, это будет неприемлемо для точной дисциплины

  • @МаксимМедведев-ф9м
    @МаксимМедведев-ф9м 2 месяца назад +1

    хммм а если мы готовую картинку загрузим - сможем с ней работать ?

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Быстрее всего он не сможет.. хотя... нужно будет попробовать... (идея для следующего видео)))))

  • @web-impuls
    @web-impuls 2 месяца назад +1

    Михаил доброго времени! Я сам так же энтузиаст ИИ, делаю ботов для дискорд/телеграмм по генерации текста/картинок.
    Смотрите, теоретически, если зафайнтюнить языковую модель на данных буфера обмена base data ну вы поняли короче, то вполне могут получаться отличные изображения. Я вам даже больше скажу, я лично спалил модель далли-3 таким образом, что в запросе написал - ты здесь? И далли мне ответила плакатом с надписью - да, я тут! Это всё на английском конечно же. Рекомендую вам продолжить эксперименты с векторной графикой так же.
    Если вам нужна будет помощь с ботами допустим, готов вам помочь, как один энтузиаст, другому

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Благодарю! Приятно видеть своих людей. Мой телеграм @isaev_mp Буду рад связи

  • @VasylynaSkyba
    @VasylynaSkyba 2 месяца назад +1

    Миша, сохраните это видео. Это БОЛЬШАЯ идея А ещё лучше удалите, у вас украдут идею вот о проблемах данных для обучения. Они НЕ ЗНАЮТ к а к ещё учить ИИ

    • @MrDewiar
      @MrDewiar  2 месяца назад

      Сегодня пришла мысль разделить эту программу на много экранов, и сделать одновременное рисование любой задачи сразу несколькими моделями ИИ.. мы получим визуальный тест "воображения" .. это может быть эффективнее, чем различные сложные тесты, которые всегда лучше у производителей моделей, но которые мы никак не можем проверить

    • @VasylynaSkyba
      @VasylynaSkyba 2 месяца назад +1

      @@MrDewiar а если наоборот усложнять задачи на одной модели и потом посмотреть научивается ли она. Но вообще и это ерунда. Как эту идею развить в алгоритм обучения. Ну вот трансформер, это по сути алгоритм в алгоритме, и то какой прорыв. Ведь если текстовую модель учить рисовать, то это уже не работа с подборов весов, а качественное развитие связей. И ведь она(модель) вам ответила, она нарисовала, ну как на меня, это охренительно само по себе. Если скажем пойти от обратного, к а к у ю задачу можно дать модели, которая генерирует картинки? Что и как задать этой модели?

    • @MrDewiar
      @MrDewiar  2 месяца назад

      @@VasylynaSkyba Да, такие подходы позволяют выявлять новые грани моделей.. нужно подумать над продолжением, куда дальше это можно будет двинуть

  • @vitall789
    @vitall789 2 месяца назад +1

    По этому даже можно определить политический предпочтения модели - нарисовал себя негром!

    • @MrDewiar
      @MrDewiar  2 месяца назад +1

      @@vitall789 я только сейчас заметил.. точно..GPT4 - видит себя темнокожим)))

  • @Сергей-р1ю1ь
    @Сергей-р1ю1ь 2 месяца назад +1

    Бесполезная штука, если ты ни разу не дергал нейронки! в будущем да будет крут о если мощностя будут

    • @MrDewiar
      @MrDewiar  2 месяца назад +2

      Сейчас это только вариация на тему.. и альтернатива проверки мощности LLM на простом холсте. Могу добавить нейросеть от Яндекса.. сразу увидите качество (достаточно низкое). Можно и другие модели добавлять.. лучше ведь один раз увидеть, чем слышать хвалебные слова от разработчиков конкретной нейронки

    • @2009Spread
      @2009Spread 2 месяца назад +1

      Категорически не согласен. Тут речь идет о том что языковые модели реально могут воображать так как мы это себе представляем, а не какой-то рандомный мусор на выходе. У людей спошь и рядом такая проблема ты ему про одно говоришь а он вообразил вообще другое.