Есть новый курс "AI: от основ до трансформеров": ruclips.net/p/PL6-BrcpR2C5Q1ivGTQcglILJG6odT2oCY И курс "Modern Deep Learning", полностью посвященный трансформерам: ruclips.net/p/PL6-BrcpR2C5Rc1RI7Z9LHOu-lz6yNml2A
Спасибо большое за ваши лекции! Доступно изложены все подробности подаваемой информации, за исключением последних двух лекций, вопросов не оставалось после просмотра. Более того, смог сформировать понимание того "зачем это всё нужно?" и какую роль играет каждая модель. Просмотрел только 2 курса лекций - по машинному обучению и по глубокому, но уже чувствую себя намного увереннее в этой области!
Большое спасибо за лекции! Подскажите, пожалуйста, если в блоке есть два скип коннекшна с конкатенацией, то почему количество выходных векторов равно количеству входных, а не в 4 раза больше?
Привет) Пока не удалось - так как в этом семестре случилось еще больше преподавания, чем до этого, просто не всё стримлю. Заскучать должен в следующем семестре, там и надежда на развитие курса)
Спасибо за ваш труд. Единственное в данной лекции не совсем разобрался, не понял про "в MHA у нас векторное представление для i-го патча зависит от всех патчей изображения" На каком этапе это влияние происходит? У нас есть операция SDPA : SOFTMAX(Q@K.T) @ V. Взаимного влияния между отдельными векторами запросов вроде нет. Есть этап конкатенации, увеличивается количество столбцов. Этап преобразования: Q@W_q и O@W_o, при перемножении матриц у нас меняется каждый патч, но опять же взаимного влияния между строками вроде нет. Т.е. если мы заменим все патчи на другие кроме одного, разве выход из блока MHA для этого патча изменится?
Добрый день. Евгений, огромное спасибо за труд, наверное это лучшее объяснение трансформеров. На русском языке точно. на 18:57 есть достаточно странное утверждение, что исходные embeded patches если они одинаковы (близки друг к другу), то на выходе из MHA они опять близки друг к другу. А с чего им быть близкими? Каждая голова имеет свои веса, что задает свое преобразование Q, K, V. Близость двух конкретных Q из embeded, по-моему мнению, не ведет к близости O соответствующих им.
Здравствуйте! Спасибо за отзыв! К каждому патчу применяются одни и те же головы с одними и теми же весами. Если мы оставим за скобками Positional Encodings, то при одинаковых q будем получать одинаковые результаты, здесь все верно)
Есть новый курс "AI: от основ до трансформеров": ruclips.net/p/PL6-BrcpR2C5Q1ivGTQcglILJG6odT2oCY
И курс "Modern Deep Learning", полностью посвященный трансформерам: ruclips.net/p/PL6-BrcpR2C5Rc1RI7Z9LHOu-lz6yNml2A
Спасибо большое за ваши лекции! Доступно изложены все подробности подаваемой информации, за исключением последних двух лекций, вопросов не оставалось после просмотра. Более того, смог сформировать понимание того "зачем это всё нужно?" и какую роль играет каждая модель. Просмотрел только 2 курса лекций - по машинному обучению и по глубокому, но уже чувствую себя намного увереннее в этой области!
Спасибо за отзыв! Очень рад, что лекции оказались полезными :)
Больше видео!
Спасибо большое!
Спасибо, что смотрите) Больше видео будет)
Крутая лекция! Спасибо!
Спасибо, что смотрите! Если что, про архитектуру Transformer у меня есть отдельный подробный курс:
ruclips.net/p/PL6-BrcpR2C5Rc1RI7Z9LHOu-lz6yNml2A
Большое спасибо за лекции! Подскажите, пожалуйста, если в блоке есть два скип коннекшна с конкатенацией, то почему количество выходных векторов равно количеству входных, а не в 4 раза больше?
Это не конкатенация, а сумма :) потому размерность остаётся прежней
@@razinkov спасибо!
Привет, а обещанные доп. лекции вне курса не удалось реализовать/записать/выложить? Очень хотелось бы продолжение увидеть)
Привет) Пока не удалось - так как в этом семестре случилось еще больше преподавания, чем до этого, просто не всё стримлю. Заскучать должен в следующем семестре, там и надежда на развитие курса)
Спасибо за ваш труд. Единственное в данной лекции не совсем разобрался, не понял про "в MHA у нас векторное представление для i-го патча зависит от всех патчей изображения" На каком этапе это влияние происходит? У нас есть операция SDPA : SOFTMAX(Q@K.T) @ V. Взаимного влияния между отдельными векторами запросов вроде нет. Есть этап конкатенации, увеличивается количество столбцов. Этап преобразования: Q@W_q и O@W_o, при перемножении матриц у нас меняется каждый патч, но опять же взаимного влияния между строками вроде нет. Т.е. если мы заменим все патчи на другие кроме одного, разве выход из блока MHA для этого патча изменится?
Да, изменится, потому что изменятся матрицы K и V :) При том же q результат будет другой
Добрый день. Евгений, огромное спасибо за труд, наверное это лучшее объяснение трансформеров. На русском языке точно.
на 18:57 есть достаточно странное утверждение, что исходные embeded patches если они одинаковы (близки друг к другу), то на выходе из MHA они опять близки друг к другу.
А с чего им быть близкими? Каждая голова имеет свои веса, что задает свое преобразование Q, K, V. Близость двух конкретных Q из embeded, по-моему мнению, не ведет к близости O соответствующих им.
Здравствуйте! Спасибо за отзыв!
К каждому патчу применяются одни и те же головы с одними и теми же весами. Если мы оставим за скобками Positional Encodings, то при одинаковых q будем получать одинаковые результаты, здесь все верно)