#10. Обучение с подкреплением или как загнать машину на гору | Генетические алгоритмы на Python
HTML-код
- Опубликовано: 23 май 2021
- Решается задача заезда машины на холм с помощью генетического алгоритма, используя принцип обучения с подкреплением. Введение в пакет OpenAI Gym и использование окружения MountainCar-v0. Рассматриваются методы: make(), reset(), step(), render() и close().
Телеграм-канал: t.me/machine_learning_selfedu
Инфо-сайт: proproprogs.ru/ga
ga_10.zip: github.com/selfedu-rus/geneti...
OpenAI Gym: gym.openai.com/docs/
DEAP: deap.readthedocs.io/en/master/
Какой шикарный канал, спасибо
Спасибо, Сергей!
Спасибо! Классный урок. Но хотелось бы лекцию по настройке нейронных сетей с помощью генетического алгоритма и сравнение отборы лучших особей и турнирного отбора.
Следующее занятие об этом ))
очень интересно! Я только начинаю учить подобное, и не все понимаю, но мне оч нравятся ваши видео
Спасибо, отличное видео!
Спасибо за видео.
Не плохо, но хорошо бы было пояснить сколько очков макс. за выполненное задание и подчеркнуть, что за каждую команду = -1, а также сколько за мин. расстояние за игру. И последнее, как вы можете танцевать под такую музыкальную концовку?
И что будет, если поместить этот алгоритм в другую среду? Он же по сути к одной конкретной среде адаптируется. Как сделать алгоритм, который адаптируется под любую среду схожего типа? За уроки спасибо огромное. Колоссальная работа.
для каждой задачи - свой ГА
По моему это единственный канал где такая подробная информация.
Минус есть не раскрывается смысл как работает на самом деле под капотом.
Это подходит для гуманитарных.
Я вот не могу понять пока не знаю почему это работает.
Я начал изучать программирование с того как думает компьютер архитектуру.
Встречал материал по ии его преподносят так запутанно что это все, теряет смысл.
Десятки видео уроков показывают что они обучили agents и все уроки вилой по воде.
Одна вода вода и только.
Поэтому перешёл на иностранный источник там четко без воды без теоретических сказок.
Спасибо за урок
Вы никогда не думали о том, чтобы сделать уроки по принципам солид или многопоточности в с++?
Спасибо, слишком узкая тема, мало просмотров будет.
Можно так сказать: ген. алгоритм в данном случае ускоряет подбор гипер-параметров нейронной сети? Или нет всё таки?
внутренних параметров, хотя, ее применяют и для гиперпараметров тоже
Хотел бы задать вопрос не очень по теме, q-learning использует нейронные сети, или для него они не нужны?
Насколько я помню, q-learning - это про то как вычислять выигрыш. Подробнее могу порекомендовать книгу: Саттон Барто. Обучение с подкреплением.
@@selfedu_rus Спасибо
В генетическом алгоритме есть переобучение? Когда выучит все как есть а на новом не будет хорошо работать, т.е. придется новый обьект агент выводить
Это алгоритм обучения, нахождения решения, а не модель. Переобучается модель, а не алгоритмы обучения. Поэтому смотря к чему ГА применяется. Если к НС, то конечно, переобучение возможно. Если кораблики в морской бой расствляются, то какое здесь переобучение? ))
Здравствуйте, вопрос: А как реализовать или создать свое собственное окружение при обучении с подкреплением, а не загружать готовые?
Смотря какое окружение, если вы говорите о реализации физики, то для Python посмотрите в сторону физического движка Box2D - как наиболее простого.
@@selfedu_rus Спасибо, а если речь идет, например, о статистических данных, как тогда быть? И можно ли где-то почитать об общих принципах построения своего собственного окружения.
@@myrzen5474 тогда Pygame, все это творческий элемент и что-то готового мало
А откуда берется переменная abs в score = abs(observation[0] - FLAG_LOCATION) ?
abs это модуль |x|
если у тебя ошибка типа нет такой переменной, то напиши в начале программы "import math"
Тут же нет обучения с подкреплением, только генетический алгоритм
обучение с подкреплением - это общая область, суть которой корректировать поведение в зависимости от сигналов внешней среды. В частности, генетический алгоритм выделяет лучших потомков и таким образом поощряет их. Это и есть элемент обучения с подкреплением. Существуют и другие подходы из теории игр, в частности, известные Q-алгоритмы. Наверное, вы о них и подумали.
@@selfedu_rus Просто для меня обучение с подкреплением это только q-обучение, видемо я не до конца понимаю смысл термина "обучение с подкреплением"
6:03 _Двухсот ген..._ Вам самому это слух не режет? Правильно ведь говорить _Двухсот генОВ_