Gradiente de la Función de Pérdida “Cross Entropy” con Softmax - Deep Learning - (Parte 8)

Pepe Cantoral, Ph.D.

Просмотров 4,9 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 18 сен 2024
Este es un video adicional de la serie Fundamentos de Deep Learning, en donde explico la intuición de la función de pérdida “Cross Entropy” en combinación con la función de activación Softmax.Asimismo, explico cómo calcular el gradiente de la función de pérdida con respecto a los scores que son la entrada a la función Softmax.
Acerca de la serie Fundamentos de Deep Learning con Python y PyTorch:
En esta serie de videos explico qué son las Redes Neuronales (Neural Networks) y qué es Aprendizaje Computacional (Machine Learning) así como Deep Learning. Empezamos con los principios matemáticos fundamentales hasta su implementación en código. Para esto, primero utilizaremos Python y Numpy para entender los principios de programación de Redes Neuronales incluyendo el algoritmo de retropropagación (backpropagation). Con estas bases, presentaremos el framework PyTorch y construiremos modelos más complejos como son Redes Neuronales Convolucionales (Convolutional Neural Networks - CNNs).
About the video series:
In this video series I will explain what Neural Networks are, and how Deep Neural Networks work, from the mathematical principles to their implementation in code. Firstly, we will use pure Python and Numpy to understand the fundamentals including backpropagation for a simple Fully Connected Network, and from there we will build on to Convolutional Neural Networks (CNN) using PyTorch. I will be uploading at least one new video every week until we reach different architectures of CNNs. Then, depending on the response and interest in the series I may cover newer models using Generative Adversarial Networks (GANs), and Recurrent Neural Networks.

Комментарии • 22

@giancarlopoemape5041 11 месяцев назад ⁺⁴
Estos videos son oro puro. Muy pocas personas, en especial en español, se atreven a explicar el transfondo matemático de las redes neuronales. Soy de las personas que les gusta entender el "por qué" y no solo el "cómo usar tal framework"
@PepeCantoralPhD 11 месяцев назад
De verdad, muchísimas gracias por tu comentario. Desde el principio del canal, esa fue uno de los objetivos, tratar de crear al menos una intuición tanto matemática como computacional del por qué algo funciona. Muchísimas gracias y muchos saludos!
@eduardomatosnunez7543 Год назад ⁺²
Esta es una clase magistral, sigo sorprendido de encontrar contenido de esta gama en RUclips. La matemática esta excelentemente detallada y explicada, ademas logras darle todo el sentido de calculo a la manera en que se obtiene la derivada de la función de perdidas con respecto a las entradas que llegan a la función Softmax. De verdad agradecido por el contenido, espero poder llegar al final de esta serie y encontrarme con nuevo contenido del canal
@ivandr38 6 месяцев назад ⁺¹
que buen vide, ere muy bueno explicando, felicidades
@PepeCantoralPhD 5 месяцев назад
Muchas gracias por tu comentario, me motiva muchíImo para seguir! Saludos!
@SRV900 6 месяцев назад ⁺¹
Sigo con esta maratón de 53 videos!
10/53 vistos. Este video me explotó un poco la cabeza, creo que es el punto más álgido en entender redes neuronales, si pasás este punto lo que sigue es cuesta abajo. Saludos!
@PepeCantoralPhD 5 месяцев назад
Me da tanto gusto que estés encontrado útiles los videos, espero vayas bien con el maratón o lo hayas terminado! Agradezco mucho tu comprensión en el tiempo que tomo para responder los comentarios, pero de verdad los leo todos y te agradezco mucho tu tiempo para escribirlos! Muchos saludos!
@untalbj 3 года назад ⁺⁷
muy buena explicación, se me aclaró hasta lo que pensé que ya tenía claro
@PepeCantoralPhD 3 года назад
Muchas gracias por tu comentario! Me motiva mucho a continuar publicando videos de este importante tema. Saludos.
@BusyBlueLion Год назад ⁺²
Sos un Crack, trataba de hacer esa derivada pero no se me daba, gracias por enseñarme estas cosas que son interesantes
@marinacuello7598 10 месяцев назад
Excelente video, muchisimas gracias por tu servicio a la comunidad!
@ariel-3131 3 года назад ⁺⁴
muchas gracias! deberías tener mas subs, aqui te dejo uno
@PepeCantoralPhD 3 года назад ⁺¹
Muchas gracias! Agradezco tu comentario, me motiva a continuar compartiendo este apasionante tema. Saludos!
@lumafe1975 Год назад
Ahi queda claro la conveniencia de la definición de la función Softmax y Costo con funciones exponenciales y logarítmicas. Al calcular el gradiente se llega a una simplificación que tiene muchas ventajas computacionales. Excelente explicación!
@luisfisic Год назад ⁺¹
Gracias por las matemáticas, la mayoria salta este tema y sólo muestra las ecuaciones de forma superficial.
@carlosandresferrosanchez4338 Год назад ⁺²
Sos un crack🦾
@PepeCantoralPhD Год назад
Muchas gracias!
@iancarbo212 9 дней назад
Buenas Pepe, muy buen video pero me surge una duda, al final, en el minuto 20:59 terminas diciendo que dL/dz = Y'k - Y No veo porque dices que k=i, al final z es un vector y mi intuición me dice que dL/dz sería Y'k - Y para k=i y para el resto de casos Y'i quedando así el vector dL/dz = (Y'1, ... , Y'k - Y, ..., Y'n) se entiende mi punto? Si no es así te agradecería si me lo aclarases, un saludo 👍
@fernandofuentes7617 Год назад
hola, por qué luego de aplicar softmax dejas solo una clase con max probabilidad 1 y el resto 0? tenía entendido que softmax distribuye la probabilidad, y que luego de eso se selecciona el máximo, ¿por qué es mejor considerar solo una clase? ¿no es relevante para la loss lo que ocurra con las prob de las otras clases? saludos, gracias
@BusyBlueLion Год назад ⁺¹
sobre lo de ¿no es relevante para la loss lo que ocurra con las prob de las otras clases?, en este caso particular que la funcion loss es x entropy y termina considerando solo la prob de la clase que tenga probabilidad de 1 porque en la sumatoria todos los terminos menos uno se terminan llendo a 0 porque se multiplican por 0, que es la entrada del hot vector correspondiente, pero con por ejemplo otra funcion loss popular como es MAE, si termina considerando todas las prob, ahi algo que no se y dejo la duda es como saber escoger la funcion loss de acuerdo al problema, pero bueno, eso ya es otro tema
@giancarlopoemape5041 11 месяцев назад
@@BusyBlueLion para aportar mi granito de arena respecto a función de loss: en la última capa normalmente se escoge sigmoid si es clasificación binaria; softmax, si es clasificación de más de dos clases; y linear, para predicción de valores que pueden ser negativos o positivos (como precios, medidas, o valores escalares en general)
@cokitoquintal3110 Год назад
Mi cerebro no está cerebreando

Следующие

Автовоспроизведение

Backpropagation - Gradient Descent, Ejemplo completo -Fundamentos de Deep Learning - (Parte 9)