Hola, en el minuto 13:39 no me queda claro como llegas a que dldy es igual 2*(y_hat - y), revisando el blog veo que esta derivada es distinta y también en el blog parte de que la loss function es distinta (0.5*(y_hat - y)**2), sera que se tendría que utilizar SSE en vez de MSE como en el caso de la regresión?, no entiendo cuando usar una u otra.
Una consulta: cuando hago la normalizacion de los datos de entrenamiento y entreno al perceptron, los weights resultantes son distintos a los que deberian salir con la seed(42). Esto quiere decir que al normalizar los datos estamos modificando la funcion de costo? sirve de todos modos esta funcion de costo nueva?
En el paso de la disminución del gradiente, en la parte de la derivada de y^ (la derivada interna dl/dw), se tienen 2 pesos (w1 y w2) y 2 variables (x1 y x2). La derivada de todo eso es sólo x? :(((( No entiendoooo :((
Tu vídeo me fue de mucha ayuda en mi tarea, muchas gracias. Sigue así, ayudaras a muchos con tus vídeos.
Un abrazo.
gran contenido!! bastante amigable la explicacion!
Hola, en el minuto 13:39 no me queda claro como llegas a que dldy es igual 2*(y_hat - y), revisando el blog veo que esta derivada es distinta y también en el blog parte de que la loss function es distinta (0.5*(y_hat - y)**2), sera que se tendría que utilizar SSE en vez de MSE como en el caso de la regresión?, no entiendo cuando usar una u otra.
Una consulta: cuando hago la normalizacion de los datos de entrenamiento y entreno al perceptron, los weights resultantes son distintos a los que deberian salir con la seed(42). Esto quiere decir que al normalizar los datos estamos modificando la funcion de costo? sirve de todos modos esta funcion de costo nueva?
6to video visto
En el paso de la disminución del gradiente, en la parte de la derivada de y^ (la derivada interna dl/dw), se tienen 2 pesos (w1 y w2) y 2 variables (x1 y x2). La derivada de todo eso es sólo x? :(((( No entiendoooo :((
Como pe el minuto 12:10 del vídeo...