Esse é o único curso que eu pagaria se tivesse grana. Verdadeiramente ensina. Fundamentos matemáticos e prática! Parabéns cara, continue ensinando dessa forma. Acabou de ganhar um inscrito
Cara, o canal de vocês é muito bom! O meu sonho era achar um canal assim, onde há links de vídeos explicando todos os conceitos da aula, e os vídeos linkados também linkando outros vídeos para entender eles, como se fosse uma árvore de conhecimento. Parabéns!
Primeiramente, gostaria de expressar minha gratidão pela disposição em compartilhar conhecimentos. Em seguida, elogiar o professor pela excelente transmissão do conteúdo. Por fim, apontar um pequeno erro no vídeo que não compromete a compreensão: aos 40 minutos e 13 segundos, o professor utiliza a derivada do custo em relação a b em vez da derivada do custo em relação a m. Mais uma vez, muito obrigado e parabéns.
Quando o cara realmente domina o assunto é outra coisa viu.... que didática magnífica, não haveria forma de resumir melhor, ainda mais para quem não é da área. Parabéns
Muito obrigado professor, não compreendi 100% dos calculos mas a logica principal compreendi 100%, a descida do gradiente não é nada mais que a tentativa de se aproximar do valor esperado a partir de derivadas. Obrigado
Exatamente, também não acompanhei 100% a parte matemática (e nem era meu objetivo) mas assistir o processo que ele usou pra montar as fórmulas esclareceu demais o que acontece por trás dos scripts de regressao linear
Agora estou começando a entender a base de como é machine learning, não é muito fácil, mas com suas aulas de matemática tudo esta ficando mais claro, obrigado.
Parabéns, vc muito didático. Faz jus ao nome do canal. Em todos os vídeos que assisti encontrei a mesma qualidade na explicação. Obrigado pelo conteúdo.
Em primeiro lugar gostaria de agradecer pela boa vontade em compartilhar conhecimentos. Em segundo elogiar o professor que conseguiu passar o conteúdo muito bem. Finalmente registrar um pequeno equívoco no vídeo que não prejudica o entendimento: aos 40 minutos e 13 segundos o professor usa a derivada do custo em relação a b em vês da derivada do custo em relação a m. Mais uma vez muito obrigado e parabéns.
Excelente explicação! Sou enfermeiro e estou no começo de meus estudos em Machine Learning e Inteligência artificial. Achei sua aula muito didática, de modo que estou conseguindo compreender muito melhor os assuntos. Muito obrigado!
Um dos melhores canais. Aqui dou like antes de começar o vídeo porque já sei que vem coisa boa. 3m 15 aulas tirei duvidas de Matemática que tinha a anos.
Cara, meus sinceros parabéns. Que aula sensacional! Conseguiu atender muito bem o que se propôs e até superou as expectativas! Ainda não havia assistido nenhuma aula tão boa sobre o assunto.
Parabéns pela aula! conteúdo bem explicado. Geralmente os conteúdos no RUclips que tentam explicar algo são superficiais. Mas essa sim é uma aula bem fundamentada e bem explicada.
Nossaaaaaaaaaaaaaaaaaaaaaa como sempre em todos os videos que vc apresenta fiquei de boca aberta. kkkkkkkkkk Ajudou muito no meu curso de pós graduação. Gratidão.
Curso excelente! Continue se aperfeiçoando. Muito obrigado por compartilhar seu conhecimento. Sugestão de marcadores: Board Master recarregáveis da Pilot.
Aula excelente em conteúdo e didática. Realmente muito boa Mas sugiro refazê-la, devido à forma. Uma aula tão boa não merece sofrer por falta de tinta 😉
Caraca é o mesmo cara dó descomplicando a música, assim como eu temos duas paixões: música e tecnologia. Parabéns pela iniciativa e pela didática, quando vi que era você já sabia que a exploração ia ser top!
Olá, a explicação ficou bem bacana! Parabéns! No código: Os valores da derivadam*L e derivadab*L estão somando ao m e ao b. Eles deveriam estar subtraindo para convergir :)
As melhores aulas são as suas, muito obrigada! Você tem uma excelente Didática, muito objetivo e simplifica muito os conceitos. Me ajudou muito nos meus estudos.
Em relação ao gráfico do erro em função do "m" e "b", vamos pegar como exemplo o "m", no gradiente estocástico é correto afirmar que terá 1 gráfico para cada amostra, tendo em vista que estamos pegando de uma em uma amostra para atualizar o meu "m" e no batch gradiente o gráfico será em relação a todas as amostras, já que ele calcula o erro de todos e depois atualiza o "m". Desculpa se a pergunta ficou um pouco confusa.
4 года назад+1
Na realidade o gradiente estocástico não pega somente uma amostra, mas um lote de amostras (batch size) para fazer cada atualização. O gradiente descendente não-estocástico pega todas as amostras para fazer cada atualização.
Parabéns pela excelente explicação, melhor vídeo sobre GD. Estou iniciando em ML e gostaria de pedir um favor: Teria como compartilhar o código e os números que você mostrou no gráfico? Gostaria de aplicar pra consolidar o conhecimento. Obrigado!
O objetivo principal e somente reduzir o custo, mesmo quando acontece aquele erro que o numero fica gigante, tem que tocar os pesos pra recomeçar ou tem um erro no calculo?
Obrigado, já tinha estudado tudo isso na facul e em uns 3 cursos diferentes mas essa é a primeira vez que consegui entender. Só fiquei com uma dúvida, como definir as constantes alfa e beta?
4 года назад+2
Os parâmetros (como o learning rate) vão depender muito do problema em questão, geralmente se procura por tentativa e erro mesmo
muito bom!! eu só queria tirar uma dúvida, não sei se vou conseguir me expressar bem, mas é o seguinte: porque é necessário tirar a derivada da função de custo para corrigir o valor de 'm', eu não poderia só fazer a divisão do custo por 'm' e multiplicar pela constante, então corrigir 'm'...?
4 года назад+1
A derivada da função de custo em relação a m revela a taxa de variação da função em relação a m (isso é útil para atualizar m). Dividir a função de custo por m revela quantas vezes o custo cabe em m (isso não tem muito significado prático para atualizar m).
Desculpa se essa pergunta for um "tiro na matemática", mas ficou uma coisa na minha cabeça em relação a derivada parcial. Ela nos da a inclinação da reta tangente a curva naquele dado ponto, correto ? Nos queremos que essa inclinação chegue a zero, correto ?, porém e se a função de custo tiver muitos mínimos locais e globais, e muitos máximos locais e globais, ela pode acabar ficando presa em um, por exemplo, máximo local, já que a inclinação é zero ?
4 года назад+1
Sempre há o risco de ficar preso em um mínimo local em vez de global, é um dos desafios de pesquisa dos métodos atuais de gradiente descendente. Porém não vai ficar preso em pontos de máximo local pois o gradiente caminha na direção de mínimo, não de máximo. Lembre-se que antes de chegar no ponto de derivada=0 existe um processo. Esse processo não anda para cima e sim para baixo
Ótimo video Parabéns e obrigado por compartilhar o conhecimento! Uma duvida com relação ao seu print (codigo python) e ao que foi mostrado na lousa durante aula: No print, m=m + L(d(custo)/dm) e na lousa m=m - L(d(custo)/dm). Tentei reproduzir o algoritmo, usando a formula do print (com "+") e os valores de m e b divergiram. Ai substitui o sinal da formula por "-" , ai sim m e b convergiram. Qual o porquê disso? Depende dos valores do chute inicial convergir ou divergir ou realmente a formula deve ser com "-"?
4 года назад+2
É com "- " mesmo, mas tem outras questões que fazem convergir ou divergir, como clipping, coisa que não cheguei a abordar nesse vídeo. Desculpe a confusão, abraços
Eu sei que vcs vão dar risada do que vou comentar, mas enquanto ele explicava eu ia visualizando mentalmente lembrando do jogo Minecraft. Pra quem nunca jogou uma breve explicação: no jogo existem coordenadas X, Y e Z que representam seu posicionamento no mapa, as vezes para procurar algo vc precisa encontrar a exata posição daquele local colocando os valores exatos de X, Y e Z. Estou chocado que inconscientemente eu usava Gradiente Descendente no Minecraft e não sabia!
Complemento: Vale lembrar que o Gradiente descendente é recomendado nos casos onde temos muitas dimensões, ou seja, muitas variáveis, no exemplo do vídeo é como se tivéssemos muitas variáveis x_i diferentes e um m_i diferente para cada x_i diferente, ele é muito usado neste contexto por causa que se usarmos o método dos mínimos quadrados para estimar os valores do b, e no caso dos m_i diferentes, igual é utilizado em regressão linear múltipla, acabamos tendo problemas nos casos de muitas dimensões, porque computacionalmente acaba sendo mais custoso e consumindo mais tempo, do que se utilizarmos o gradiente descendente.
3 года назад
Olá, tudo bem ? Parabéns pelo canal. Só uma duvida, para os coeficientes m e b, será que não seria interessante que no chute inicial fosse usado os resultados das estimativas feitas pelos MMQ ? Então para basicamente calcularia os valores de m e b pelo MMQ e usaria eles como primeira aproximação, creio que o algoritmo iria convergir mais rápido para os valores de m e b " ótimos ".
3 года назад
Nesse caso simples poderia ser utilizado sim, mas quando o gradiente descendente é utilizado em problemas mais complexos como redes neurais, não há como fugir de uma inicialização randômica..
3 года назад
@ Entendi... uma outra coisa que pensei para uma inicialização mais perto da ótima, seria selecionar dois pontos da base de dados aleatoriamente, no inicio da curva e no final, traçando uma reta entre eles, então como chute inicial usaria os coeficientes da reta que os liga.
Esse cálculo se aproximação tá parecendo o algoritmo PID q usamos pra controle de processos contínuos. Esse “learning rate” lembra a constante proporcional kP
Aquilo ainda não é, mas, recomendo estudar sobre erro quadrático médio, deste modo, vc dá mais ênfase aos maiores erros, pois o mesmo é elevado ao quadrado, assim garantindo um "balanceamento".
Adorei! Tenho uma duvida: o valor do m e do b tem que ser igual aos coeficientes calculados por Minimos Quadrados Ordinarios?
5 лет назад+1
Isso, a função de custo (que é a responsável pela otimização do problema) utiliza na maior parte das vezes mínimos quadrados ordinários (como nesse exemplo dessa aula). Mas em alguns algoritmos de machine learning é possível otimizar funções de outras formas, com ligeiras adaptações do OLS. No módulo 1 do nosso curso de machine learning, por exemplo, eu mostro o conceito de regularização, onde a função de custo usa OLS com alguns parâmetros extras
Esse é o único curso que eu pagaria se tivesse grana. Verdadeiramente ensina. Fundamentos matemáticos e prática!
Parabéns cara, continue ensinando dessa forma. Acabou de ganhar um inscrito
Cara fiz o curso e recomendo
Equação da reta
Símbolo somatório
Cálculo (AULA 1): Limite
Cálculo (AULA 2): Derivada
Cálculo (AULA 3): Derivadas Parciais
Cálculo (AULA 4): Máximos e Mínimos de funções, com exemplos
Precisei ver 6 videos pra chegar nesse, valeu muito.
Didática muito boa, excelente.
Valeu pela lista
0:48
Cara, o canal de vocês é muito bom! O meu sonho era achar um canal assim, onde há links de vídeos explicando todos os conceitos da aula, e os vídeos linkados também linkando outros vídeos para entender eles, como se fosse uma árvore de conhecimento. Parabéns!
Pura vrdd são ótimos
Primeiramente, gostaria de expressar minha gratidão pela disposição em compartilhar conhecimentos. Em seguida, elogiar o professor pela excelente transmissão do conteúdo. Por fim, apontar um pequeno erro no vídeo que não compromete a compreensão: aos 40 minutos e 13 segundos, o professor utiliza a derivada do custo em relação a b em vez da derivada do custo em relação a m. Mais uma vez, muito obrigado e parabéns.
Tive diversas aulas sobre assunto, inclusive na fgv. E esse vídeo foi a única maneira que compreendi. Sua didática e muito boa. Parabéns.
Concordo
Quando o cara realmente domina o assunto é outra coisa viu.... que didática magnífica, não haveria forma de resumir melhor, ainda mais para quem não é da área. Parabéns
Magnífico! Melhor aula de matemática que eu assisti na minha vida, e olha que eu já dediquei muitas horas para assistir vídeo aulas de exatas.
Cara! De longe, foi a melhor aula / explicação que encontrei no RUclips! Parabéns!!!
Excelente o canal de vocês. Parabéns pelo trabalho. Que tenham muito sucesso!
Uma aula objetiva e precisa. Entendi conceitos, que já tinha visto em outros lugares e não tinha entendido direito, de forma muito clara. Parabéns!!!
Excelente!! A lógica de todos os conteúdos desta série foram estruturadas, facilitando o entendimento. Sem enrolação, no "time" certo. Parabéns!!
Muito obrigado professor, não compreendi 100% dos calculos mas a logica principal compreendi 100%, a descida do gradiente não é nada mais que a tentativa de se aproximar do valor esperado a partir de derivadas. Obrigado
Exatamente, também não acompanhei 100% a parte matemática (e nem era meu objetivo) mas assistir o processo que ele usou pra montar as fórmulas esclareceu demais o que acontece por trás dos scripts de regressao linear
Agora estou começando a entender a base de como é machine learning, não é muito fácil, mas com suas aulas de matemática tudo esta ficando mais claro, obrigado.
Cara, quase ninguém tem curso voltado pro Pytorch.
Considere ser um pioneiro aqui no Brasil.
A melhor didática! Que canal perfeito!
Muito obrigado ! Após assistir os vídeos, consegui implementar o gradiente descendente e a regressão linear !
Parabéns, vc muito didático. Faz jus ao nome do canal. Em todos os vídeos que assisti encontrei a mesma qualidade na explicação. Obrigado pelo conteúdo.
Melhor explicação que já ouv sobre GD, sem fugir da matemática. Obrigado!
O que é GD?
@@rodrigosantos8340 Gradiente Descendente, ué
você é o lider !!! muito obrigado por este video
Parabéns pela sua didática.. trabalho com regressão desde 1981 e sou engenheiro
É de levantar e aplaudir de pé uma aula dessa!
Em primeiro lugar gostaria de agradecer pela boa vontade em compartilhar conhecimentos. Em segundo elogiar o professor que conseguiu passar o conteúdo muito bem. Finalmente registrar um pequeno equívoco no vídeo que não prejudica o entendimento: aos 40 minutos e 13 segundos o professor usa a derivada do custo em relação a b em vês da derivada do custo em relação a m.
Mais uma vez muito obrigado e parabéns.
A mesma coisa aos 40:19
Regressão linear é fácil de entender. Confesso, porém, que essa função de custo colocou bons obstáculos no caminho. Ótimo vídeo!
Excelente explicação! Sou enfermeiro e estou no começo de meus estudos em Machine Learning e Inteligência artificial. Achei sua aula muito didática, de modo que estou conseguindo compreender muito melhor os assuntos. Muito obrigado!
Cara, essa foi uma das melhores aulas que já assisti. Parabéns, continua nessa pegada porque precisamos de mais conteúdos relevantes
Um dos melhores canais. Aqui dou like antes de começar o vídeo porque já sei que vem coisa boa. 3m 15 aulas tirei duvidas de Matemática que tinha a anos.
Cara, meus sinceros parabéns. Que aula sensacional! Conseguiu atender muito bem o que se propôs e até superou as expectativas! Ainda não havia assistido nenhuma aula tão boa sobre o assunto.
Que aula incrível, deveria ter muito mais views. Já tive aula na graduação e pós sobre o tema mas nunca nesse nível. Parabéns!
Cara, esse video é muito bom, a forma que tu explica realmente faz a diferença. Já vi muitos videos, mas o teu realmente fez a diferença. Obrigado!
Esplêndido!!! Melhor vídeo aula sobre o tema sem dúvidas!
Aula muito boa ... realmente didática é tudo ... vocês são o meu material de apoio. Muito obrigada
Parabens, você é um verdadeiro didacta. Aprender assim ate parace fantasia
cara...vc é maravilhos!!! É para louvar de pé! eu ouvi um amém??
Ótimo canal bem explicado e bem lincado
Parabéns pela aula! conteúdo bem explicado. Geralmente os conteúdos no RUclips que tentam explicar algo são superficiais. Mas essa sim é uma aula bem fundamentada e bem explicada.
Nossaaaaaaaaaaaaaaaaaaaaaa como sempre em todos os videos que vc apresenta fiquei de boca aberta. kkkkkkkkkk Ajudou muito no meu curso de pós graduação. Gratidão.
MEU DEUS! TÚ MERECE UM PRÊMIO
Curso excelente! Continue se aperfeiçoando. Muito obrigado por compartilhar seu conhecimento. Sugestão de marcadores: Board Master recarregáveis da Pilot.
Cara muito obrigado por investir seu tempo em NÓS.. grande abraço.
Aula muito bem explicada. Parabéns! E ganhou mais um seguidor! Obrigado por compartilhar conhecimento e explicar de forma didática! 👏👏👏
Obrigada professor por transmitir esse conhecimento de maneira tão linda e simples!!!!!
O melhor do you tube
Aula excelente em conteúdo e didática. Realmente muito boa
Mas sugiro refazê-la, devido à forma. Uma aula tão boa não merece sofrer por falta de tinta 😉
Sensacional, muito obrigado por compartilhar o seu conhecimento.
Muito bom, nunca tinha visto esse uso para a matemática.
Gratidão por todas as aulas, são maravilhosas e com uma didática simples e explicativa.
Ola, muito obrigado pela explicação! tenho muito interesse nesse assunto e gostei muito da sua didática, Valeu amigo.
Que curso massa, muito obrigado!
Parabéns aula muito boa, obrigado por compartilhar este conhecimento de forma gratuita.
Parabéns demais pelas aulas!! Você tem uma didática absurda, MUITO obrigado.
Canal excelente, ótima didática!!! Parabéns e muito o brigado!!!!
Suas aulas são ótimas!
Caraca é o mesmo cara dó descomplicando a música, assim como eu temos duas paixões: música e tecnologia. Parabéns pela iniciativa e pela didática, quando vi que era você já sabia que a exploração ia ser top!
Olá, a explicação ficou bem bacana! Parabéns! No código: Os valores da derivadam*L e derivadab*L estão somando ao m e ao b. Eles deveriam estar subtraindo para convergir :)
Parabéns pela aula!! Muito bom o canal, ótima explicação sem slides chatos.
As melhores aulas são as suas, muito obrigada! Você tem uma excelente Didática, muito objetivo e simplifica muito os conceitos. Me ajudou muito nos meus estudos.
Excelente aula! Você conseguiu deixar o assunto bem elucidado.
Em relação ao gráfico do erro em função do "m" e "b", vamos pegar como exemplo o "m", no gradiente estocástico é correto afirmar que terá 1 gráfico para cada amostra, tendo em vista que estamos pegando de uma em uma amostra para atualizar o meu "m" e no batch gradiente o gráfico será em relação a todas as amostras, já que ele calcula o erro de todos e depois atualiza o "m". Desculpa se a pergunta ficou um pouco confusa.
Na realidade o gradiente estocástico não pega somente uma amostra, mas um lote de amostras (batch size) para fazer cada atualização. O gradiente descendente não-estocástico pega todas as amostras para fazer cada atualização.
@ Obrigado pela resposta :)
Excelente aula, parabéns!!!
Muito obrigado. Finalmente a ficha caiu.
AGORA EU ENTENDI. EU ESTAVA CEGO, MAS AGORA EU VEJO
Super aula! Obrigado 😉
Agora é fazer muito exercícios pra fixar melhor kkkk
Entendi tudo. Mas, também, com essa didática tem como não entender?
APENAS OBRIGADA!
Parabéns, bastante esclarecedor!
Ótimo vídeo, parabéns pela didática!
Parabéns pela excelente explicação, melhor vídeo sobre GD. Estou iniciando em ML e gostaria de pedir um favor: Teria como compartilhar o código e os números que você mostrou no gráfico? Gostaria de aplicar pra consolidar o conhecimento. Obrigado!
muito boa a aula, obrigado
O objetivo principal e somente reduzir o custo, mesmo quando acontece aquele erro que o numero fica gigante, tem que tocar os pesos pra recomeçar ou tem um erro no calculo?
Excelente metodologia
Excelente vídeo! Parabéns!
aaaaahh me salvou, melhor explicação.
Obrigado, já tinha estudado tudo isso na facul e em uns 3 cursos diferentes mas essa é a primeira vez que consegui entender. Só fiquei com uma dúvida, como definir as constantes alfa e beta?
Os parâmetros (como o learning rate) vão depender muito do problema em questão, geralmente se procura por tentativa e erro mesmo
Parabéns professor, muito boa sua didática.
Parabéns, me ajudou bastante, continue pf!
Muito bom amigo!!!!!! Obrigado
Magnífica aula!!!!!!!
Você poderia explicar o MMQ também? Usando matrizes (álgebra linear)?
O que você me indica como material (livros) para estudar função sigmoide e regressão logística? Parabéns
impressão minha ou sua aula foi baseada na aula do Andrew NG? parabéns pela iniciativa, excelente aula.
Não, na realidade foi mais inspirada em uma aula de Daniel Shiffman
@ Bacana, meus parabéns de todo modo. Espero que não tenha entendido o comentário acima como critica e sim apenas como uma pergunta mesmo.
Na função custo, se é elevado ao quadrado para não ter valores negativos, o erro tambem deveria ser ao quadrado ficando : custo^2 = (reg -y)^2 ??
O ideal deveria ter um módulo, já que ele estava somando os erros
Cara, faz uma aula de filtro de kalman!
Thanks a lot for explanation, congratulations Big Buddy!
muito bom!! eu só queria tirar uma dúvida, não sei se vou conseguir me expressar bem, mas é o seguinte: porque é necessário tirar a derivada da função de custo para corrigir o valor de 'm', eu não poderia só fazer a divisão do custo por 'm' e multiplicar pela constante, então corrigir 'm'...?
A derivada da função de custo em relação a m revela a taxa de variação da função em relação a m (isso é útil para atualizar m). Dividir a função de custo por m revela quantas vezes o custo cabe em m (isso não tem muito significado prático para atualizar m).
ficou bom buscando exatamentoi isso, ciencia de dados, marchine learning
Desculpa se essa pergunta for um "tiro na matemática", mas ficou uma coisa na minha cabeça em relação a derivada parcial. Ela nos da a inclinação da reta tangente a curva naquele dado ponto, correto ? Nos queremos que essa inclinação chegue a zero, correto ?, porém e se a função de custo tiver muitos mínimos locais e globais, e muitos máximos locais e globais, ela pode acabar ficando presa em um, por exemplo, máximo local, já que a inclinação é zero ?
Sempre há o risco de ficar preso em um mínimo local em vez de global, é um dos desafios de pesquisa dos métodos atuais de gradiente descendente. Porém não vai ficar preso em pontos de máximo local pois o gradiente caminha na direção de mínimo, não de máximo. Lembre-se que antes de chegar no ponto de derivada=0 existe um processo. Esse processo não anda para cima e sim para baixo
@ entendi, obrigado pela explicação 😀
Ótimo video Parabéns e obrigado por compartilhar o conhecimento! Uma duvida com relação ao seu print (codigo python) e ao que foi mostrado na lousa durante aula: No print, m=m + L(d(custo)/dm) e na lousa m=m - L(d(custo)/dm). Tentei reproduzir o algoritmo, usando a formula do print (com "+") e os valores de m e b divergiram. Ai substitui o sinal da formula por "-" , ai sim m e b convergiram. Qual o porquê disso? Depende dos valores do chute inicial convergir ou divergir ou realmente a formula deve ser com "-"?
É com "- " mesmo, mas tem outras questões que fazem convergir ou divergir, como clipping, coisa que não cheguei a abordar nesse vídeo. Desculpe a confusão, abraços
Eu sei que vcs vão dar risada do que vou comentar, mas enquanto ele explicava eu ia visualizando mentalmente lembrando do jogo Minecraft. Pra quem nunca jogou uma breve explicação: no jogo existem coordenadas X, Y e Z que representam seu posicionamento no mapa, as vezes para procurar algo vc precisa encontrar a exata posição daquele local colocando os valores exatos de X, Y e Z.
Estou chocado que inconscientemente eu usava Gradiente Descendente no Minecraft e não sabia!
Complemento: Vale lembrar que o Gradiente descendente é recomendado nos casos onde temos muitas dimensões, ou seja, muitas variáveis, no exemplo do vídeo é como se tivéssemos muitas variáveis x_i diferentes e um m_i diferente para cada x_i diferente, ele é muito usado neste contexto por causa que se usarmos o método dos mínimos quadrados para estimar os valores do b, e no caso dos m_i diferentes, igual é utilizado em regressão linear múltipla, acabamos tendo problemas nos casos de muitas dimensões, porque computacionalmente acaba sendo mais custoso e consumindo mais tempo, do que se utilizarmos o gradiente descendente.
Olá, tudo bem ? Parabéns pelo canal.
Só uma duvida, para os coeficientes m e b, será que não seria interessante que no chute inicial fosse usado os resultados das estimativas feitas pelos MMQ ? Então para basicamente calcularia os valores de m e b pelo MMQ e usaria eles como primeira aproximação, creio que o algoritmo iria convergir mais rápido para os valores de m e b " ótimos ".
Nesse caso simples poderia ser utilizado sim, mas quando o gradiente descendente é utilizado em problemas mais complexos como redes neurais, não há como fugir de uma inicialização randômica..
@ Entendi... uma outra coisa que pensei para uma inicialização mais perto da ótima, seria selecionar dois pontos da base de dados aleatoriamente, no inicio da curva e no final, traçando uma reta entre eles, então como chute inicial usaria os coeficientes da reta que os liga.
Olha lá, é o cara do Descomplicando a música
Muito bom!
Muito bom brow, fico extremamente agradecido, sucesso o/
Essas fórmulas na prática é para ter uma ideia eu acredito. No programa não calcularia automaticamente?
Mas a didática e boa sim
Ameiiii
Esse cálculo se aproximação tá parecendo o algoritmo PID q usamos pra controle de processos contínuos. Esse “learning rate” lembra a constante proporcional kP
Eu gosto de pensar que b, representa o y quando x é igual a zero, ou seja, o ponto inicial da reta
O conceito ficou bem claro, mas faltaram exemplos numéricos para mostrar como realmente acontece.
Porque se usa o valor ao quadrado (aumentando assim os maiores erros) do que o módulo do valor?
Aquilo ainda não é, mas, recomendo estudar sobre erro quadrático médio, deste modo, vc dá mais ênfase aos maiores erros, pois o mesmo é elevado ao quadrado, assim garantindo um "balanceamento".
Adorei! Tenho uma duvida: o valor do m e do b tem que ser igual aos coeficientes calculados por Minimos Quadrados Ordinarios?
Isso, a função de custo (que é a responsável pela otimização do problema) utiliza na maior parte das vezes mínimos quadrados ordinários (como nesse exemplo dessa aula). Mas em alguns algoritmos de machine learning é possível otimizar funções de outras formas, com ligeiras adaptações do OLS. No módulo 1 do nosso curso de machine learning, por exemplo, eu mostro o conceito de regularização, onde a função de custo usa OLS com alguns parâmetros extras