현재 전자공학 분야 박사과정 중인 학생입니다. 현재 제가연구하고 있는 분야에 deep learning 알고리즘을 적용하고 싶어서, 찾아보던 중 해당 강의를 알게되었습니다. 해당 분야의 입문자로서 최고의 강의가 아닌가 싶은 생각이 들 정도로, 직관적이고 알기 쉽게 설명해 주시는 듯합니다. 이런 훌륭한 지식을 배풀어주셔서 진심으로 감사의 인사를 드립니다.
1:10 부분부터 설명해주시고 계신 sigmoid에 대한 cost function에서 질문이 있습니다. 교수님 께서는 W, cost 그래프가 울퉁불퉁한 형태로 나타날 수 있어서 local minimum을 찾는 경우가 있다고 하셨는데요. 수학적 지식이 짧아 그러한 경우가 언제 발생이 될 수 있는지 떠올리기 어렵습니다. y = Wx 모델 대해서 sigmoid를 적용하고 linear regression에서 쓰던 cost function을 적용하면 당연하지만 sigmoid의 y축 대칭이 된 그래프가 그려집니다. 혹시 설명해주셨던 local minimum을 찾게 되는 모델에 대해서 말씀해주실 수 있으실까요? 감사합니다 :)
@박승호 궁금한 점이 있어서 질문드립니다. "Classification 문제에서는 y값이 Discrete하기 때문에 하나하나의 편차가 갖는 값이 전체 함수의 모양에 큰 영향을 미칩니다." 따라서 기존 cost함수(편차제곱)로는 그 결과가 크게 바뀌기 때문에 새로운 cost함수{1/m * SUM[C(H(x),y) = -yLog(H(x))-(1-y)Log(1-H(x))]}를 사용하는 것이라고 이해를 하였습니다. 위에 예시를 새로운 cost함수에도 적용해 보겠습니다. 예를들어 H(x)=0,y=1인 경우 (혹은 H(x)가 0에 가까운 경우) 무한대(혹은 마이너스 무한대)가 결과로 나오고 이를 더해주는 경우(시그마) 결과적으로 cost값은 무한대가 나오게 될 것입니다. 기대하는 바 대로라면 1에 가까운 수이거나 0에 가까운 수가 나와서 이를 모두 더한뒤(cost 총 합) 그 값이 최소가 되는 수를 찾아야 합니다. 그런데 위의 예 처럼 무한대(혹은 마이너스 무한대)가 나오게 되면 함수의 방향이 바뀔 뿐 아니라 바뀌지 않는다 하더라도 매우 큰 수를 다루기 때문에 그래디언트디센트가 어려울 것 같습니다.(아래 cost(W) 모형이 궁금하다는 질문들과 맥락이 같습니다.) 제가 어떤 부분을 잘못 이해하고 있는지 궁금합니다.
너무 잘보고 있습니다 감사합니다 궁금한점이 있는데 linear regression에서 cost 함수를 구할때 예측값과 실제값의 거리의 평균이 0인 점 구하는게 cost function 인것 같은데 logistic regression의 cost function 구하는 방식은 단순히 시그모이드 함수에 log를 씌어주어서 구하는 공식인가요?
너무 재밌게 잘 듣고 있습니다. 질문이 하나 있는데요. sigmoid 에 대한 cost function을 로그함수 대신 분수함수를 쓸 수도 있을 것 같다는 생각이 듭니다. 1/x-1 과 -1-1/(x-1) 로 cost function을 구성하면 로그함수에 비해 연산 속도도 빠르면서 비슷한 효과를 얻을 것 같은데, 실제로 가능한지 궁금합니다.
Logistic Hypothesis를 Linear Regression에서 사용한 Cost함수에 적용하면 실제로 어떤 모양의 그래프가 나오는지궁금해서 그래프로 그려봤습니다. hypothesis = 1 / (1 + tf.exp(-W * X)) cost = tf.reduce_mean(tf.square(hypothesis - Y)) 그랬더니 강의에서 설명하신 모양과는 전혀 다른 모양의 그래프가 그려지더군요. (Sigmoid 함수와 유사한 형태의 그래프가 나옵니다.) 뭐가 잘못된걸까요?
항상 도움 많이 되고 이씁니다.!!!! 한가지 질문이 있는데 로지스틱 회귀 코스트 함수 그릴때.... X 절편이 z가 맞나요? 0하고 1 사이의 값을 갖는 가설함수 h(x)아닌가요? h(x) = 1 / 1+e^(-z) 이기 때문에 z와 h(x)는 엄연히 다른 값을 가질 것 같은데.... 실제로 z값은 0과 1 사이의 값이 아닌 다른 값도 가질 수 있지 않나요?
도움이 되셨다니 정말 반갑습니다. 논문이 나오면 저도 보고 싶습니다. 법문관련하여 제가 하고 싶은일이 하나 있는데 혹시 괜찮으면 이메일로 아이디어 교환 가능할까요? 기본적으로는 법전에 있는 애매한 부분을 자동으로 찾아 내는 것입니다. "연장 신청은 마감 3일전에 해야 한다." 마감이 30일이면 27일 이전 (25, 24, ...) 에 해야 하는것인지, 27일만 가능한것인지 애매한 부분들이 있는데 이런 부분을 다 찾아 내는 것입니다. :-)
교수님, understanding cost function (제목) 페이지에서, 복습하던 도중 의문이든 것이 있습니다. 수업에서는 y = 1일 때와, y = 0 일 때의 로그 그래프를 붙여서 Cost(W)의 그래프가 그릇 모양이 나온다고? (직관적으로) 결론을 내렸던 것 같은데요, 사실 엄연히 말하면 위에서 붙인 그래프는 cost(W)의 그래프라기 보다는 cost(W)를 구하는 과정에서 m개 중 하나의 '예측값 - 실제값' , 즉 'C(H(x), y)' 에 대한 그래프가 아닌가요..? 그러니까 궁금한 것은, m 개 중 하나의 텀[C(H(x), y)]에 대한 그래프가 그릇 모양이라면 m개의 텀을 평균 냈을 때도[cost(W)] 그릇 모양이라고 보장 할 수 있는 것인가요? 수식을 보고 그래프의 모양을 대략적으로 예측하기 위해선 수학의 어떤 부분을 공부해야 하는지 조언주실수 있으신가요? 가령 교수님께서 수업 때 말씀하신, '로그는 구부러진 것을 잡는다' 같은 직관?을 가지고 싶습니다
+Jein Song cost함수에 log/exp등의 복잡한 함수가 들어가면 이의 모양을 가늠하기 힘듭니다. 그래서 대략적인 설명을 드린 것이구요. 특히 딥 넷트웍에서는 더욱 그렇습니다. 여기서 중요한것은 이 함수가 convex가 되느냐 하는 것인데 아직 잘 모릅니다. 이 블로그와 여기에서 소개한 논문을 한번 보세요. blog.terminal.com/no-more-local-minima/
2개의 로그 그래프를 겹치면 정확한 밥그릇 모양은 아니지만, 강의의 설명대로 cost 함수로서의 요건인 맞는 예측을 하는 경우 작은 cost를, 틀린 예측을 하는 경우 높은 cost를 만들어내고, Gradient descent algorithm을 사용할 수 있게 매끄럽게 내려가고 올라가는 곡선이므로, 문제가 없을 것 같습니다.
정말 생각 많이 하게 해주는 댓글이네요. 저도 무심코 cost function 그래프라고 생각하고 지나갔는데, 확인해보니 'C(H(x),y)'에 대한 그래프네요. 결론은 교수님 댓글처럼 cost function의 그래프는 가늠하기 힘들고, cost의 미분값 * learning_rate를 W에 차감하면서 cost(W) 그래프의 최소값을 향해 간다는 점이네요. 그리고 cost(W)그래프가 y=x^2처럼 아래로 볼록한 밥그릇 모양이면 global minimum에 항상 도달하겠네요. 배워갑니다. 감사합니다.
그리고 혹시 H(x)=Wx+b의 오차제곱 형식의 Cost function이 왜 아래로 볼록한 밥그릇 모양이 나오는지는 알고싶으신 분은 nobilitycat.tistory.com/entry/Cost-Function-Intuition?category=743731 이 블로그보면 잘 설명되어 있습니다.
안녕하세요 교수님의 열정적인 강의에 다시한번 감사드립니다. 늦게나마 질문을 드리게 되었습니다. 1:12 쯤에 liniear regression과 logistic regression의 cost function에 대해 설명해주셨습니다. 그런데 이때 logistic regression의 cost function 모양이 multimodal 형태의 convext curve처럼 생겼다고 말씀해주셧습니다. 그런데 자세히 살펴보면 mean square error function(MSE)의 H(x)값에 sigmoid인 원래 형태(1+exp(-wx))를 집어넣고, 형상을 살펴보면 sigmoid의 제곱꼴(단변수 가정했을 때) 형태입니다. 물론 Y(labeled data)가 있긴 하지만 이는 shift 역할을 할뿐 mse의 형상의 변화는 시키지 않을것입니다. 따라서 제 질문은 다음과 같습니다. 1. sigmoid를 이용한 cost function의 모양이 multimodal convext curve가 아니고 sigmoid의 제곱꼴(=sigmoid 형태와 매우 유사)로 봐야하는게 아닌지요? 2. cost function이 sigmoid 형태이기때문에 0에서 1로 변화하는 나머지 부분에서는 gradient가 거의 없어 학습속도가 매우 느려지게 되는것은 아닌건지요? 3. 이를 바탕으로 cost function 선정시 MSE가 아니고 entropy를 선택한것은 아닌지요? 긴글 읽어주셔서 감사합니다.
교수님 이번에 Logistic을 이용하여 고장들이 데이터값에 맞게 잘분류되는지 분석을해보려고하는데궁금한게 있습니다. H(x)값을 시그모이드 함수에 입력하게될시 0~1사이가 나오게 되는데 어떤 데이터를0으로놓고 어떤데이터는 1로놓는것을 0.5를 기준으로 잡고해야하나요??? 시그모이드에 값을 입력시 0.5이하는 0으로 취급하고0.5초과는 1로두어서 log를 사용한cost function에 사용해야하는건지 y=0,1 어떤 기준으로 정해야하는건가요??프로그램에 입력시 자동으로해주는것같긴한데 박스안에 어떠한 것이있는것인지 궁금합니다.
현재 전자공학 분야 박사과정 중인 학생입니다. 현재 제가연구하고 있는 분야에 deep learning 알고리즘을 적용하고 싶어서, 찾아보던 중 해당 강의를 알게되었습니다. 해당 분야의 입문자로서 최고의 강의가 아닌가 싶은 생각이 들 정도로, 직관적이고 알기 쉽게 설명해 주시는 듯합니다. 이런 훌륭한 지식을 배풀어주셔서 진심으로 감사의 인사를 드립니다.
강의 너무 좋습니다. 인문대 학생도 이해하기 쉽게 설명해 주셔서 감사합니다 ^^
감사합니다. 인문대면 어떤 전공이신가요?
강의 보면서 감동 많이 하고 있습니다. 정말 설명을 잘 해 주시네요. 앞으로 강의도 많이 기대하겠습니다.
y = 1, y = 0인 경우에서 IF문 제거 하기 위해서 한 줄로 수식 만드는 부분에서 감동 했어요 .. 허걱 세상에는 정말 똑똑한 사람들이 많네요
07:07
항상 감사하게 보고있습니다. 영상을 보며 궁금한게 생겼는데
H(x)의 식이 y=1/(1+e^(-x)) 에서 나온것 이라고 알고있는데
그 식에서 y 의 값이 0 이나 1이 되는게 수학적으로 불가능하지않나요?
가까워진다고 보시면됩니다.
그래서 반올림 해줘야 합니다.
인공지능 프로그램들에 대한 궁금증으로 시작한 공부이지만 요즘 나온 서적 몇권을 읽다가 오히려 주화입마에 빠질 뻔 했는데요 김성훈교수님 강의를 찾아서 다시보니 무엇이 핵심인지 다시 차근히 생각이 가능한 것 같네요.
Understanding cost function in Binary classification
C(H(x), y) = - log(H(x)) : y = 1
- log(1 - H(x)) : y = 0
It can be represented as:
C(H(x),y) = -y*log(H(x)) - (1 - y)*log(1 - H(x))
Minimize cost - Gradient decent algorithm
5:55에서 정확히 cost fuction에 대해 그래프그리면 x축은 z가아닌 H(x)라고 표시해야되지 않나요..?
H(x)=1/(1+e^(-z))이니 x축을 z로 하는거랑은 완전히 다른 그래프가 나올것 같은데..ㅠ(z=aW+b)
4:45 logistic regression cost 함수 설명!
대학원 수업을 못따라가고있었는데.. 학교에서 수업듣기전에 이 강의로 먼저 예습한 후에 Andrew Ng 강의로 다시 복습하면서 겨우 따라가고 있네요 ㅠㅠ 감사합니다
+박재유 도움이 된다니 감사. 혹시 이해가 안되는 부분이나 질문이 있으시면 알려 주세요. 제가 추가 강의를 만들거나 햇갈리는 부분은 다시 설명 드리겠습니다.
1:10 부분부터 설명해주시고 계신 sigmoid에 대한 cost function에서 질문이 있습니다. 교수님 께서는 W, cost 그래프가 울퉁불퉁한 형태로 나타날 수 있어서 local minimum을 찾는 경우가 있다고 하셨는데요. 수학적 지식이 짧아 그러한 경우가 언제 발생이 될 수 있는지 떠올리기 어렵습니다. y = Wx 모델 대해서 sigmoid를 적용하고 linear regression에서 쓰던 cost function을 적용하면 당연하지만 sigmoid의 y축 대칭이 된 그래프가 그려집니다. 혹시 설명해주셨던 local minimum을 찾게 되는 모델에 대해서 말씀해주실 수 있으실까요? 감사합니다 :)
저도 교수님께 같은 질문 드리고 싶습니다. H(X), sigmoid가 연속함수이고, cost(W, b) 또한 연속함수인데 울퉁불퉁한 형태가 어째서 나오는지 궁금합니다.
@박승호 궁금한 점이 있어서 질문드립니다.
"Classification 문제에서는 y값이 Discrete하기 때문에 하나하나의 편차가 갖는 값이 전체 함수의 모양에 큰 영향을 미칩니다." 따라서 기존 cost함수(편차제곱)로는 그 결과가 크게 바뀌기 때문에 새로운 cost함수{1/m * SUM[C(H(x),y) = -yLog(H(x))-(1-y)Log(1-H(x))]}를 사용하는 것이라고 이해를 하였습니다.
위에 예시를 새로운 cost함수에도 적용해 보겠습니다. 예를들어 H(x)=0,y=1인 경우 (혹은 H(x)가 0에 가까운 경우) 무한대(혹은 마이너스 무한대)가 결과로 나오고 이를 더해주는 경우(시그마) 결과적으로 cost값은 무한대가 나오게 될 것입니다. 기대하는 바 대로라면 1에 가까운 수이거나 0에 가까운 수가 나와서 이를 모두 더한뒤(cost 총 합) 그 값이 최소가 되는 수를 찾아야 합니다. 그런데 위의 예 처럼 무한대(혹은 마이너스 무한대)가 나오게 되면 함수의 방향이 바뀔 뿐 아니라 바뀌지 않는다 하더라도 매우 큰 수를 다루기 때문에 그래디언트디센트가 어려울 것 같습니다.(아래 cost(W) 모형이 궁금하다는 질문들과 맥락이 같습니다.) 제가 어떤 부분을 잘못 이해하고 있는지 궁금합니다.
@박승호 추가적으로, "이처럼 y값에 따라 아예 개별 편차 함수의 형태가 반전되기 때문에, 이를 결합하면 울퉁불퉁한 함수가 나올 수 있습니다." 이에 해당하는 하나의 식을 예시로 보여주실 수 있나요?
강의 잘보고 있습니다. 설명 너무 쉽게 잘하시고 목소리도 좋으시네요 감사합니더.
ML 설명을 이해가 잘되도록 강의해주셔서 감사드립니다.
2020.12.06 영상 시청
Cost function for logistic regression : local min/maximum에 빠지는 것을 방지
설명 너무 잘해주시네요~ 어려운 부분도 이해가 잘 되었습니다 감사합니다
생각해 보니, 이 형태의 cost function이 Bernoulli Distribution의 역수에 로그를 씌운 값이기도 하네요. P(Y|X)의 최대값 문제니, ln(1/P(Y|X))를 cost function으로 직접 쓴다고 이해해도 되겠군요.
와.. 짱재밋다..
헷갈리는 상태에서 봤는데 이해가 정말 잘됐습니다 감사합니다.
비전공자라서... 몇번째 보고 있습니다. 자료 감사합니다!!
머신러닝 공부하면서 이해가 잘 안되던 부분에 대해 배울수 있어서 좋았습니다. 감사합니다
너무 잘보고 있습니다 감사합니다 궁금한점이 있는데 linear regression에서 cost 함수를 구할때 예측값과 실제값의 거리의 평균이 0인 점 구하는게 cost function 인것 같은데 logistic regression의 cost function 구하는 방식은 단순히 시그모이드 함수에 log를 씌어주어서 구하는 공식인가요?
너무 재밌게 잘 듣고 있습니다. 질문이 하나 있는데요. sigmoid 에 대한 cost function을 로그함수 대신 분수함수를 쓸 수도 있을 것 같다는 생각이 듭니다. 1/x-1 과 -1-1/(x-1) 로 cost function을 구성하면 로그함수에 비해 연산 속도도 빠르면서 비슷한 효과를 얻을 것 같은데, 실제로 가능한지 궁금합니다.
Logistic Hypothesis를 Linear Regression에서 사용한 Cost함수에 적용하면 실제로 어떤 모양의 그래프가 나오는지궁금해서 그래프로 그려봤습니다.
hypothesis = 1 / (1 + tf.exp(-W * X))
cost = tf.reduce_mean(tf.square(hypothesis - Y))
그랬더니 강의에서 설명하신 모양과는 전혀 다른 모양의 그래프가 그려지더군요.
(Sigmoid 함수와 유사한 형태의 그래프가 나옵니다.)
뭐가 잘못된걸까요?
Gradiant decent 알고리즘을 적용하면 최소값이 극한값이라서 어떤 한 점을 특정할 수는 없어보이지만.. 강의 내용과 다른 그래프가 나온것이 이해가 잘 되지 않네요..
사랑해요 선생님 정말 감사합니다…
안녕하세요. 감사히 공부하고 있어요.
2024년 11월 18일 월 11시 태평양 시간
설명을 너무 잘하셔서 이해가 팍팍됩니다. 2021-05-22
이번 강의 마지막 슬라이드에 cost함수를 텐서플로우에서 실행하는 코드에 보면 tf.reduce_mean함수 안에 tf.reduce_sum이 들어가 있는데.... tf.reduce_sum은 빠져야하는게 맞는거죠?^^
넵 그런 것 같습니다
마지막 코드에 reduce_sum을 하고 reduce_mean을 한 이유가 무엇인지 궁금합니다. reduce_sum을 사용하지 않고 바로 reduce_mean을 이용해서 구하는 것이 맞다고 생각되는데 잘못생각하고 있는건가요?
실제 코드를 보니 cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis)) 이렇게 되어있네요 ㅎㅎ
항상 도움 많이 되고 이씁니다.!!!!
한가지 질문이 있는데 로지스틱 회귀 코스트 함수 그릴때.... X 절편이 z가 맞나요? 0하고 1 사이의 값을 갖는 가설함수 h(x)아닌가요? h(x) = 1 / 1+e^(-z) 이기 때문에 z와 h(x)는 엄연히 다른 값을 가질 것 같은데.... 실제로 z값은 0과 1 사이의 값이 아닌 다른 값도 가질 수 있지 않나요?
z는 시그모이드 함수를 거친 값이 아니기 때문에 0~1 이외의 값이 나올 수도 있습니다.
법대생입니다. 이번에 인공지능과 특허를 주제로 논문을 쓰고 있는데, 기본지식을 얻는데 도움이 많이 되었어요 ^^ 감사합니다.
도움이 되셨다니 정말 반갑습니다. 논문이 나오면 저도 보고 싶습니다. 법문관련하여 제가 하고 싶은일이 하나 있는데 혹시 괜찮으면 이메일로 아이디어 교환 가능할까요? 기본적으로는 법전에 있는 애매한 부분을 자동으로 찾아 내는 것입니다. "연장 신청은 마감 3일전에 해야 한다." 마감이 30일이면 27일 이전 (25, 24, ...) 에 해야 하는것인지, 27일만 가능한것인지 애매한 부분들이 있는데 이런 부분을 다 찾아 내는 것입니다. :-)
넵. 제가 도움을 드릴 수 있을지 잘 모르겠지만..ㅎ 메일 주세요.^^ sangmism0216@naver.com 입니다.
흥미로운 결과물이 나왔나용??
강의 잘보고있습니다.
좋은 강의 감사드립니다.
혹시 다른언어로짜고있어서 저 cost 미분 라이브러리가없는데 혹시 미분식 알려주실수있나요 ?
+양성민 www.derivative-calculator.net/ 한번 사용해보세요. W와 b를 업데이트 할때 동시에 하셔야 합니다. (W를 업데이트 한다음 업데이트 된 W값의 미분값으로 b를 업데이트 하면 안됩니다.) 혹 다른 질문이 있으시면 알려주세요.
cross-entropy를 시각화하여 cost function을 생각해볼 생각을 못하고있었네요. Tensorflow 공부하는 겸 기본 알고리즘도 설명듣고 있는 데, 설명이 참 유익합니다. 감사합니다.
교수님, understanding cost function (제목) 페이지에서,
복습하던 도중 의문이든 것이 있습니다.
수업에서는 y = 1일 때와, y = 0 일 때의 로그 그래프를 붙여서
Cost(W)의 그래프가 그릇 모양이 나온다고? (직관적으로) 결론을 내렸던 것 같은데요,
사실 엄연히 말하면 위에서 붙인 그래프는 cost(W)의 그래프라기 보다는
cost(W)를 구하는 과정에서 m개 중 하나의 '예측값 - 실제값' , 즉 'C(H(x), y)' 에 대한 그래프가 아닌가요..?
그러니까 궁금한 것은,
m 개 중 하나의 텀[C(H(x), y)]에 대한 그래프가 그릇 모양이라면
m개의 텀을 평균 냈을 때도[cost(W)] 그릇 모양이라고 보장 할 수 있는 것인가요?
수식을 보고 그래프의 모양을 대략적으로 예측하기 위해선 수학의 어떤 부분을 공부해야 하는지 조언주실수 있으신가요?
가령 교수님께서 수업 때 말씀하신, '로그는 구부러진 것을 잡는다' 같은 직관?을 가지고 싶습니다
+Jein Song cost함수에 log/exp등의 복잡한 함수가 들어가면 이의 모양을 가늠하기 힘듭니다. 그래서 대략적인 설명을 드린 것이구요. 특히 딥 넷트웍에서는 더욱 그렇습니다. 여기서 중요한것은 이 함수가 convex가 되느냐 하는 것인데 아직 잘 모릅니다. 이 블로그와 여기에서 소개한 논문을 한번 보세요. blog.terminal.com/no-more-local-minima/
+Jein Song 그러나 뒷쪽에서 다루는 chainrule등으로 이 cost함수의 미분을 구하기때문에 모양은 그렇게 많이 중요하게 생각하지는 않는것 같습니다.
2개의 로그 그래프를 겹치면 정확한 밥그릇 모양은 아니지만, 강의의 설명대로 cost 함수로서의 요건인 맞는 예측을 하는 경우 작은 cost를, 틀린 예측을 하는 경우 높은 cost를 만들어내고, Gradient descent algorithm을 사용할 수 있게 매끄럽게 내려가고 올라가는 곡선이므로, 문제가 없을 것 같습니다.
정말 생각 많이 하게 해주는 댓글이네요. 저도 무심코 cost function 그래프라고 생각하고 지나갔는데, 확인해보니 'C(H(x),y)'에 대한 그래프네요. 결론은 교수님 댓글처럼 cost function의 그래프는 가늠하기 힘들고, cost의 미분값 * learning_rate를 W에 차감하면서 cost(W) 그래프의 최소값을 향해 간다는 점이네요. 그리고 cost(W)그래프가 y=x^2처럼 아래로 볼록한 밥그릇 모양이면 global minimum에 항상 도달하겠네요. 배워갑니다. 감사합니다.
그리고 혹시 H(x)=Wx+b의 오차제곱 형식의 Cost function이 왜 아래로 볼록한 밥그릇 모양이 나오는지는 알고싶으신 분은 nobilitycat.tistory.com/entry/Cost-Function-Intuition?category=743731 이 블로그보면 잘 설명되어 있습니다.
교수님 왜 "구부러짐"이 exp와 상관이 있나요?..
안녕하세요 교수님의 열정적인 강의에 다시한번 감사드립니다.
늦게나마 질문을 드리게 되었습니다. 1:12 쯤에 liniear regression과 logistic regression의 cost function에 대해 설명해주셨습니다. 그런데 이때 logistic regression의 cost function 모양이 multimodal 형태의 convext curve처럼 생겼다고 말씀해주셧습니다. 그런데 자세히 살펴보면 mean square error function(MSE)의 H(x)값에 sigmoid인 원래 형태(1+exp(-wx))를 집어넣고, 형상을 살펴보면 sigmoid의 제곱꼴(단변수 가정했을 때) 형태입니다. 물론 Y(labeled data)가 있긴 하지만 이는 shift 역할을 할뿐 mse의 형상의 변화는 시키지 않을것입니다.
따라서 제 질문은 다음과 같습니다.
1. sigmoid를 이용한 cost function의 모양이 multimodal convext curve가 아니고 sigmoid의 제곱꼴(=sigmoid 형태와 매우 유사)로 봐야하는게 아닌지요?
2. cost function이 sigmoid 형태이기때문에 0에서 1로 변화하는 나머지 부분에서는 gradient가 거의 없어 학습속도가 매우 느려지게 되는것은 아닌건지요?
3. 이를 바탕으로 cost function 선정시 MSE가 아니고 entropy를 선택한것은 아닌지요?
긴글 읽어주셔서 감사합니다.
교수님 이번에 Logistic을 이용하여 고장들이 데이터값에 맞게 잘분류되는지 분석을해보려고하는데궁금한게 있습니다. H(x)값을 시그모이드 함수에 입력하게될시 0~1사이가 나오게 되는데 어떤 데이터를0으로놓고 어떤데이터는 1로놓는것을 0.5를 기준으로 잡고해야하나요??? 시그모이드에 값을 입력시 0.5이하는 0으로 취급하고0.5초과는 1로두어서 log를 사용한cost function에 사용해야하는건지 y=0,1 어떤 기준으로 정해야하는건가요??프로그램에 입력시 자동으로해주는것같긴한데 박스안에 어떠한 것이있는것인지 궁금합니다.
강의 항상 반복학습하면서 잘보고있습니다!!
로지스틱 리그레션에 cost는 한번 틀리면 값이 무한대가 나오는데 그렇다면 로지스틱 리그레션의 cost 값은 선형회귀의 cost값보다 매우 큰값이 나오는건가요??
소민섭 로지스틱은 1에서 0사이에 값을 내는데 틀리면 무한대라니 무슨 말이죠?
이보다 더 쉽게 가르칠수는 없다.
정말 감사합니다..
감사합니다.
지려버림
감사합니다 2017-06-30
여기서부터 확 어려워지는군요.
두번 세번 들어야겠습니다.
-40대 개발자..;;;;
오타: descent 인데 decent로 되어 있습니다.
감사합니다.