728x90

- 보이저엑스 면접 질문

 

Gradient Descent는 손실함수를 최소화 하는 θ(theta)를 찾기 위한 알고리즘

1차 미분계수를 이용해 Step size를 조정해 가며 함수의 최소값을 찾아가는 과정

파라미터 벡터 세타에 대해 손실 함수의 현재 gradient를 계산하여 감소하는 방향으로 0이 될 때까지 하강한다.

 

경사하강법에서 하이퍼 파라미터 learning rate가 너무 작으면 시간이 오래 걸리고, 반면 너무 크게 설정하면 최솟값을 가로질러 반대 경사로 뛰어넘는 경우가 발생할 수도 있다.

 

*미분

미분은 함수 f의 주어진 점 (x, f(x))에서의 접선의 기울기를 구하는 과정이며, 비선형 함수를 선형함수로 근사적으로 나타내려는 시도이다.

미분 = 기울기 =  y 증가량/x증가량, 단 x의 증가량이 거의 0이 될 때의 기울기가 된다.

728x90

+ Recent posts