Neural Network Fundamental 4: Gradient descent, back propagation

Bài đăng này đã không được cập nhật trong 3 năm

I. Gradient descent

Giả sử ta muốn minimize $J(w_1, w_2, ...)$ . Nếu đây là 1 hàm sỗ phức tạp thì việc tìm 1 công thức tính $w_1, w_2, ...$ cho J min là không dễ dàng. Gradient descent là thuật toán bắt đầu từ 1 giá trị nào đó của $w_1, w_2, ...$ rồi đi từ từ từng bước một, mỗi bước lại update lại các parameter này và cuối cùng sẽ một giá trị mà J min. Câu hỏi đặt ra là với mỗi bước sẽ đi như nào. Để đơn giản, xét ví dụ $J$ là hàm số 1 biến số $J(w)$ Từ giá trị $w$ ban đầu (chấm bên phải ngoài cùng) ở mỗi bước ta update $w$ theo rule sau Repeat { $w := w - \alpha\dfrac{d(J(w))}{dw}$ } Trong đó $\alpha$ là learning rate quyết định ta bước mỗi bước ngắn hay dài $\dfrac{d(J(w))}{dw}$ > 0 tức J tăng lên khi ta tăng w lên 1 khoảng rất nhỏ nên ta trừ $w$ đi 1 số dương là $\alpha\dfrac{d(J(w))}{dw}$

$\dfrac{d(J(w))}{dw}$ < 0 tức J tăng lên khi ta giảm w lên 1 khoảng rất nhỏ nên ta trừ $w$ đi 1 số âm là $\alpha\dfrac{d(J(w))}{dw}$ nghĩa là cộng thêm $\alpha\dfrac{d(J(w))}{dw}$ Khi w gần tới giá trị J min thì độ dốc của hàm số nhỏ đi do đó các bước ta đi cũng nhỏ đi

II. Gradient descent for Neural Network

Chúng ta hãy nhắc lại một chút ở bài trước, loss function cho tất cả m training example $J(W^{[1]}, b^{[1]}, ...) = \frac{1}{m}\displaystyle\sum_{i=1}^mL(\hat y^{i}, y^{i})$ Trong đó $L(\hat y^{i}, y^{i})$ là loss function tính cho training example i Mục tiêu của chúng ta là tìm giá trị của $W^{[1]}, b^{[1]}, ...$ sao cho J nhỏ nhất. Thực hiện gradient descent mỗi bước ta tính partial derivative (đạo hàm riêng) của từng layer: $W^{[l]}$ , $b^{[l]}$ Repeat { $dW^{[1]} = \dfrac{dJ}{dW^{[1]}}$ , $db^{[1]} = \dfrac{dJ}{db^{[1]}}$ , ... $W^{[1]} = W^{[1]} - \alpha,dW^{[1]} $ $b^{[1]} = b^{[1]} - \alpha,db^{[1]} $ ... } $dW^{[1]}$ là ma trận có cùng chiều với $W^{[1]}$ chứa đạo hàm riêng của từng phần tử trong $W$ với $J$ $db^{[1]}$ là vector có cùng chiều với $b^{[1]}$ chứa đạo hàm riêng của từng phần tử trong $b^{[1]}$ với $J$ Nếu tập hợp tất cả các parameter $W^{[1]}, b^{[1]}, ...$ thành 1 vector D. Kiến thức trong giải tich nhiều biến số cho ta biết là vector gradient của D cho ta hướng mà hàm số tăng nhanh nhất. Nên nếu ta muốn chiều mà hàm số đang giảm, ta update các parameter đó bằng cách trừ đi learning rate $\times$ partial derivative

III. Backward propagation

Ta nhắc lại một chút, forward propagation thực hiện việc tính toán input layer $\rightarrow$ hidden layer $\rightarrow$ nếu như đã biết trước $W^{[l]}, b^{[l]}, ...$ của mỗi layer for l = 1..L $z^{[l]} = W^{[l]}a^{[l - 1]} + b^{[l]}$
$a^{[l]} = g(z^{[l]})$ Thuật toán gradient descent cần tính $dW^{[l]}$ và $db^{[l]}$ ở mỗi lớp để có thể update $W^{[1]}, b^{[1]}, ...$ . Backward propagation theo đúng tên gọi của nó đi từ output layer $\rightarrow$ hiddenlayer $\rightarrow$ input layer, và dựa vào các giá trị của $z^{[l]}$ và $a^{[l]}$ đã tính toán ở mỗi lớp trong forward propagation mà tính được $dW^{[l]}$ và $db^{[1]}$ Dưới đây tôi sẽ trình bày công thức tính, phần chứng minh sẽ để ở bài kế tiếp

Back propagation cho 1 training example

Đạo hàm của $z$ ở lớp cuối cùng $dz^{[L]} = \hat y - y$ Với mỗi lớp l $dz^{[l]} = da^{[l]} * g^{[l]'}(z^{[l]})$ (nhân từng phần từ của 2 vector với nhau, nếu l = L thì ta dùng công thức ở trên) $dW^{[l]} = dz^{[l]} a^{[l - 1]T} $ Trong đó $z^{[l]}$ và $a^{[l - 1]}$ đã biết từ forward propagation $db^{[l]} = dz^{[l]}$ $da^{[l-1]} = W^{[l]T} dz^{[l]}$ Biết được $da^{[l-1]}$ ta và các giá trị $z, a, W$ của lớp đó (forward propagation) ta lại tính được $dz^{[l-1]}$ , $dW^{[l-1]}$ , $db^{[l-1]}$

Back propagation cho m training example

Đạo hàm của $Z$ ở lớp cuối cùng (Z là ma trận mà các cột là các neural của 1 lớp của mỗi training example) $dZ^{[L]} = \hat Y - Y$ Với mỗi lớp l $dZ^{[l]} = dA^{[l]} * g^{[l['}(Z^{[l]})$ (nhân từng phần tử của 2 ma trận với nhau, nếu l = L thì ta dùng công thức ở trên) $dW^{[l]} = \dfrac{1}{m}dZ^{[l]} A^{[l - 1]T}$ $db^{[l]} =$ tổng các cột của vector $dZ^{[l]}$ $dA^{[l-1]} = W^{[l]T} dZ^{[l]}$ Biết được $dA^{[l-1]}$ ta và các giá trị $Z, A, W$ của lớp đó (forward propagation) ta lại tính được $dZ^{[l-1]}$ , $dW^{[l-1]}$ , $db^{[l-1]}$

Tham khảo

Coursera deep learning
Hugo Larochelle Neural Network

Machine Learning Neural Networks