Đã đăng vào thg 2 27, 2023 10:14 SA

trong

11 phút đọc

241

[Paper Explained] Triple-Sigmoid Activation Function for Deep Open-Set Recognition

1. Bài toán Open-Set Recognition

Thông thường, với các bài toán classification, ta thường hay train một mô hình học máy học có giám sát trên một bộ training set với số lượng class nhất định và test mô hình đó trên một bộ test set có cùng các class với bộ đã được dùng để train. Khi đó, model sẽ chỉ thực hiện được task Closed-Set Recognition, nghĩa là classify một input vào một trong những class mà model đã được huấn luyện. Nếu gặp một input có class không nằm trong bộ train, model sẽ dự đoán class của input là một trong những class đã được train, từ đó đưa ra kết quả sai. Điều này làm cho việc deploy model trong thực tế gặp khó khăn bởi ngoài việc model classify được các class đã được train, ta cần nó phải phân biệt được một input có thuộc vào các class mà nó đã được train hay không để từ đó đưa ra các quyết định hợp lý. Task này được gọi là Open-Set Recognition.

Trong bài toán classification, ta có một model $f$ với tham số $\theta$ . Với một input sample $x \in X$ , model sẽ predict ra class $y = f(x,\theta)$ với $y \in Y$ ( $|Y|=n$ ) là các class mà model được train. Theo như hình minh hoạ ở trên, $y$ sẽ nhận index của logit tại layer cuối (layer thứ $l$ ) mà có giá trị lớn nhất trong $n$ logit (tương ứng với $n$ class), hay $y = argmax(h_l^{1 \rightarrow n})$ . Tuy nhiên, điều này chỉ áp dụng cho Closed-Set Recognition. Còn với Open-Set Recognition, ta sẽ có hàm $f*$ như sau:

Với $x$ có class nằm trong bộ train (hay x là inlier): $y=f^*(x,\theta)=i$ với $i \in [1..n]$ .
Với $x$ có class nằm ngoài bộ train (hay x là outliet): $y=f^*(x,\theta)=n+1$

2. Phân tích toán học

Thông thường, ở layer cuối $l$ , ta thường dùng hàm Softmax hoặc Sigmoid để các logit $h_l^{1 \rightarrow n}$ nhận một số thực trong khoảng $(0,1)$ . Để giải quyết bài toán Open-Set Recognition, ta có thể chọn cách đơn giản nhất là dùng một threshold $\tau \in [0, 1]$ để xác định xem $x$ là inlier hay outlier. $x$ sẽ được coi như là một outlier nếu như $h_l^{1 \rightarrow n} < \tau$ . Do đó, với các input sample là outlier, ta kỳ vọng là $h_l^{1 \rightarrow n}$ sẽ gần $0$ nhất có thể. Tuy nhiên:

Hàm Softmax lại không phù hợp với phương pháp này do $h_l^{1 \rightarrow n}$ không thể đồng thời gần 0 vì $\sum_{i=1}^{n} h_l^i=1$ .
Với hàm Sigmoid, ta cũng có thể dùng một threshold như trên. Tuy nhiên, theo [2], các outlier cũng có thể sinh ra logit lớn hơn threshold này. Do đó, hàm Sigmoid cũng không thể đảm bảo được là các logit sẽ nhỏ hơn threshold.

Giả sử trong trường hợp có 2 class ( $n=2$ ), threshold $\tau=0.5$ và hàm activation $t$ ở layer cuối là Sigmoid, với input sample $x$ là inlier, một trong hai logit ở layer cuối $h_l^1$ hoặc $h_l^2$ phải lớn hơn hoặc bằng $0.5$ . Để điều đó xảy ra, một trong hai logit $h_{l-1}^1$ hoặc $h_{l-1}^2$ sẽ phải lớn hơn $0$ . Với $x$ là outlier, cả $h_l^1$ và $h_l^2$ phải nhỏ hơn $\tau$ , hay $h_{l-1}^1$ và $h_{l-1}^2$ nhỏ hơn 0.

Do việc training chỉ được thực hiện với các inlier, tham số $\theta$ sẽ được tối ưu để $h_{l-2}^{1 \rightarrow m}$ có thể được dùng để phân biệt hai class. Ví dụ, coi các logit $h_{l-2}^{1 \rightarrow \bar{m}}$ là các logit được dùng để nhận diện class 1, còn $h_{l-2}^{\bar{m}+1 \rightarrow m}$ là để nhận diện class 2. Ngoài ra, để đơn giản hoá việc giải thích, ta sẽ coi như $h_{l-2}^{1 \rightarrow m}$ chỉ nhận giá trị $0$ hoặc $1$ (thay vì từ $-\infty$ đến $+\infty$ ). Với giả sử trên, đối với các sample thuộc class 1, $h_{l-2}^{1 \rightarrow \bar{m}}$ sẽ nhận giá trị là $1$ , còn $h_{l-2}^{\bar{m}+1 \rightarrow m}$ sẽ nhận giá trị là $0$ . Điều ngược lại cũng sẽ xảy ra khi input sample thuộc class 2. Như vậy, với input sample thuộc class 1, ta cần $\sum_{i=1}^{\bar{m}}{w_{l-1}^{1^i}} \ge 0$ và $\sum_{i=1}^{\bar{m}}{w_{l-1}^{2^i}} \lt 0$ (để $h_{l-1}^{1} \ge 0$ và $h_{l-1}^{2} \lt 0$ ). Còn với các sample thuộc class 2, ta cần $\sum_{i=\bar{m}+1}^{m}{w_{l-1}^{1^i}} \lt 0$ và $\sum_{i=\bar{m}+1}^{m}{w_{l-1}^{2^i}} \ge 0$ (để $h_{l-1}^{1} \lt 0$ và $h_{l-1}^{2} \ge 0$ ).

Lúc inference với input sample là outlier, ta có thể gặp các trường hợp sau với layer $l-2$ :

Trường hợp hiếm gặp nhất sẽ là $x$ bị nhận nhầm thành inlier khi toàn bộ logit của layer này bằng 0. Khi đó, $h_{l-1}^1=h_{l-1}^2=0$ , tương đương với việc $h_l^1=h_l^2=0.5 \ge \tau$ .
Trường hợp khác, layer này sẽ có một vài logit liên quan đến class 1 (giả sử $h_{l-2}^{\v{m_1} \rightarrow \v{m_2}}$ với $1 \le \v{m_1} \le \v{m_2} \le \bar{m}$ ) và class 2 (giả sử $h_{l-2}^{\hat{m_1} \rightarrow \hat{m_2}}$ với $\bar{m}+1 \le \hat{m_1} \le \hat{m_2} \le m$ ) nhận giá trị $1$ và các logit còn lại nhận giá trị $0$ . Để cho $h_l^1$ và $h_l^2$ nhỏ hơn $\tau$ , ta cần cả $h_{l-1}^1=\sum_{i={\v{m}_1}}^{\v{m}_2}w_{l-1}^{1^i} + \sum_{i={\hat{m}_1}}^{\hat{m}_2}w_{l-1}^{1^i}$ và $h^2_{l-1}=\sum_{i={\v{m}_1}}^{\v{m}_2}w_{l-1}^{2^i} + \sum_{i={\hat{m}_1}}^{\hat{m}_2}w_{l-1}^{2^i}$ nhỏ hơn $0$ .

Trong quá trình training với hai class đã biết trước, $\sum_{i=1}^{\bar{m}}{w_{l-1}^{1^i}}$ và $\sum_{i=\bar{m}+1}^{m}{w_{l-1}^{2^i}}$ sẽ là số dương, còn $\sum_{i=\bar{m}+1}^{m}{w_{l-1}^{1^i}}$ và $\sum_{i=1}^{\bar{m}}{w_{l-1}^{2^i}}$ sẽ là số âm (do $h_{l-2}^{1 \rightarrow \bar{m}}$ được dùng để nhận diện class 1, $h_{l-2}^{\bar{m}+1 \rightarrow m}$ được dùng để nhận diện class 2). Điều này kéo theo $\sum_{i={\v{m}_1}}^{\v{m}_2}w_{l-1}^{1^i}$ và $\sum_{i={\hat{m}_1}}^{\hat{m}_2}w_{l-1}^{2^i}$ thường nhận số dương, trong khi $\sum_{i={\hat{m}_1}}^{\hat{m}_2}w_{l-1}^{1^i}$ và $\sum_{i={\v{m}_1}}^{\v{m}_2}w_{l-1}^{2^i}$ thường nhận số âm. Để tổng của một số âm và số dương là một số âm, ta cần số dương phải nhỏ hơn trị tuyệt đối của số âm. Khi train model, một trong hai $h_{l-1}^1$ và $h_{l-1}^2$ phải là số dương và cái còn lại là số âm. Khi inference, nếu như phần số âm càng trở nên âm, còn phần số dương trở nên càng nhỏ, xác suất $h_{l-1}^1$ và $h_{l-1}^2$ nhận giá trị âm khi input là outlier sẽ càng tăng.

3. Hàm activation Triple-Sigmoid

Dựa trên quan sát trên, tác giả bài báo đã đề xuất việc sử dụng hàm activation Triple-Sigmoid bao gồm 3 hàm Sigmoid con. Mục đích của hàm Triple-Sigmoid là để phạt các giá trị của $h_{l-1}^1$ và $h_{l-1}^2$ , cũng như giúp ta dùng được threshold $\tau=t(0)$ để dễ dàng xác định xem input là inlier hay outlier. Đồ thị của hàm Triple-Sigmoid sẽ có dạng như hình dưới đây. Trong hàm Triple-Sigmoid, hàm Sigmoid 1 sẽ dùng để làm cho logit âm trở nên âm nhất có thể, còn Sigmoid 2 và 3 để làm cho logit dương nhỏ nhất có thể.

Công thức toán học của hàm Triple-Sigmoid như sau:

trong đó, $h$ là output của hidden layer. Hàm Triple-Sigmoid có 3 nhánh với tất cả 7 parameter:

$\bar{w}_1$ , $\bar{w}_2$ , $\bar{w}_3$ : lần lượt dùng để điều chỉnh độ dốc của hàm Sigmoid 1, 2, 3.
$\alpha$ : dùng để điều chỉnh điểm giao (trên trục x) giữa Sigmoid 1 và 2.
$\beta$ : dùng để điều chỉnh điểm giao (trên trục x) giữa Sigmoid 2 và 3.
$\gamma$ : dùng để điều chỉnh điểm giao (trên trục y) giữa Sigmoid 1 và 2.
$\delta$ : dùng để điều chỉnh độ nghiêng của Sigmoid 3 và điểm giao (trên trục y) giữa Sigmoid 1 và 2.

Screenshot 2023-02-26 at 10.43.02.png

Có hai biến $\bar{b}$ và $t_\beta$ sẽ không được chỉnh bằng tay. Điều này là do ta cần Sigmoid 1 và 2 phải có cùng giá trị tại $h=\alpha$ cũng như Sigmoid 2 và 3 phải có cùng giá trị tại $h=\beta$ . Công thức tính $\bar{b}$ và $t_\beta$ như sau:

Dưới đây là đồ thị đạo hàm của Triple-Sigmoid. Có thể thấy giá trị đạo hàm tại hai khúc $h \lt \alpha$ và $h \ge \beta$ rất nhỏ, trong khi tại khúc $\alpha \le h \lt \beta$ thì lại lớn hơn. Điều này là để phạt mạnh hơn các negative sample bị dự đoán sai, đẩy logit của layer $h_{l-1}$ mạnh hơn về bên trái, giúp giảm thiểu việc các logit này nhận giá trị lớn hơn threshold khi input là outlier như trong [2] chỉ ra.

Triple-Sigmoid gradient.png

4. Kết quả thí nghiệm

Trong bài báo, các thí nghiệm được thực hiện bằng 2 model Net 1 và Net 2 (tương tự VGG-13).

Screenshot 2023-02-26 at 21.47.27.png

Với hàm Triple-Sigmoid, các tham số $\bar{w}_1$ , $\bar{w}_2$ , $\bar{w}_3$ , $\alpha$ , $\beta$ , $\gamma$ được set lần lượt là $0.005$ , $0.1$ , $0.001$ , $0$ , $500$ và $0$ . Riêng $\delta$ thì được chọn là $1.5$ khi dùng với bộ MNIST và $3.5$ với các trường hợp còn lại.

4.1. Closed-Set Recognition

Với các bộ dataset như MNIST, SVHN và CIFAR10, mỗi bộ sẽ có 6/10 class được chọn ngẫu nhiên làm một closed set. Riêng đối với bộ CIFAR+10 thì có 4 class liên quan đến phương tiện giao thông. Theo kết quả so sánh với các hàm activation khác, model Net 1 dùng Triple-Sigmoid có kết quả ngang ngửa với các hàm activation khác.

Screenshot 2023-02-26 at 21.27.56.png

4.2. Open-Set Recognition

4.2.1. So sánh với các hàm activation thông thường

Với các bộ dataset như MNIST, SVHN và CIFAR10, các class còn lại của thí nghiệm trên được chọn làm outlier (class thứ $n+1$ ). Với bộ CIFAR+10, outlier sẽ là 10/50 class liên quan đến động vật được chọn ngẫu nhiên. Ngoài ra, bộ CIFAR+50 gồm 4 class phương tiện giao thông từ CIFAR10 làm inlier và 50 class động vật từ CIFAR100 được lấy từ CIFAR100 làm outlier cũng được dùng. Đồng thời, trong các thí nghiệm này, threshold $\tau$ được set bằng $0.5$ để phân biệt inlier và outlier.

Screenshot 2023-02-26 at 22.50.20.png

Kết quả F1-score riêng cho class thứ $n+1$ ở trên cho thấy model dùng Triple-Sigmoid có khả năng phát hiện outlier mạnh hơn so với dùng hàm Softmax và Sigmoid thông thường. Điều này được giải thích bằng bảng phân bố logit của layer $l-1$ với input là outlier ở dưới đây (riêng hàm Softmax thì khó visualize nên thay vào đó, tác giả đã visualize bằng phân bố của logit lớn nhất tại layer cuối $l$ ). Trong bảng phân bố này, ta có thể thấy hàm Softmax cùng với 2 kiểu loss Categorial and Binary Cross Entropy đều cho ra giá trị của layer cuối gần với 1, lớn hơn rất nhiều so với threshold $\tau=0.5$ . Với model dùng Sigmoid được train với Categorial Cross Entropy, model không hề có khả năng phát hiện ra outlier vì các logit đều lớn hơn $0$ làm cho layer cuối lớn hơn threshold. Khi train với Binary Cross Entropy, việc classify outlier của model này được cải thiện hơn khi distribution của $h_{l-1}$ dịch qua trục $y=0$ về phía bên trái. Còn với Triple-Sigmoid, phân bố logit của outlier đa phần nằm ở bên trái trục $y=0$ , nhất là với MNIST, SVHN, CIFAR+50. Do đó, số lượng outlier được phát hiện cũng nhiều hơn so với các phương pháp trên.

Screenshot 2023-02-26 at 22.51.00.png

4.2.2. So sánh với các phương pháp khác

Screenshot 2023-02-27 at 11.31.42.png

Screenshot 2023-02-27 at 11.27.05.png

Kết quả so sánh model Net 1 dùng Triple-Sigmoid với các phương pháp SOTA khác trên các bộ dataset như MNIST, SVHN, CIFAR10/+10/+50 cho thấy ngoài việc outperform đáng kể các phương pháp khác trên các task, việc dùng Triple-Sigmoid còn giúp cho model có lượng parameters ít hơn nhiều lần so với các phương pháp khác.

So với các phương pháp SOTA khác bằng model Net 2, phương pháp dùng Triple-Sigmoid cũng outperform toàn bộ với F1-score cao hơn đáng kể so với các phương pháp khác trên các bộ dataset phức tạp hơn.

Screenshot 2023-02-26 at 23.15.43.png