+2

[Ý tưởng nghiên cứu] - Dataset Privacy

Đặt vấn đề

Ở nghiên cứu trước về GA Pruning tại đây có dựa trên một giả thiết rằng thường các dataset sẽ không được public do vấn đề privacy của dữ liệu. Vấn đề đặt ra là làm cách nào để có thể public một dataset cho người dùng mà vẫn đảm bảo privacy.

Ý tưởng

Người sử dụng dataset sẽ không sử dụng trực tiếp raw data mà sử dụng data đã được encode để leanring

Flow cơ bản được thể hiện trong hình sau

Các vấn đề cần giải quyết

Encode bằng cách nào?

Sử dụng một Deep Encoder nhận đầu vào là 2 ảnh, một ảnh gọi là anh chứa container dùng để chứa thông tin của ảnh thực. Một ảnh gọi là ảnh raw data mà chúng ta cần encode. Qúa trình encode sẽ thực hiện sao cho ảnh chứa sẽ chứa hoàn toàn trong ảnh gốc

image.png

Điều này có thể thực hiện bằng một mạng Unet có ràng buộc là tối thiếu hoá MSE giữa ảnh container và anh encoded tức là kì ovngj ảnh raw sẽ được ẩn hoàn toàn trong ảnh container.

Public data bằng cách nào?

Sau khi đã training được mô hình encoder thì sử dụng mô hình này để sinh ra bộ public data với các ảnh container là màu đen. Dữ liệu gốc sẽ được ẩn trong các ảnh container màu đen

image.png

Dữ liệu sau khi được encode có thể learning được không?

Qua thí nghiệm ban đầu thì dữ liệu đượ sinh ra như vậy vẫn có khả năng learning được dù có xảy ra hiện tượng overfit trên tập CIFAR-10. Tuy nhiên độ chính xác trên tập test vẫn rơi vào khoảng 82% trong 100 epoch. Có thể khắc phục hiện tượng overfit này bằng nhiều cách khác sẽ thí nghiệm tiếp theo

Public như vậy có thể decode lại được hay không.?

Giả sử người dùng biết được ảnh container là màu đen (do chúng ta quy định lúc sinh dataset) thì liệu có thể xây dựng một decoder để tìm lại ảnh gốc được không. Cần phải xây dựng thử kịch bản kiểm tra xem dữ liệu có decode lại được hay không. Hướng thực hiện đầu tiên là xây dựng một decoder với các ảnh bất kì trên mạng và fix ảnh container màu đen như trong tập dataset public của chúng ta. Nếu thực hiện được một decoder như vậy thì cần phải xem xét giải quyết vấn đề khi public dataset

image.png

Code thử nghiệm

Code thử nghiệm tại đây


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí