[New Idea] - Data Free Model Pruning with Genetic Algorithm
Phương pháp pruning model hiện tại
Các phương pháp model pruning hiện tại được sinh ra với mục đích giảm kích thước của model bằng cách loại bỏ đi các trọng số không quan trọng trong mạng:
Chiến lược để pruning trong các phương pháp hiện tại như sau:
- Sử dụng một binary bitmask cho mỗi layer (chứa giá trị 0 nếu các weight tương ứng không được sử dụng trong quá trình forward)
- Huấn luyện một model lớn với độ chính xác đủ tốt trên orignal dataset
- Chọn ra các weight không quan trọng bằng một thuật toán cụ thể (ví dụ đơn giản có thể chọn theo threshold hoặc theo sparsity của mạng)
- Finetune lại mạng mới (với chỉ các weight được giữ lại) trên original dataset
Tham khảo: To prune, or not to prune: exploring the efficacy of pruning for model compression
Vấn đề phát sinh trong thực tế
- Đôi khi chúng ta muốn pruning một pretrained model nhưng không thể truy cập vào dataset gốc
- Dataset gốc quá lớn khiến cho việc finetuning khó khăn (ví dụ như Imagenet chẳng hạn)
- Vấn đề đặt ra là Liệu có thể thực hiện pruning trực tiếp từ pre-trained model mà không cần đến dataset gốc hay không?
Ý tưởng ban đầu
- Thay vì tự định nghĩa sub-mask các weight không quan trọng thì sẽ tự học các sub-mask đó
- Thay vì fine-tuning lại các weight thì không fine-tuning nữa mà giữ nguyên các weight của pre-trained model thay vào đó sẽ đi tìm các kết nối giữa các weight (hay sub-network)
- Không sử dụng tập dữ liệu ban đầu nên có thể không cần tiếp cận theo gradient-based mà sử dụng các thuật toán evolution để tìm kiếm sub-network
Thực hiện thuật toán
Thuật toán sẽ có các bước chính như sau:
- Xuất phát từ một pre-trained
- Xây dựng một model có kiến trúc giống pre-trained model nhưng có thêm một lớp scores mask cho mỗi layer
- Lớp scores mask sẽ lưu điểm của mỗi weight cho từng layer. Việc lựa chọn các weight sẽ được sử dụng trong scores mask đơn giản là lựa chọn top k% các score trên từng layer
- Sử dụng GA để khởi tạo một population ban đầu gồm nhiều score khác nhau.
- Tiến hành chạy GA để learning ra các scores mask
Code thử
Xây dựng pre-trained model
Thử với tập MNIST có accuracy 98% làm pre-trained model. Xây dựng một mô hình CNN đơn giản
- Import modules cần thiết
import os
import math
import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.optim.lr_scheduler import CosineAnnealingLR
import torch.autograd as autograd
- Định nghĩa device
use_cuda = torch.cuda.is_available()
device = torch.device("cuda" if use_cuda else "cpu")
- Định nghĩa kiến trúc mạng
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 32, 3, 1, bias=False)
self.conv2 = nn.Conv2d(32, 64, 3, 1, bias=False)
self.dropout1 = nn.Dropout2d(0.25)
self.dropout2 = nn.Dropout2d(0.5)
self.fc1 = nn.Linear(9216, 128, bias=False)
self.fc2 = nn.Linear(128, 10, bias=False)
def forward(self, x):
x = self.conv1(x)
x = F.relu(x)
x = self.conv2(x)
x = F.max_pool2d(x, 2)
x = self.dropout1(x)
x = torch.flatten(x, 1)
x = self.fc1(x)
x = F.relu(x)
x = self.dropout2(x)
x = self.fc2(x)
output = F.log_softmax(x, dim=1)
return output
- Load pre-trained model
model = Net().to(device)
- Lưu các module_list và weight tương ứng để lát nữa copy sang mạng mới
module_list = [module for module in model.modules() if isinstance(module, nn.Conv2d) or isinstance(module, nn.Linear)]
module_shape = [m.weight.shape for m in module_list]
original_weights = [m.weight for m in module_list]
Xây dựng mạng mới với sub-mask
Xây dựng phần GetSubmassk tính toán trên top k%.
class GetSubnet(autograd.Function):
def forward(ctx, scores, k):
# Get the supermask by sorting the scores and using the top k%
out = scores.clone()
_, idx = scores.flatten().sort()
j = int((1 - k) * scores.numel())
# flat_out and out access the same memory.
flat_out = out.flatten()
flat_out[idx[:j]] = 0
flat_out[idx[j:]] = 1
return out
Xây dựng supermask cho layer convolution
class SupermaskConv(nn.Conv2d):
def __init__(self, *args, **kwargs):
super().__init__(*args, **kwargs)
# initialize the scores
self.scores = nn.Parameter(torch.Tensor(self.weight.size()))
nn.init.kaiming_uniform_(self.scores, a=math.sqrt(5))
# NOTE: initialize the weights like this.
nn.init.kaiming_normal_(self.weight, mode="fan_in", nonlinearity="relu")
# NOTE: turn the gradient on the weights off
self.weight.requires_grad = False
self.scores.requires_grad = False
def forward(self, x):
subnet = GetSubnet.apply(self.scores.abs(), sparsity)
w = self.weight * subnet
x = F.conv2d(
x, w, self.bias, self.stride, self.padding, self.dilation, self.groups
return x
Xây dựng supermask cho layer Linear
class SupermaskLinear(nn.Linear):
def __init__(self, *args, **kwargs):
super().__init__(*args, **kwargs)
# initialize the scores
self.scores = nn.Parameter(torch.Tensor(self.weight.size()))
nn.init.kaiming_uniform_(self.scores, a=math.sqrt(5))
# NOTE: initialize the weights like this.
nn.init.kaiming_normal_(self.weight, mode="fan_in", nonlinearity="relu")
# NOTE: turn the gradient on the weights off
self.weight.requires_grad = False
self.scores.requires_grad = False
def forward(self, x):
subnet = GetSubnet.apply(self.scores.abs(), sparsity)
w = self.weight * subnet
return F.linear(x, w, self.bias)
Định nghĩa mạng mới tương đương với mạng pre-trained nhưng với các layer super mask
class GANet(nn.Module):
def __init__(self):
super(GANet, self).__init__()
self.conv1 = SupermaskConv(1, 32, 3, 1, bias=False)
self.conv2 = SupermaskConv(32, 64, 3, 1, bias=False)
self.dropout1 = nn.Dropout2d(0.25)
self.dropout2 = nn.Dropout2d(0.5)
self.fc1 = SupermaskLinear(9216, 128, bias=False)
self.fc2 = SupermaskLinear(128, 10, bias=False)
def forward(self, x):
x = self.conv1(x)
x = F.relu(x)
x = self.conv2(x)
x = F.max_pool2d(x, 2)
x = self.dropout1(x)
x = torch.flatten(x, 1)
x = self.fc1(x)
x = F.relu(x)
x = self.dropout2(x)
x = self.fc2(x)
output = F.log_softmax(x, dim=1)
return output
Tiến hành copy weight của pre-trained model vào model mới
ga_model = GANet().to(device)
ga_module_list = [module for module in ga_model.modules() if isinstance(module, SupermaskConv) or isinstance(module, SupermaskLinear)]
# Update weight of ga model with original trained model
for i, weight in enumerate(original_weights):
ga_module_list[i].weight = weight
Xây dựng thuật toán GA
Build Agent
class Agent:
def __init__(self, params):
self.params = params
self.fitness = 0
def set_fitness(self, fitness):
self.fitness = fitness
Khởi tạo quần thể
# Init population
def init_pop(pop_size=100):
population = []
for _ in range(pop_size):
params = []
for shape in module_shape:
scores = nn.Parameter(torch.Tensor(shape))
nn.init.kaiming_uniform_(scores, a=math.sqrt(5))
agent = Agent(params=params)
return population
Update scores từng agent cho ga_model
def change_scores(module_list, agent):
for i, m_scores in enumerate(agent.params):
module_list[i].scores = m_scores
Đột biến
def mutation(agent, mut_rate=0.1):
params = []
for param in agent.params:
out = param.clone()
# flat_out and out share the same memory
flat_out = out.flatten().to(device)
# Get index mutation
indexes = np.where(np.random.uniform(low=0, high=1, size=(len(flat_out))) < mut_rate)
replace_values = np.random.uniform(low=-1, high=1, size=(len(flat_out)))[indexes]
# Mutation
flat_out.index_copy_(0, torch.LongTensor(indexes[0]).to(device), torch.FloatTensor(replace_values).to(device))
return Agent(params=params)
Lai ghép - tái tổ hợp
def recombine_agent(agent_1, agent_2):
params_1 = []
params_2 = []
for i, param in enumerate(agent_1.params):
param_1 = param.clone()
param_2 = agent_2.params[i].clone()
# Flatten
flat_1 = param_1.flatten().to(device)
flat_2 = param_2.flatten().to(device)
# Define children
child_1 = torch.zeros(len(flat_1))
child_2 = torch.zeros(len(flat_1))
# Select cross point
cross_pt = random.randint(0, len(flat_1))
# Swap
child_1[cross_pt:len(flat_1)] = flat_1[cross_pt:len(flat_1)]
child_1[0:cross_pt] = flat_2[0:cross_pt]
child_2[cross_pt:len(flat_1)] = flat_2[cross_pt:len(flat_1)]
child_2[0:cross_pt] = flat_1[0:cross_pt]
# Append to params
return Agent(params_1), Agent(params_2)
Đánh giá quần thể
from tqdm import tqdm
def evaluate_population(pop):
avg_fit = 0
for agent in tqdm(pop):
change_scores(ga_module_list, agent)
fit = test(ga_model.to(device), device)
agent.fitness = fit
avg_fit += fit
avg_fit /= len(pop)
return pop, avg_fit
Next generation
def next_generation(pop, size=100, mut_rate=0.01):
new_pop = []
while len(new_pop) < size:
parents = random.choices(pop, k=2, weights=[x.fitness for x in pop])
offspring_ = recombine_agent(parents[0],parents[1])
offspring = [mutation(offspring_[0], mut_rate=mut_rate), mutation(offspring_[1], mut_rate=mut_rate)]
new_pop.extend(offspring) #add offspring to next generation
return new_pop
Định nghĩa data test
Do không sử dụng tập train nên chỉ cần load data test để đánh giá
test_loader = torch.utils.data.DataLoader(
os.path.join("./data", "mnist"),
[transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]
Xây dựng hàm test
def test(model, device):
with torch.no_grad():
output = model(test_data)
pred = output.argmax(dim=1, keepdim=True) # get the index of the max log-probability
correct = pred.eq(test_target.view_as(pred)).sum().item()
out = correct / len(test_data)
return out
batch_size = 1024
momentum = 0.9
wd = 0.0005
lr = 0.01
epochs = 20
sparsity = 0.3
log_interval = 1000
seed = 1507
Huấn luyện
num_generations = 10000
population_size = 100
pop = init_pop(population_size)
mutation_rate = 0.1 # 0.1% mutation rate
pop_fit = []
pop = init_pop(population_size) #initial population
for gen in range(num_generations):
# trainning
pop, avg_fit = evaluate_population(pop)
print('Generation {} with pop_fit {}'.format(gen, avg_fit))
pop_fit.append(avg_fit) #record population average fitness
new_pop = next_generation(pop, size=population_size, mut_rate=mutation_rate)
pop = new_pop
Một vài kết quả
