Zalo Ai Challenge 2023

Question

Cho mình hỏi là các model nào có thể học từ text to images trong bảng Advertising Banner Generator ạ

Answer

Trong bảng Advertising Banner Generator, các model có thể học từ text to images bao gồm:

- DALL-E 2 là một model tạo hình ảnh từ văn bản được phát triển bởi OpenAI. DALL-E 2 có thể tạo ra các hình ảnh chân thực và sống động từ các mô tả văn bản, bao gồm cả các hình ảnh quảng cáo.
- CLIP là một mô hình kết hợp văn bản và hình ảnh được phát triển bởi OpenAI. CLIP có thể được sử dụng để chuyển đổi văn bản thành hình ảnh hoặc ngược lại.
- VQGAN + CLIP là một kết hợp của VQGAN và CLIP. VQGAN là một mô hình tạo hình ảnh từ văn bản sử dụng kỹ thuật biến đổi lượng tử (VQ). CLIP là một mô hình kết hợp văn bản và hình ảnh. VQGAN + CLIP có thể tạo ra các hình ảnh quảng cáo chất lượng cao từ các mô tả văn bản.
- Turing NLG là một mô hình ngôn ngữ tổng quát được phát triển bởi Google. Turing NLG có thể được sử dụng để tạo văn bản, bao gồm cả các mô tả hình ảnh.
Google AI Image Synthesis là một công cụ tạo hình ảnh từ văn bản được phát triển bởi Google AI. Công cụ này sử dụng các mô hình học máy để tạo ra các hình ảnh chân thực và sống động từ các mô tả văn bản.

Ngoài ra, các model khác cũng có thể được sử dụng để học từ text to images trong Advertising Banner Generator, chẳng hạn như:
- ImageGPT là một mô hình tạo hình ảnh từ văn bản được phát triển bởi OpenAI.
- BigGAN là một mô hình tạo hình ảnh từ văn bản được phát triển bởi DeepMind.
- StyleGAN là một mô hình tạo hình ảnh từ văn bản được phát triển bởi NVIDIA.

Lựa chọn model nào để sử dụng cho Advertising Banner Generator phụ thuộc vào các yếu tố như:

- Yêu cầu về chất lượng hình ảnh: Nếu yêu cầu về chất lượng hình ảnh cao, có thể sử dụng các model như DALL-E 2, VQGAN + CLIP hoặc Turing NLG.
- Yêu cầu về khả năng sáng tạo: Nếu yêu cầu về khả năng sáng tạo cao, có thể sử dụng các model như DALL-E 2 hoặc VQGAN + CLIP.
- Yêu cầu về tốc độ: Nếu yêu cầu về tốc độ cao, có thể sử dụng các model như CLIP hoặc Google AI Image Synthesis.

Answer

Chào bạn,

Bạn có thể thử nghiệm với mô hình SD/DALL-E 2 hoặc Imagen nhé

https://github.com/Stability-AI/generative-models

https://github.com/Stability-AI/StableDiffusion

https://github.com/lucidrains/imagen-pytorch

https://github.com/lucidrains/DALLE2-pytorch

Hiện mình có thử finetune với SD cũng thu được một số kết quả chấp nhận được :D

2 CÂU TRẢ LỜI