0
Zalo Ai Challenge 2023
Cho mình hỏi là các model nào có thể học từ text to images trong bảng Advertising Banner Generator ạ
Thêm một bình luận
2 CÂU TRẢ LỜI
+1
Trong bảng Advertising Banner Generator, các model có thể học từ text to images bao gồm:
- DALL-E 2 là một model tạo hình ảnh từ văn bản được phát triển bởi OpenAI. DALL-E 2 có thể tạo ra các hình ảnh chân thực và sống động từ các mô tả văn bản, bao gồm cả các hình ảnh quảng cáo.
- CLIP là một mô hình kết hợp văn bản và hình ảnh được phát triển bởi OpenAI. CLIP có thể được sử dụng để chuyển đổi văn bản thành hình ảnh hoặc ngược lại.
- VQGAN + CLIP là một kết hợp của VQGAN và CLIP. VQGAN là một mô hình tạo hình ảnh từ văn bản sử dụng kỹ thuật biến đổi lượng tử (VQ). CLIP là một mô hình kết hợp văn bản và hình ảnh. VQGAN + CLIP có thể tạo ra các hình ảnh quảng cáo chất lượng cao từ các mô tả văn bản.
- Turing NLG là một mô hình ngôn ngữ tổng quát được phát triển bởi Google. Turing NLG có thể được sử dụng để tạo văn bản, bao gồm cả các mô tả hình ảnh. Google AI Image Synthesis là một công cụ tạo hình ảnh từ văn bản được phát triển bởi Google AI. Công cụ này sử dụng các mô hình học máy để tạo ra các hình ảnh chân thực và sống động từ các mô tả văn bản.
Ngoài ra, các model khác cũng có thể được sử dụng để học từ text to images trong Advertising Banner Generator, chẳng hạn như:
- ImageGPT là một mô hình tạo hình ảnh từ văn bản được phát triển bởi OpenAI.
- BigGAN là một mô hình tạo hình ảnh từ văn bản được phát triển bởi DeepMind.
- StyleGAN là một mô hình tạo hình ảnh từ văn bản được phát triển bởi NVIDIA.
Lựa chọn model nào để sử dụng cho Advertising Banner Generator phụ thuộc vào các yếu tố như:
- Yêu cầu về chất lượng hình ảnh: Nếu yêu cầu về chất lượng hình ảnh cao, có thể sử dụng các model như DALL-E 2, VQGAN + CLIP hoặc Turing NLG.
- Yêu cầu về khả năng sáng tạo: Nếu yêu cầu về khả năng sáng tạo cao, có thể sử dụng các model như DALL-E 2 hoặc VQGAN + CLIP.
- Yêu cầu về tốc độ: Nếu yêu cầu về tốc độ cao, có thể sử dụng các model như CLIP hoặc Google AI Image Synthesis.
0
Chào bạn,
Bạn có thể thử nghiệm với mô hình SD/DALL-E 2 hoặc Imagen nhé
https://github.com/Stability-AI/generative-models
https://github.com/Stability-AI/StableDiffusion
https://github.com/lucidrains/imagen-pytorch
https://github.com/lucidrains/DALLE2-pytorch
Hiện mình có thử finetune với SD cũng thu được một số kết quả chấp nhận được