Đã đăng vào thg 8 15, 2023 2:25 SA

trong

19 phút đọc

2.8K

[Deepfake]Giới thiệu về DeepFaceLab công cụ để tạo ra Deepfake thật sự hoàn hảo

I.Làm thế nào 'Furious 7' đã đưa Paul Walker quá cố trở lại cuộc sống?

Trong thời kỳ tiền kỹ thuật số, cái chết của Paul Walker vào ngày 30 tháng 11 năm 2013 sẽ khiến việc hoàn thành một bộ phim như Furious 7 trở thành một nhiệm vụ khó khăn. Vì một số cảnh quan trọng của anh ấy vẫn chưa được quay nên cần phải diễn lại và quay lại. Nhưng kỹ thuật làm phim kỹ thuật số đã thay đổi tất cả. Kỹ thuật làm phim đó có thể được hiểu nhà sản xuất F7 đang sử dụng AI để xử lý việc fake khuôn mặt của Paul ở phía hậu kỳ xử lý. Không những chỉ hình ảnh của Paul đã được xử lý qua bằng AI mà chính giọng của anh cũng được fake lun (đương nhiên rùi đúng k ).

Dưới đây là video

Hôm nay mình sẽ giới thiệu cho các bạn một công cụ AI để có thể làm được việc đó. Cùng đọc bài để biết thêm nhiều kiến thức AI nha

II.DeepFaceLab?

DeepFaceLab là phần mềm hàng đầu để tạo deepfakes. Hơn 95% video deepfake được tạo bằng DeepFaceLab. các phương pháp deepfake hiện tại chịu tác động của quy trình làm việc tối nghĩa và hiệu suất kém. Để giải quyết vấn đề này DeepFaceLab đã cho ra deepfake framework thống trị các kiểu hoán đổi khuôn mặt. Nó cung cấp các công cụ cần thiết cũng như cách dễ sử dụng để tiến hành hoán đổi khuôn mặt chất lượng cao.

III.DeepFaceLab hoạt động như thế nào?

Không giống như các công cụ chỉnh sửa video tiêu chuẩn, DeepFaceLab tận dụng các thuật toán học sâu nâng cao để tạo hiệu ứng hoán đổi khuôn mặt vô cùng chân thực trong video. Tất cả những gì cần làm là chọn video nguồn và video đích, DeepFaceLab sẽ thực hiện phần còn lại. Bằng cách phân tích cả hai video, nó có thể xác định các đặc điểm khuôn mặt, biểu cảm và chuyển động, sau đó nó sử dụng để chuyển khuôn mặt từ video nguồn sang cơ thể trong video đích một cách liền mạch.

IV.Điều gì tạo nên một Deepfake tốt?

Về mặt kỹ thuật, DeepFaceLab có thể tạo deepfake chỉ từ một vài hình ảnh. Tuy nhiên, kết quả tốt nhất sẽ đến từ việc sử dụng nhiều hình ảnh nguồn chất lượng cao với các biểu cảm khuôn mặt và điều kiện ánh sáng khác nhau. Ngoài ra, khuôn mặt nguồn và đích nên có phần đầu và đường viền hàm có hình dạng tương tự nhau để bố cục cuối cùng sẽ thuyết phục hơn. Hơn nữa, hình ảnh nguồn phải có các đặc điểm nhất quán (chẳng hạn như râu và trang điểm), phải được chụp trong khoảng thời gian ngắn (trong vòng vài năm) và phải có một số điểm tương đồng với khuôn mặt đích. Khuôn mặt nguồn càng giống với khuôn mặt đích thì deepfake càng tốt. Dành nhiều thời gian hơn để chuẩn bị dữ liệu ngay từ đầu sẽ được đền đáp rất nhiều về lâu dài.

Diagram: Human Head Angles

Có một số bước phải được thực hiện để tạo một deepfake, bao gồm một số giai đoạn đào tạo và hàng chục tùy chọn đầu vào. Mặc dù hướng dẫn này có thể đề xuất một quy trình để tuân theo, nhưng mỗi dự án đều khác nhau và theo thời gian, bạn sẽ hiểu sâu hơn về phần mềm và hình thành các quy trình của riêng mình. Giống như bất kỳ công cụ sáng tạo nào khác, bạn sẽ sử dụng DeepFaceLab tốt hơn khi thực hành. Vui lòng kiểm tra các tùy chọn để xem những gì chúng làm cho bạn và dành thời gian để chạy thử nghiệm và khám phá các tính năng mới.

DeepFaceLab cũng có thể được sử dụng song song với các phần mềm xử lý hình ảnh và video khác. Các công cụ nâng cao hình ảnh, chỉnh sửa và xử lý hiệu ứng cũng như xử lý âm thanh đều có thể góp phần mang lại kết quả chân thực hơn.

V.DeepFaceLab: Các tính năng và lợi ích chính

Các khả năng mạnh mẽ của DeepFaceLab khiến nó trở thành giải pháp deepfake tối ưu. Bộ tính năng phong phú của nó bao gồm:

Hoán đổi khuôn mặt chất lượng cao: DeepFaceLab sử dụng các kỹ thuật học sâu tinh vi để đạt được kết quả hoán đổi khuôn mặt ấn tượng khó phân biệt với thực tế.
Giao diện thân thiện với người dùng: Thiết kế trực quan của DeepFaceLab đảm bảo quy trình làm việc dễ dàng và suôn sẻ. Ngay cả khi bạn chưa quen với công nghệ deepfake, bạn có thể bắt đầu tạo video deepfake đáng kinh ngạc ngay lập tức.
Mức độ linh hoạt cao: Không giống như các nền tảng cứng nhắc, DeepFaceLab cung cấp một quy trình linh hoạt cho phép bạn nâng cao các dự án của mình bằng các tính năng bổ sung mà không cần xử lý mã soạn sẵn phức tạp.
Áp dụng rộng rãi: danh tiếng của DeepFaceLab đi trước chính nó. Nó được các chuyên gia, các kênh YouTube phổ biến và những người đam mê deepfake trên toàn thế giới tin tưởng.

1.Các trường hợp sử dụng DeepFaceLab

Cho dù bạn là nhà làm phim, nhà tiếp thị kỹ thuật số, YouTuber hay chỉ là người đam mê deepfake, DeepFaceLab có thể thay đổi cách bạn làm việc:

Video deepfake chất lượng cao: Với DeepFaceLab, việc tạo video hoán đổi khuôn mặt chân thực không còn là một nhiệm vụ phức tạp mà là một cuộc phiêu lưu đầy sáng tạo.
Tạo deepfake dễ dàng: Giao diện trực quan giúp đơn giản hóa quy trình tạo deepfake, giúp người mới bắt đầu cũng như các chuyên gia có thể truy cập được.
Quy trình deepfake tùy chỉnh: Nếu bạn có các yêu cầu cụ thể, cấu trúc linh hoạt của DeepFaceLab cho phép bạn điều chỉnh quy trình cho phù hợp với nhu cầu của mình.

2.DeepFaceLab giải quyết vấn đề gì?

DeepFaceLab giải quyết thách thức tạo ra các video deepfake thuyết phục. Bằng cách thay thế quy trình chỉnh sửa khuôn mặt thủ công thường phức tạp và tốn thời gian bằng quy trình tự động hóa tinh vi, quy trình này giúp giảm đáng kể thời gian và công sức cần thiết để tạo video deepfake chất lượng cao.

VI.Quy trình làm việc của DeepFaceLab

DeepFaceLab cung cấp một tập hợp quy trình công việc tạo thành pipeline linh hoạt. Trong DeepFaceLab (viết tắt là DFL), có thể tóm tắt pipeline thành ba giai đoạn: extraction, training, và conversion.

3 giai đoạn chính của DFL

DFL là mô hình hoán đổi khuôn mặt một đối một điển hình, có nghĩa là chỉ có hai loại dữ liệu: src và dst, chữ viết tắt của nguồn và đích.

1. Face Extraction

Giai đoạn trích xuất là giai đoạn đầu tiên trong DFL, nhằm trích xuất một khuôn mặt từ dữ liệu src và dst. Giai đoạn này bao gồm nhiều thuật toán và các phần xử lý, tức là phát hiện khuôn mặt, căn chỉnh khuôn mặt và phân đoạn khuôn mặt. DFL cung cấp nhiều chế độ trích xuất (nghĩa là nửa khuôn mặt, toàn bộ khuôn mặt, toàn bộ khuôn mặt), đại diện cho vùng bao phủ khuôn mặt của giai đoạn trích xuất. Nói chung, chúng tôi sử dụng chế độ toàn mặt theo mặc định.

Tổng quan về giai đoạn trích xuất mặt trong DeepFaceLab

Face Detection: Bước đầu tiên trong giai đoạn khai thác là tìm mặt đích trong dữ liệu đã cho: src và dst. DFL coi S3FD là bộ phát hiện khuôn mặt mặc định của nó. S3FD có thể được thay thế bằng các thuật toán nhận diện khuôn mặt khác một cách dễ dàng, chẳng hạn như RetinaFace, Yoloface. Face Alignment: Bước thứ hai là căn chỉnh khuôn mặt. Sau nhiều lần thử nghiệm và thất bại, chúng tôi nhận ra rằng các điểm mốc trên khuôn mặt là chìa khóa để duy trì sự ổn định theo thời gian. Chúng tôi cần tìm một thuật toán đánh dấu khuôn mặt hiệu quả cần thiết để tạo ra một cảnh quay và quay phim liên tiếp xuất sắc

Face Segmentation: Sau khi căn chỉnh mặt, thu được một thư mục dữ liệu có mặt của chế độ xem trước/bên tiêu chuẩn (src được căn chỉnh hoặc dst được căn chỉnh). Sau đó sẽ dùng 1 mạng phân (TernausNet) đoạn để có thể phân đoạn khuôn mặt có tóc, kính, ngón tay 1 cách chính xác.

Tuy nhiên, do một số mô hình phân đoạn khuôn mặt hiện đại không thể tạo mặt nạ chi tiết trong một số ảnh cụ thể, XSeg đã được giới thiệu trong DFL. XSeg cho phép mọi người đào tạo mô hình của họ để phân đoạn một tập hợp khuôn mặt cụ thể (src được căn chỉnh hoặc dst được căn chỉnh) thông qua mô hình học tập vài bước như hình trên.

2.Training

Giai đoạn đào tạo đóng vai trò quan trọng nhất trong việc đạt được kết quả hoán đổi khuôn mặt chân thực của DFL. Không cần biểu cảm khuôn mặt của src được căn chỉnh và dst được căn chỉnh phải khớp hoàn toàn, DFL nhằm mục đích cung cấp một mô hình thuật toán hiệu quả để giải quyết vấn đề không ghép đôi này cùng với việc duy trì chất lượng cảm nhận và độ trung thực cao của khuôn mặt được tạo.

Giai đoạn training trong DFL

cấu trúc DF và cấu trúc LIAE, để giải quyết vấn đề này. Như được hiển thị trong hình trên, cấu trúc DF bao gồm một Bộ mã hóa cũng như Inter với các trọng số được chia sẻ giữa src và dst, hai Bộ giải mã thuộc về src và dst riêng biệt. Việc khái quát hóa src và dst đạt được thông qua Encoder và Inter được chia sẻ, giúp giải quyết vấn đề không ghép nối đã nói ở trên một cách dễ dàng. Để nâng cao hơn nữa vấn đề về tính nhất quán của ánh sáng.

Để nâng cao hơn nữa vấn đề về tính nhất quán của ánh sáng, DFL đã đề xuất Cấu trúc LIAE là một cấu trúc phức tạp hơn với Encoder, Decoder mã trọng số dùng chung và hai Inter độc lập. Sự khác biệt chính so với DF là InterAB được sử dụng để tạo cả mã tiềm ẩn của src và dst trong khi InterB chỉ xuất mã tiềm ẩn của dst.

3.Conversion

Giai đoạn chuyển đổi là giai đoạn cuối cùng nhưng không kém phần quan trọng. Các phương pháp trước đây thường bỏ qua tầm quan trọng của giai đoạn này. Được mô tả trong hình dưới, người dùng có thể hoán đổi các mặt của src thành dst và ngược lại.

Giai đoạn chuyển đổi trong DeepFaceLab

Trong trường hợp của src2dst, bước đầu tiên của sơ đồ hoán đổi khuôn mặt được đề xuất trong giai đoạn chuyển đổi là chuyển đổi khuôn mặt được tạo cùng với mặt nạ của nó từ Bộ giải mã dst đến vị trí ban đầu của hình ảnh đích trong src do khả năng đảo ngược của Umeyama.

Phần sau đây là về sự pha trộn, với tham vọng để khuôn mặt tái hiện được sắp xếp lại phù hợp liền mạch với hình ảnh mục tiêu dọc theo đường viền bên ngoài của nó. Để duy trì làn da nhất quán, DFL cung cấp thêm năm màu thuật toán chuyển giao (tức là, chuyển giao màu Reinhard: RCT, truyền phân phối lặp lại: IDT và v.v.) để ước tính màu của khuôn mặt được tái tạo thành mục tiêu. Bất kì pha trộn phải tính đến các tông màu da khác nhau, hình dạng khuôn mặt, và điều kiện chiếu sáng, đặc biệt là tại các điểm giao nhau giữa khuôn mặt được tái hiện với vùng được phân định và mục tiêu khuôn mặt. DFL đã thực hiện điều này bằng cách pha trộn Poisson.

Cuối cùng, mài sắc là không thể thiếu. Một khuôn mặt được đào tạo trước mạng lưới thần kinh siêu phân giải đã được thêm vào để làm sắc nét khuôn mặt được pha trộn vì người ta lưu ý rằng các khuôn mặt được tạo trong hầu hết các tác phẩm hoán đổi khuôn mặt hiện đại nhất hiện nay, hơn thế nữa hoặc ít hơn, được làm nhẵn và thiếu các chi tiết nhỏ (ví dụ: nốt ruồi, nếp nhăn).

VII.Thuật ngữ DeepFaceLab

DFL: Viết tắt của DeepFaceLab

Workspace: Thư mục /workspace nơi lưu trữ tất cả hình ảnh, video và các tệp quan trọng khác.

Source (SRC): Dữ liệu đầu vào là video hoặc hình ảnh khuôn mặt sẽ được đặt trong video hoặc hình ảnh cuối cùng

Destination (DST): Video hoặc hình ảnh đầu ra dự định khuôn mặt sẽ được thay thế bằng deepfake

Predicted: (PRD) Khuôn mặt deepfake thực sự được tạo ra

Extraction: Quá trình tạo một tập hợp con các hình ảnh từ các hình ảnh hoặc video khác

Landmarks: Các điểm xác định các đặc điểm trên khuôn mặt như mắt, miệng, mũi và đường viền hàm

Alignment: Quá trình phát hiện khuôn mặt và nhúng các mốc khuôn mặt dưới dạng siêu dữ liệu hình ảnh

Faceset: Một tập hợp các khuôn mặt được căn chỉnh được trích xuất từ hình ảnh

Model: Các cài đặt và tệp xác định mạng thần kinh deepfake

Training: Quá trình cho phép mạng thần kinh học một khuôn mặt được dự đoán dựa trên dữ liệu đầu vào

Merging: Quá trình tạo hình ảnh từ mô hình được đào tạo đồng thời chuyển đổi hình ảnh và âm thanh đích thành tệp video

VIII.Download & Install DeepFaceLab 2.0

NOTE: Yêu cầu tối thiểu về thiết bị mà bạn sử dụng để chạy

Các bạn sử dụng windows download bằng link bên dưới:

Mega.nz (Latest Builds)

Torrent (Latest and Previous Builds)

Những hệ điều hành khác các bạn có thể tham khảo ở github: https://github.com/iperov/DeepFaceLab

kéo xuống phần Releases để lựa chọn phiên bản thích hợp với máy của bạn nha!

IX.Hướng dẫn chi tiết

Để đây là tài liệu hướng dẫn chi tiết nhất để các bạn tham khảo nha!

Nếu các bạn muốn mình làm chi tiết và sâu hơn hãy để lại comment ở dưới phần bình luận nha! cảm ơn các bạn đã đọc bài chia sẻ để deepfake này của mình

X. Tài Liệu Tham Khảo

[1] DeepFaceLab: Integrated, flexible and extensible face-swapping framework

[2] DeepfakeVFX.com