Rust for Machine Learning - Ảnh hóa âm thanh - Phần 01

Từ những năm học phổ thông chúng ta đã biết rằng một tín hiệu âm thanh được sinh ra bởi các thay đổi áp suất không khí. Chúng ta có thể đo cường độ của các biến đổi áp suất và biểu diễn chúng theo một đồ thị biến đổi theo thời gian.

Các tín hiệu âm thanh có dạng lặp đi lặp lại theo thời gian và nếu biểu diễn trên đồ thị sẽ có dạng sóng. Chiều cao của sóng cho biết cường độ (“intensity”) và được gọi là biên độ âm thanh (”amplitude”).

Thời gian để tín hiệu hoàn thành một sóng trọn vẹn được gọi là chu kỳ, số đỉnh sóng xuất hiện trong một giây được gọi là tần số, tần số có quan hệ nghịch đảo với chu kỳ. Đơn vị của tần số là Hertz, được viết tắt là Hz.

Cách biểu diễn trên của âm thanh được gọi là biểu diễn trong miền thời gian, đó là cách biểu diễn cơ bản nhất và thường dùng ngay dữ liệu âm thanh thô dạng PCM trong các tệp ghi âm, chẳng hạn các tệp .WAV. Cách biểu diễn này phù hợp với cách chúng ta tái tạo và phát lại các tệp ghi âm nhưng lại không phù hợp với việc nhận dạng lời nói vì nó không thể hiện được các đặc trưng của lời nói, các đặc trưng của âm vị và từ.

Trong các ứng dụng nhận dạng lời nói tiên tiến sử dụng các mô hình kiến trúc Transformer (ví dụ: Whisper của OpenAI), việc nhận dạng lời nói có thể coi thực chất là nhận dạng hình ảnh đại diện cho lời nói. Hình ảnh đại diện cho các đặc trưng của lời nói đó là một ảnh phổ Mel hay Mel Spectrogram. Vậy tại sao lại là ảnh phổ Mel? Ảnh phổ Mel là gì?

Để trả lời được câu hỏi trên chúng ta sẽ cần đi từng bước về cách mà âm thanh được lưu trữ và biểu diễn sau khi số hóa, về cách thức các đặc trưng lời nói được biễu diễn. Hơn nữa, trong thực tế, chúng ta luôn muốn dùng các tệp âm thanh trung thực, thậm chí là “lossess” vì chúng truyền tải nội dung âm thanh được chính xác và trung thực nhất. Như vậy nếu muốn nhận dạng lời nói chính xác thì sẽ cần dùng các tệp âm thanh càng trung thực càng tốt? Tại sao?

Hãy cùng RustDev Vietnam bắt đầu hành trình tìm hiểu tại sao dùng ảnh phổ Mel để nhận dạng lời nói qua video “#0058 - Rust for Machine Learning - Ảnh hóa âm thanh - Phần 01” trên kênh Youtube RustDev Vietnam.

Hãy nhớ nhấn ĐĂNG KÝ KÊNH để không bị bỏ lỡ các video mới của RustDev Vietnam nhé!

Mục lục