Mô hình hóa ngữ điệu và trường độ cho các loại câu hỏi Tiếng Việt (P2)

Tóm tắt: Trong phần trước, tôi đã trình bày tổng quan về tổng hợp tiếng nói, các thành phần tiếng nói và nguyên tắc xây dựng bộ cơ sơ dữ liệu. Trong phần này, tôi trình bày tiếp về thu âm và kết quả của quá trình.

4. Thu âm

Từ danh mục câu hỏi đã xây dựng ở trên, chúng tôi thực hiện thu dữ liệu. Để xây dựng bộ dữ liệu gồm 100 câu này, chúng tôi lựa chọn 10 người thu nam, 10 người thu nữ, tất cả những người thu này đều là sinh viên, thuộc độ tuổi từ 19 đến 23 tuổi, có quê ở miền bắc Việt Nam, chủ yếu là giáp Hà Nội, không nói ngọng và tiếng địa phương.

Quá trình thu âm được thực hiện trong phòng thu của trung tâm MICA để đảm bảo cách âm với môi trường xung quanh. Trong quá trình thu âm, người thu được đặt trong một văn cảnh cụ thể để diễn tả một cách tự nhiên nhất, bên cạnh đó, khi người nói sai hoặc câu nói không tự nhiên sẽ được yêu cầu người thu thực hiện lại bởi người giám sát.

Một số thiết bị được sử dụng trong quá trình thu âm như micro Headworm Microphone Audio Technica BP892cW và bộ thu âm đa kênh RME Fireface UFX. Đây là hai thiết bị hỗ trợ giúp quá trình thu hoàn thành tốt, đảm bảo chất lượng thu được ổn định.

Tín hiệu thu âm được lưu trữ dưới dạng file .wav, mã hóa 44.1kHz, 16 bit.

5. Xử lý gán nhãn dữ liệu sau khi thu âm

Tín hiệu sau khi thu cần phải được xử lý và gán nhãn để phục vụ cho việc phân tích. Quá trình này gồm 2 bước:

  • Lựa chọn câu để phân tích
  • Gán nhãn các câu đã chọn ở mức âm tiết

Công việc trên được thực hiện trên môi trường Praat 1, là nền tảng mã nguồn mở chuyên dụng để xử lý tiếng nói.

5.1. Lựa chọn câu

Trong quá trình thu âm, có một số câu nói sai hoặc không tự nhiên, nên người giám sát yêu cầu người thu nhắc lại, do đó trong dữ liệu bao gồm cả những câu nói sai hoặc không tự nhiên, do đó, chúng tôi phải nghe lại từng đoạn, sau đó lựa chọn từng cầu và gán nhãn cho câu được lựa chọn theo số thứ tự của câu đó.

5.2. Gán nhãn

Sau khi chọn được câu nói tự nhiên và chính xác theo các mẫu thiết kế, chúng tôi thực hiện gán nhãn đến mức âm tiết, để thuận lợi cho việc phân tích sau này, chúng tôi sử dụng 4 trường: kiểu câu, số thứ tự của câu, nội dung của câu, và nội dung các âm tiết để gán nhãn.

Để thực hiện gán nhãn đến mức âm tiết, chúng tôi phải xác định được các điểm phẩn biệt của âm tiết dựa vào phổ, chu kì của âm tiết, formant… bên cạnh đó, chúng tôi nghe lại để xác định nội dung của âm tiết đó và kiểm chứng lại vùng gán nhãn vừa xong.

5.3. Tổng kết

Kết quả thu âm gôm có 20 bộ dữ liệu tương ứng với 20 giọng đọc. Mỗi bộ dữ liệu bao gồm 100 câu nói tự nhiện nhất đã được chọn lọc. Tổng hợp toàn bộ dữ liệu để phân tích bao gồm 2000 câu khác nhau, tương ứng với 25.4 phút tín hiệu âm thanh. Có thể nói đây là bộ dữ liệu đầu tiên để phục vụ việc nghiên cứu ngữ điệu câu hỏi cho tiếng Việt.

6. Phân tích và mô hình hóa ngữ điệu

Trong trình bày của phần trước, chúng tôi đã thực hiện thu dữ liệu và xử lý dữ liệu ở bước đầu. Trong chương này, chúng tôi thực hiện phân tích và mô hình hóa dữ liệu câu hỏi tiếng Việt, đây là bước quan trọng nhất trong bài viết này.

Việc phân tích tham số ngữ điệu cũng nhắm tới để ứng dụng trong hệ thống tổng hợp tiếng việt - VTed để thực hiện tổng hợp tiếng nói. Hệ thống VTed biến đổi các tham số của tiếng nói là cao độ và thời gian thông qua ngôn ngữ đánh dấu SSML. Vì vậy các tham số trong mô hình để xuất sẽ phải đảm bảo tuân theo quy luật và khả năng của SSML cũng như hệ thống VTed

Cụ thể ở đây, chúng tôi thực hiện trích rút hai tham số của các câu. Dựa vào đó, chúng tôi tìm ra sự khác nhau về cao độ, trường độ giữa câu trần thuật và các loại câu hỏi, giữa câu không có thanh điệu và câu có thanh điệu tại từ để hỏi, đây là cơ sở để chúng tôi mô hình hóa ngữ điệu cho câu hỏi.

6.1. Trích rút các tham số ngữ điệu

6.1.1. Cao độ

  • Chuyển đổi đoạn âm thanh thành một chuỗi cao độ (pitch) của từng âm tiết với ngưỡng dưới là 75Hz, ngưỡng trên là 500Hz, khoảng thời gian 2ms.
  • Chia âm tiết thành 8 đoạn đều nhau, tính trung bình f0 của mỗi đoạn, lấy điểm giữa mỗi đoạn là một điểm đại diện cho đoạn đó.

6.1.2. Trường độ (Độ dài của câu)

Chúng tôi sử dụng phần mềm để gán nhãn từng âm tiết, dựa vào đó, chúng tôi xác định điểm đầu và điểm cuối của một âm tiết, từ đó suy ra được khoảng thời gian của âm tiết.

6.2. Phương pháp phân tích

6.2.1. Phân tích cao độ

Từ các tham số đã được trích rút ở trên, chúng tôi tính ra đường trung bình và độ lệch chuẩn của 10 nam cũng như 10 nữ, từ đó vẽ đồ thị đường bình kèm độ lệch chuẩn của các câu có 6 âm tiết. Đồ thị bao gồm đường trung bình của câu hỏi và đường trung bình của câu trần thuật, bên cạch đó, đồ thì còn độ lệch chuẩn của mỗi câu, từ đó chúng tôi rút ra nhận xét về biến thiên của chuỗi cao độ.

Ngoài ra, chúng tôi vẽ đồ thị bao gồm các đường trung bình của các câu giống nhau về loại câu và các từ trong câu, chỉ khác nhau về số lượng các từ, từ đó rút ra nhận xét về sự biến đổi của dáng điệu đường cao độ khi thay đổi số lượng các từ trong câu.

6.2.2. Phân tích trường độ

Từ các tham số đã được trích rút, chúng tôi tính thời gian trung bình từng âm tiết của 10 nam và 10 nữ. Từ đó vẽ đồ thị để so sánh câu hỏi 6 âm tết với câu trần thuật nhằm rút ra sự biến thiên về thời gian của từng âm tiết giữa câu hỏi và câu trần thuật. Bên cạnh đó, đồ thị về thời gian cho từng họ câu hỏi, từ đó rút ra nhận xét sự biến thiên về thời của câu hỏi khi thay đổi số lượng âm tiết trong câu.

7. Kết quả phân tích

7.1. Sự biến đổi của ngữ điệu theo độ dài câu

Dựa vào biểu đồ và dữ liệu đã được trích xuất khi thay đổi số lượng các từ trong câu, chúng tôi nhận thấy dáng điệu cao độ trung bình chung của câu hỏi không có từ để hỏi khi thay đổi số lượng âm tiết tương tự giống nhau.

Bên cạnh đó, khi thay đổi số lượng âm tiết trong một câu, sự biến thiên thời gian của một âm tiết chỉ phụ thuộc vào vị trí của âm tiết đó trong câu.

7.2. Trường độ trong câu

Dựa vào các biểu đồ về độ dài âm tiết trong các loại câu, một số nhận xét được rút ra như sau:

  • Thời gian giữa câu trần thuật và câu hỏi khi có cùng số lượng âm tiết là tương tự nhau.
  • Thời gian của câu câu thay đổi chỉ phụ thuộc vào vị trí và nội dung âm tiết, ví dụ như với câu có âm tiết cuối cùng là p, t, c thì thời gian ngắn hơn so với câu trần thuật.
  • Trong một câu, thời gian âm tiết cuối là dài nhất (trừ âm tiết kết thúc là p, t, c). Âm tiết thứ hai trong câu là âm tiết có thời gian ngắn nhất và thời gian các âm tiết tăng dần đến cuối câu.

Do loại câu không ảnh hướng đến thời gian của từng âm tiết trong câu, do đó, bài viết này tập trung vào sự biến đổi giữa câu trần thuật và các loại câu hỏi, cũng như trình bày về các mô hình cao độ câu hỏi.

8. Mô hình hóa trong câu

Dựa vào tham số trích rút, chúng tôi so sánh sự chênh lệch giữa câu hỏi và câu trần thuật trên cùng một người thu. Từ đó rút kết luận người thu có f0 cao thì sự chênh lệch giữa câu hỏi và câu trần thuật càng lớn. Vậy nên, chúng tôi đề xuất so sánh trên đơn vị %.

Giá trị trung bình và độ chênh lệch trung bình của từng loại câu hỏi so với câu trần thuật được tính từ các giá trị đã thu được.

8.1. Câu hỏi không có từ để hỏi

Dựa vào dữ liệu trích xuất ở trên, chúng tôi nhận thấy:

  • Về dáng điệu chung: chuỗi cao độ (pitch) của câu hỏi không có từ đề hỏi và câu trần thuật tuong đối giống nhau (trừ âm tiết cuối) và có cao độ trung bình cao hơn cao độ trung bình của câu trần thuật một mức α.

  • Tại âm tiết cuối:

    • i. Dáng điệu pitch của câu trần thuật ổn định từ đầu đến giữa âm tiết và có xu hướng đi xuống từ giữa âm tiết đến cuối âm tiết.
    • ii. Dáng điệu pitch của câu hỏi không có từ để hỏi thì tăng dần về cuối đối với những từ không có thanh điêu, với những âm tiết có thanh điệu, dáng điệu pitch phụ thuộc vào thanh điệu.

Từ đó, chúng tôi đưa ra đề xuất về mô hình như sau.

  • Từ âm tiết đầu tiên đến âm tiết n-1, cao độ của các âm tiết được tăng thêm một khoảng α. Trong một số trường hợp, do vị trí bắt đầu của âm tiết đầu tiên thấp hơn so với những âm tiết kế cạnh, nên dẫn đến một số biến đổi nhỏ.

  • Âm tiết n (âm tiết cuối) được biến đổi phụ thuộc vào thanh điệu của âm tiết. Ví như trong hình 29, với câu trần thuật, từ vị trí 0% đến 43.2% , giá trị của cao độ ổn định, từ 43.2% đến 100%, giá trị cao độ của âm tiết giảm dần. Đối với âm tiết cuối của câu hỏi, từ vị trí 0% đến 43% của âm tiết, giá trị của cao độ giảm mạnh, chênh lệch so với câu trần thuật giảm từ 6.9% xuống -23.6% và tăng mạnh từ vị trí hiện tại đến cuối câu, độ chênh lệch của câu hỏi tại vị trí 100% của âm tiết là 13.4%.

  • Tương tự với các thanh điệu khác, ta có bảng 4 trình bày mô hình của các thanh điệu với loại câu hỏi có từ để hỏi ở cuối. Trong đó, Pi=1..4 thể hiện các điểm trong âm tiết, bao gồm cặp giá trị chỉ vị trí (P) và độ chênh lệch (R) với câu trần thuật (tính theo đơn vị %). Ai=1..n được định nghĩa là âm tiết thứ i trong câu gồm n âm tiết.

8.2. Câu hỏi có từ để hỏi ở đầu câu

Dựa vào dữ liệu trích xuất ở trên, chúng tôi nhận thấy

  • Về dáng điệu chung: chuỗi cao độ (pitch) của câu hỏi có từ đề hỏi ở đầu câu và câu trần thuật tương đối giống nhau từ âm tiết thứ 3 đến âm tiết n-1 và có cao độ trung bình cao hơn cao độ trung bình của câu trần thuật một mức α.

  • Tại âm tiết đầu và âm tiết thứ hai:

    • i. Dáng điệu pitch của câu trần thuật ổn định từ đầu âm tiết đến cuối âm tiết.
    • ii. Dáng điệu pitch của âm tiết đầu và âm tiết thứ hai phụ thuộc vào thanh điệu của âm tiết đầu tiên.
  • Tại âm tiết cuối:

    • i. Dáng điệu pitch của câu trần thuật ổn định từ đầu đến giữa âm tiết và có xu hướng đi xuống từ giữa âm tiết đến cuối âm tiết.
    • ii. Dáng điệu pitch của câu hỏi không có từ để hỏi thì tăng dần về cuối.

Từ kết quả phân tích ở trên, chúng tôi đề xuất mô hình tiếng nói như sau

  • Âm tiết 1 (âm tiết đầu tiên) được biến đổi phụ thuộc vào thanh điệu của âm tiết. Ví dụ như trong hình 30, với câu trần thuật, cao độ ổn định từ đầu âm tiết đến cuối âm tiết. Đối với câu hỏi, từ vị trí 0% đến vị trí 100%, giá trị của cao độ giảm, độ chênh lệch giảm từ -9.7% đến -17.9%.
  • Âm tiết 2 được biến đổi phụ thuộc vào thanh điệu của âm tiết. Ví dụ như trong hình 30, với câu trần thuật, cao độ ổn định từ đầu âm tiết đến cuối âm tiết. Đối với câu hỏi, từ vị trí 0% đến vị trí 100%, giá trị của cao độ tặng dần, độ chênh lệch tăng từ 3.9% đến 8.2%.
  • Từ âm tiết thứ 3 đến âm tiết n-1, cao độ của các âm tiết được tăng thêm một khoảng α.
  • Âm tiết n (âm tiết cuối) được biến đổi phụ thuộc vào thanh điệu của âm tiết. Với câu trần thuật, từ vị trí 0% đến 43.2% , giá trị của cao độ ổn định, từ 43.2% đến 100%, giá trị cao độ của âm tiết giảm dần. Đối với âm tiết cuối của câu hỏi, từ vị trí 0% đến 43% của âm tiết, giá trị của cao độ ổn định, có chút dao động nhỏ, chênh lệch so với câu trần thuật trong khoảng từ 16.5% đến 15.7% và tăng vị trí hiện tại đến cuối câu, độ chênh lệch của câu hỏi tại vị trí 100% của âm tiết là 35.6%.

Tương tự với các thanh điệu khác, ta có bảng 5 trình bày mô hình của các thanh điệu với loại câu hỏi có từ để hỏi ở cuối. Trong đó, Pi=1..4 thể hiện các điểm trong âm tiết, bao gồm cặp giá trị chỉ vị trí (P) và độ chênh lệch (R) với câu trần thuật (tính theo đơn vị %). Ai=1..n được định nghĩa là âm tiết thứ i trong câu gồm n âm tiết.

8.3. Từ để hỏi ở cuối câu

Dựa vào dữ liệu trích xuất ở trên, chúng tôi nhận thấy

  • Về dáng điệu chung: chuỗi cao độ (pitch) của câu hỏi không có từ đề hỏi và câu trần thuật tuong đối giống nhau (trừ âm tiết cuối) và có cao độ trung bình cao hơn cao độ trung bình của câu trần thuật một mức α.
  • Tại âm tiết cuối:
    • i. Dáng điệu pitch của câu trần thuật ổn định từ đầu đến giữa âm tiết và có xu hướng đi xuống từ giữa âm tiết đến cuối âm tiết.
    • ii. Dáng điệu pitch của câu hỏi không có từ để hỏi thì tăng dần về cuối đối với những từ không có thanh điêu, với những âm tiết có thanh điệu, dáng điệu pitch phụ thuộc vào thanh điệu.

Từ kết quả phân tích ở trên, chúng tôi đề xuất mô hình tiếng nói như sau

  • Từ âm tiết đầu tiên đến âm tiết n-1, cao độ của các âm tiết được tăng thêm một khoảng α. Trong một số trường hợp, do vị trí bắt đầu của âm tiết đầu tiên thấp hơn so với những âm tiết kế cạnh, nên dẫn đến một số biến đổi nhỏ.
  • Âm tiết n (âm tiết cuối) được biến đổi phụ thuộc vào thanh điệu của âm tiết. Ví như trong hình 31, với câu trần thuật, từ vị trí 0% đến 43.2% , giá trị của cao độ ổn định, từ 43.2% đến 100%, giá trị cao độ của âm tiết giảm dần. Đối với âm tiết cuối của câu hỏi, từ vị trí 0% đến 28.6% của âm tiết, giá trị của cao độ giảm nhẹ, chênh lệch so với câu trần thuật giảm từ 14.8% xuống 5.8%, sau đó, có sự tăng nhẹ từ vị tri 28.6% đến vị trí 71.5%, độc chênh lệch so với câu trần thuật tăng đến 18% và tăng mạnh từ vị trí hiện tại đến cuối câu, độ chênh lệch của câu hỏi tại vị trí 100% của âm tiết là 45.4%.
  • Tương tự với các thanh điệu khác, ta có bảng 6 trình bày mô hình của các thanh điệu với loại câu hỏi có từ để hỏi ở cuối. Trong đó, Pi=1..4 thể hiện các điểm trong âm tiết, bao gồm cặp giá trị chỉ vị trí (P) và độ chênh lệch (R) với câu trần thuật (tính theo đơn vị %). Ai=1..n được định nghĩa là âm tiết thứ i trong câu gồm n âm tiết.

9. Kết luận

Trên đây là quá trình thực hiện và kết quả phân tích mô hình câu hỏi cho Tiếng Việt.

Cảm ơn các bạn đã theo dõi!