Mô hình hóa ngữ điệu và trường độ cho các loại câu hỏi Tiếng Việt (P1)

1. Tóm tắt

Nghiên cứu này tập trung vào việc phân tích sự khác nhau về cao độ và trường độ của câu trần thuật và câu hỏi trong Tiếng Việt, sự biến đổi của cao độ giữa các thanh điệu có dấu và thanh điệu không dấu. Dựa vào đó để mô hình hóa về ngữ điệu và thời gian cho các loại câu hỏi Tiếng Việt, và áp dụng cho tổng hợp tiếng nói Tiếng Việt.

2. Giới thiệu

Tiếng nói là một phương tiện cơ bản và quan trọng trong giao tiếp của con người. Và ngôn điệu là một thành phần quan trọng của tiếng nói, nó bao gồm các thành phần vật lý như trường độ, cao độ, cao độ, phổ. Trong một ngôn ngữ cụ thể, ngữ điệu được biến đổi kết cùng hợp cùng việc ngắt nghỉ để thể hiện ý nghĩa, sắc thái của câu nói trong giao tiếp.

Do tiếng nói là một phương tiên giao tiếp cơ bản, nên hiện nay nó còn được áp dụng vào việc giao tiếp giữa người với máy, hướng tới thay thế cho các phương pháp giao tiếp truyền thống như bàn phím, chuột, màn hình,.... Và tổng hợp tiếng nói (tạo tiếng nói từ văn bản - Text-To-Speech) có vai trò rất quan trọng trong đó. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ giống nhau của nó với giọng nói con người.

Một hệ thống tổng hợp tiếng nói bao gồm hai thành phần chính:

  • Mức cao (Front-end): thực hiện các bước phân tích văn bản đầu vào:
    • Phân tích văn bản đầu vào:
      • Phát hiện cấu trúc văn bản.
      • Chuẩn hóa văn bản.
      • Phân tích ngôn ngữ.
    • Phân tích ngữ âm:
      • Chuyển đổi từ hình vị sang âm vị.
    • Phân tích ngữ điệu:
      • Thêm các thông số về tần số cơ bản, trường độ, khoảng ngừng, cao độ.
  • Mức thấp (Back-end): tổng hợp tiếng nói từ văn bản đã được phân tích:
    • Tổng hợp ghép âm.
    • Tổng hợp formant.
    • Tổng hợp cấu âm.

Bởi vì, ngữ điệu là một thành phần quan trọng để diễn tả ý nghĩa cũng như sắc thái của tiếng nói, do đó, mô hình hóa ngữ điệu là một công việc quan trọng để áp dụng trong tổng hợp tiếng nói. Ngữ điệu Tiếng Việt bao gồm 6 loại thanh điệu và hai biến thể: NGANG (1), HUYỀN (2), NGÃ (3), HỎI (4), SẮC (5a, 5b), NẶNG (6a, 6b), trong đó, 5b và 6b là hai biến thể của thanh SẮC và NẶNG khi từ kết thúc là p,t,c. Do vậy, cần phân tích và mô hình hoá ngữ điệu về cao độ cho các loại câu hỏi trong Tiếng Việt.

3. Thiết kế bộ câu hỏi

Để có thể so sánh sự biến thiên về cao độ của câu trần thuật và câu hỏi cũng như biến đổi của từ không có thanh điệu và từ có thay đội, bộ câu hỏi gồm 100 câu, bao gồm các loại câu:

  • Câu trần thuật.
  • Câu hỏi có từ để hỏi ở cuối câu.
  • Câu hỏi có từ để hỏi ở đầu câu, thanh điệu bị biến đổi ở vị trí đầu tiên.
  • Câu hỏi có từ để hỏi ở cuối câu, thanh điệu bị biến đổi ở vịtrí thứ hai.
  • Câu hỏi không có từ để hỏi. Để so sánh, cần giữ nguyên nguyên bộ “ăn cơm chiên” và biến đổi các thành phần khác bao gồm số lượng từ, vị trí của từ để hỏi, thanh điệu của từ để hỏi, thanh điệu từ cuối cùng đối với câu hỏi không có từ để hỏi. Ví dụ:
STT Nội dung Loại câu hỏi
1 Hai cô ăn cơm chiên tôm. Câu trần thuật
2 Hai cô ăn cơm chiên không? Câu hỏi có từ để hỏi ở cuối câu
3 Hai cô ăn cơm chứ? -
4 Sao cô ăn hả? -
5 Sao cô ăn cơm chiên tôm? Câu hỏi có từ để hỏi ở đầu câu, thanh điệu bị biến đổi ở âm tiết đầu.
6 Phải cô ăn cơm chiên tôm? -
7 Những ai ăn cơm tôm? -
8 Tại ai ăn tôm? -
9 Sao cô ăn cơm chiên tôm? Câu hỏi có từ để hỏi ở đầu câu, thanh điệu bị biến đổi ở âm tiết đầu.
10 Sao lão ăn cơm chiên tôm? -
11 Sao mày ăn cơm tôm? -
12 Sao chị ăn tôm? -
13 Hai cô ăn cơm chiên tôm? Câu hỏi không có từ để hỏi
14 Hai cô ăn cơm gà? -
15 Hai cô ăn cá? -
16 Cô ăn tỏi? -
17 Ăn ngỗng? -
18 Cá? -

4. Thu âm

Thực hiện thu âm với bộ dữ liệu đã được tạo ở trên, kết quả sẽ được gán nhãn và tiến hành phân tích. Kết quả phân tích sẽ được trình bày ở phần tiếp theo...

Cảm ơn các bạn đã theo dõi!