Xử lý tiếng nói - Tổng quan về tiếng nói, ngữ điệu và mô hình ngữ điêu trong xử lý tiếng nói

Bài đăng này đã không được cập nhật trong 10 năm

Abstract: Tiếng nói là một phương tiện cơ bản và quan trọng trong giao tiếp của con người, hiện nay tiếng nói còn được áp dụng vào việc giao tiếp giữa người với máy,hướng tới thay thế cho các phương pháp giao tiếp truyền thống như bàn phím, chuột, màn hình,.... Và xử lý tiếng nói đóng vai trò quan trọng trong vấn đề giao tiếp này. Trên thế giới, lĩnh vực xử lý tiếng nói đã được phát triển từ rất lâu (1971), tuy nhiên, trong tiếng Việt mới chỉ được nghiên cứu phát triển trong khoảng 10 năm trở lại đây. Vì thế, trong loạt bài về xử lý tiếng nói, tôi giới thiệu về các phương pháp về tổng hợp tiếng nói và nhận diện nói, và đưa ra các vấn đề cần xử lý trong Tiếng Việt. Trong bài này, tôi giới thiệu tổng quan về tiếng nói và thành phần quan trọng trong tổng hợp cũng như nhận diện tiếng nói là mô hình ngữ điệu

I. Tổng quan về tiếng nói và xử lý tiếng nói

Tiếng nói là một phương tiện giao tiếp cơ bản của con người nhằm trao đổi thông tin bằng ngôn ngữ cũng tình cảm của người nói [1].
Xử lý tiếng nói [2] là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được “số hóa”, và do đó, xử lý tiếng nói có thể được coi là giao của “xử lý tín hiệu số” và “xử lý ngôn ngữ tự nhiên”. Lĩnh vực của xử lý tiếng nói rất rộng lớn, ví dụ như:

Nhận dạng tiếng nói: chuyển nội dung nói thành tín hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tương tác được với người nói.
Nhận dạng người nói: xác minh người nói dựa trên tiếng nói và dữ liệu được lưu trữ của máy tính.
Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe về chất lượng tiếng nói.
Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông. Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền.
Phân tích giọng nói:được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản, v.v...
Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát ra âm. Nó được ứng dụng trong hội nghị hình thoại (videoconference), khi vị trí người nói trong hội nghị được xác định, máy ghi hình được lập trình sẽ tự động quay đến vị trí đó và gửi hình ảnh đi. Ngoài ra định vị nguồn âm thanh còn có ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói, trong theo dõi an ninh, v.v...
Tổng hợp tiếng nói: tạo ra tiếng nói nhân tạo bằng máy tính. Tổng hợp tiếng nói có vai trò rất quan trong lĩnh vực giao tiếp người máy.

II. Các thành phần cơ bản của ngữ điệu trong tiếng nói

Ngữ điệu và các thành phần ngữ điệu Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả các ngôn ngữ đều có ngữ điệu. Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm, và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ. Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói [3][4]. Ngữ điệu bao gồm một số thành phần như sau:

Cao độ (pitch hoặc f0): trong số các yếu tố ngôn điệu, sự thay đổi cao độ là rõ ràng, dễ thấy nhất. Các thay đổi này hợp thành đường cao độ của lời nói (hay đường F0 của tín hiệu tiếng nói). Một vài nghiên cứu về các đường cao độ ở mức độ câu cho thấy đường cao độ của những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những đường này lại có thể được phân nhỏ hơn thành những đường cao độ của âm tiết.
Trường độ: trường độ trong ngôn điệu quan tâm đến độ dài của câu, của đoạn, của từ, của âm tiết, phần âm không gió (voiced pard) trong một âm tiết, phần nguyên âm của âm tiết. Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, ... Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một cách dễ dàng. Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng.
Cường đô: là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu đầu tiên về ngôn điệu trong ngữ âm học. Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force). Cả hai tính chất này đều ám chỉ đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung quanh, do âm lượng lớn hoặc các thuộc tính động của chúng.

Mô hình ngữ điệu Trong các trường hợp khác nhau, các tham số của ngữ điệu biến đổi theo các quy luật được xác định cho trường hợp đó. Các mô hình ngôn điệu phục vụ mục đích:

Giải thích cách giao tiếp bằng tiếng nói.
Xây dựng nền tảng cho hệ thống phần mềm là một phần của hệ thống giao tiếp hoặc là hệ tổng hợp tiếng nói hoặc
Xây dựng nền tảng cho hệ thống nhận dạng ngôn điệu trong giọng nói con người. Ngữ điệu có liên quan đến nhiều mức độ của khả năng ngôn ngữ của người nói: từ vựng, ngữ pháp, ngữ nghĩa. Vì vậy, để trích xuất được ngữ điệu từ văn bản, ta cần quan tâm đến tất cả các mặt này.

Một số mô hình ngữ điệu

INTSINT: là một mô hình cao độ gián đoạn định nghĩa một điểm nhấn (accent) bằng một điểm đơn. Đường cong spline đi qua các điểm này tạo thành đường F0 [5].
ToBI: mô hình hóa điểm nhấn (accent) gián đoạn sử dụng nhiều nhất được trình bày trong mô hình ToBI. Mỗi điểm nhấn được biểu diễn bởi không quá hai điểm, những điểm này mô tả một cách trừu tượng sự tương phản tương đối giữa cao (H) và thấp (L). Mục tiêu của mô hình ToBI là đưa ra một tập nhỏ nhất các nhãn cho cao độ. Các nhãn này thường được biên dịch như các điểm khác nhau nổi bật về âm vị của các loại điểm nhấn khác nhau [6].
Fujisaki: mô hình của Fujisaki được phát triển dựa trên phương pháp dùng bộ lọc. Fujisaki cho rằng các đường cao độ bao gồm hai thành phần, ngữ điệu trọng âm (accent) và ngữ điệu đoạn (phrase). Ngữ điệu đoạn được mô hình hóa bằng hàm xung còn ngữ điệu trọng âm được mô hình hóa bằng hàm bước. Mô hình này đã được áp dụng thành công cho nhiều ngôn ngữ như tiếng Nhật, tiếng Đức, tiếng Phần Lan, và một số ngôn ngữ thanh điệu như tiếng Trung Quốc phổ thông, tiếng Thái. Chúng tôi sẽ trình bày kĩ hơn về mô hình này trong mục tiếp theo [7].

III. Tài liệu tham khảo

[1] D.-K. Mac, V. Aubergé, A. Rilliard, and E. Castelli, “Cross-cultural perception of Vietnamese Audio-Visual prosodic attitudes,” Speech Prosody 2010, 2010.

[2] J. P. H. van Santen, Progress in Speech Synthesis. Springer Science & Business Media, 1996.

[3] A. Botinis, Intonation: Analysis, modelling and technology, vol. 15. Springer, 2000.

[4] D. Hirst and A. Di Cristo, Intonation systems: a survey of twenty languages. Cambridge University Press, 1998.

[5] J. A. Louw and E. Barnard, “Automatic intonation modeling with INTSINT,” Proc. Pattern Recognit. Assoc. South Afr., pp. 107–111, 2004.

[6] K. E. Silverman, M. E. Beckman, J. F. Pitrelli, M. Ostendorf, C. W. Wightman, P. Price, J. B. Pierrehumbert, and J. Hirschberg, “TOBI: a standard for labeling English prosody.,” in ICSLP, 1992, vol. 2, pp. 867–870.

[7] B. H. Nguyên, N. T. Dũng, V. C. N. T. Tin, T. T. K. H. T. Nhiên, and C. N. Q. Gia, “Mô hình Fujisaki và áp dụng trong phân tích thanh điệu tiếng Việt,” Kỉ Ếu Hội Thảo Quốc Gia Lần Thứ, vol. 6, pp. 237–244.

I. Tổng quan về tiếng nói và xử lý tiếng nói

II. Các thành phần cơ bản của ngữ điệu trong tiếng nói

III. Tài liệu tham khảo

Mục lục