Đã đăng vào thg 9 25, 2024 11:42 CH 15 phút đọc

1.0K

Query JOIN trong SQL Server: Bí Quyết Thực Hiện Hiệu Quả và Tối Ưu Hiệu Suất

Trong SQL Server,JOIN là một trong những công cụ mạnh mẽ nhất giúp bạn kết hợp dữ liệu từ nhiều bảng khác nhau. Tuy nhiên, không phải lúc nào việc sử dụng JOIN cũng mang lại kết quả nhanh chóng và tối ưu. Nếu không hiểu rõ cách thức hoạt động và lựa chọn loại JOIN phù hợp, bạn có thể gặp phải các vấn đề về hiệu suất, dẫn đến truy vấn chậm và tốn tài nguyên. Bài viết sẽ giúp chúng ta hiểu làm sao để viết một query JOIN hiệu quả, bạn cần hiểu rõ các loại JOIN, thuật toán SQL Server sử dụng, cách tối ưu query, và các lưu ý quan trọng.

1. Types of Joins

SQL Server cung cấp nhiều loại JOIN để lấy dữ liệu từ nhiều table, bao gồm:

INNER JOIN

Lấy các bản ghi chỉ xuất hiện ở cả hai table. Đây là loại JOIN phổ biến nhất và hiệu quả nhất vì nó chỉ trả về các row khớp ở cả hai table.

SELECT *
FROM Orders o
INNER JOIN Customers c ON o.CustomerID = c.CustomerID;

LEFT (OUTER) JOIN

Lấy tất cả các bản ghi từ table bên trái và chỉ những bản ghi khớp từ table bên phải. Nếu không có bản ghi khớp, các giá trị ở table bên phải sẽ là NULL.

SELECT *
FROM Orders o
LEFT JOIN Customers c ON o.CustomerID = c.CustomerID;

RIGHT (OUTER) JOIN

Tương tự như LEFT JOIN, nhưng trả về tất cả các bản ghi từ table bên phải và chỉ các bản ghi khớp từ table bên trái.

SELECT *
FROM Orders o
RIGHT JOIN Customers c ON o.CustomerID = c.CustomerID;

FULL (OUTER) JOIN

Trả về tất cả các bản ghi từ cả hai table, bao gồm các bản ghi không khớp ở cả hai table.

SELECT *
FROM Orders o
FULL JOIN Customers c ON o.CustomerID = c.CustomerID;

CROSS JOIN

Trả về tích Đề-các của hai table (tất cả các kết hợp có thể). Đây là loại JOIN có chi phí cao nhất, thường được tránh.

SELECT *
FROM Orders o
CROSS JOIN Customers c;

Chi phí cao: Nếu hai table có kích thước lớn, kết quả của CROSS JOIN sẽ rất lớn vì mỗi dòng của table này sẽ kết hợp với tất cả các dòng của table kia. Điều này gây ra khối lượng dữ liệu khổng lồ, đòi hỏi tài nguyên tính toán và bộ nhớ lớn.
Thường tránh sử dụng: Trong hầu hết các trường hợp, phép CROSS JOIN không cần thiết vì nó tạo ra dữ liệu thừa không có ý nghĩa thực tế và gây tốn kém tài nguyên. Trừ khi bạn thực sự cần tất cả các kết hợp có thể giữa hai table, thì bạn nên hạn chế sử dụng CROSS JOIN.

Ngoài ra có thể các bạn còn nghe tới các loại dưới đây:

SELF JOIN

Table được join với chính nó, được sử dụng để so sánh hoặc tìm quan hệ giữa các row khác nhau trong cùng một table.

VD:
EmployeeID	EmployeeName	ManagerID
1	                John	                NULL
2	                Sara	                        1
3	                Mike	                1
4	                Linda	                2
5	                Bob	                        2

Trong ví dụ này, bạn muốn tìm tên của quản lý cho mỗi nhân viên. Dùng Self Join để kết nối table Employees với chính nó.

SELECT e1.EmployeeName AS Employee,
       e2.EmployeeName AS Manager
FROM Employees e1
LEFT JOIN Employees e2
ON e1.ManagerID = e2.EmployeeID;

SEMI JOIN

Trả về các row từ table bên trái mà có sự khớp với table bên phải, nhưng không bao gồm các column từ table bên phải. Trong SQL Server, Semi Join không có cú pháp riêng biệt, mà thường được biểu diễn bằng cách sử dụng EXISTS hoặc IN.

Ví dụ: Giả sử bạn có table Orders và bạn muốn lấy danh sách khách hàng đã đặt hàng.

CustomerID	CustomerName
1	                John
2	                Alice
3	                Bob

OrderID	CustomerID
1	         1
2	         2

SELECT DISTINCT c.CustomerName
FROM Customers c
WHERE EXISTS (SELECT 1 FROM Orders o WHERE o.CustomerID = c.CustomerID);

ANTI SEMI JOIN

Trả về các row từ table bên trái mà không có sự khớp trong table bên phải. Tương tự như Semi Join, Anti Semi Join thường được biểu diễn bằng NOT EXISTS hoặc NOT IN.

Ví dụ: Sử dụng cùng table Customers và Orders, bạn muốn tìm danh sách khách hàng chưa đặt hàng.

SELECT c.CustomerName
FROM Customers c
WHERE NOT EXISTS (SELECT 1 FROM Orders o WHERE o.CustomerID = c.CustomerID);

Thứ tự tăng dần về phạm vi và tính bao quát của các loại JOIN có thể được xếp như sau: Self Join: Kết hợp dữ liệu trong cùng một table.

Semi Join: Trả về row từ table trái nếu có sự khớp với table phải.

Anti Semi Join: Trả về row từ table trái không khớp với table phải.

Inner Join: Trả về các row khớp từ cả hai table.

Left Join: Trả về tất cả row từ table trái, bao gồm cả row không khớp.

Right Join: Trả về tất cả row từ table phải, bao gồm cả row không khớp.

Full Outer Join: Trả về tất cả row từ cả hai table, bao gồm cả row không khớp.

2. Join algorithms

SQL Server sử dụng 3 thuật toán JOIN chính để thực hiện các truy vấn:

Nested Loops Join

Với mỗi row của table (outer table), duyệt qua từng row table thứ hai(inner table) để tìm bản ghi khớp. Đây là loại JOIN có chi phí thấp, nhưng chỉ hiệu quả khi xử lý ít dữ liệu, phù hợp khi một trong hai table nhỏ hoặc khi một table có index tốt.

Thuật toán:
for rowX in left_table:        # Lặp qua từng bản ghi trong bảng bên trái
    for rowY in right_table:    # Lặp qua từng bản ghi trong bảng bên phải
        if rowX matches rowY:   # Kiểm tra xem bản ghi có khớp không
            output rowX and rowY  # Nếu khớp, xuất kết quả

Độ phức tạp là O(N * M), trong đó N là số row của table bên trái và M là số row của table bên phải. Vì thế, tốc độ thực thi rất chậm.

Nested Loops Join phân làm 3 loại:

- Naive Nested Loop Join: Đây là loại JOIN cơ bản nhất. SQL Server sẽ tìm kiếm từng row của outer table và so sánh với tất cả các row trong table inner table, hoặc trên toàn bộ index. Quá trình này thực hiện tìm kiếm full table scan mà không tối ưu, dẫn đến hiệu suất thấp khi table trong có nhiều row. Loại JOIN này phù hợp cho các table nhỏ hoặc các truy vấn đơn giản.

SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID
OPTION (LOOP JOIN);

Độ phức tạp của Naive Nested Loop Join là O(N * M)

- Indexed Nested Loop Join: Loại JOIN này tận dụng index trên inner table. Thay vì search full table scan, SQL Server sử dụng cấu trúc cây B-tree của index để tìm giá trị cần so sánh. Quá trình này dừng lại ngay khi tìm thấy giá trị mong muốn, giúp tăng tốc độ JOIN đáng kể khi table trong có index phù hợp.

CREATE INDEX idx_DepartmentID ON Departments(DepartmentID);

SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID
OPTION (LOOP JOIN);

Độ phức tạp của Naive Nested Loop Join là O(N×logM)

*note:
O(N × log M): Tốt hơn khi trong Inner Table có nhiều row, vì chi phí tìm kiếm giảm đáng kể nhờ index.
O(N × M): Kém hơn khi cả hai table đều lớn, vì chi phí tăng theo tích của số lượng row trong cả hai table.

- Temporary Index Nested Loop Join: Giống như Indexed Nested Loop Join, nhưng điểm khác biệt là index được tạo tạm thời trong lúc truy vấn chạy và sẽ bị hủy ngay sau khi truy vấn kết thúc. Loại JOIN này hữu ích khi không có index sẵn có và việc tạo index temporary giúp truy vấn chạy nhanh hơn so với full table scan. Tuy nhiên, việc tạo index temporary sẽ tiêu tốn thêm tài nguyên, nên chỉ thích hợp khi hiệu quả của việc sử dụng index vượt trội so với chi phí tạo index.

Vì vậy luôn cố gắng tạo index trên cột liên quan để SQL Server có thể sử dụng Indexed Nested Loop Join thay vì Naive Nested Loop Join.

VD:
-- Tạo index trên cột DepartmentID của bảng Departments
CREATE INDEX idx_DepartmentID ON Departments(DepartmentID);

-- Truy vấn với điều kiện lọc và sử dụng hint LOOP JOIN
SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID
WHERE e.Salary > 50000
OPTION (LOOP JOIN);

Hash Join

Hash Join gồm hai bước chính: Build Phase(xây dựng hash table) và Probe Phase(thực hiện join).

Build Phase: Hệ thống sẽ chọn table nhỏ hơn và tạo một hash table từ column join. Mỗi giá trị trong column này sẽ được xử lý qua hash function để tạo ra hash value duy nhất, và với mỗi hash value này sẽ dùng là key cho hash table.
Probe Phase: Sau khi có hash table, hệ thống sẽ lấy table còn lại (bảng lớn) và thực hiện join với hash table. Đối với mỗi row trong table lớn, hệ thống sẽ áp dụng hash function tương tự lên column join và so sánh giá trị hash với hash table. Những row có hash value trùng khớp sẽ được ghép cặp và trả về kết quả join.

Note: Hash table là một cấu trúc dữ liệu lưu trữ các cặp key-value. Nó sử dụng hàm băm (hash function) để xác định vị trí lưu trữ dữ liệu (bucket) dựa trên key. Khi tìm kiếm, chỉ cần cung cấp key, hàm băm sẽ trả về vị trí chứa value. Trong trường hợp tốt nhất, độ phức tạp tìm kiếm là O(1), tức là tìm thấy giá trị ngay lập tức.

VD:
-- Tạo bảng Employees
CREATE TABLE Employees (
    EmployeeID INT,
    EmployeeName NVARCHAR(100),
    DepartmentID INT,
    Salary DECIMAL(10, 2)
);

-- Tạo bảng Departments
CREATE TABLE Departments (
    DepartmentID INT,
    DepartmentName NVARCHAR(100)
);

-- Thêm dữ liệu vào bảng Employees
INSERT INTO Employees (EmployeeID, EmployeeName, DepartmentID, Salary)
VALUES
(1, 'Alice', 1, 60000),
(2, 'Bob', 2, 55000),
(3, 'Charlie', 1, 70000),
(4, 'David', 3, 50000);

-- Thêm dữ liệu vào bảng Departments
INSERT INTO Departments (DepartmentID, DepartmentName)
VALUES
(1, 'HR'),
(2, 'Finance'),
(3, 'IT');

-- Thực hiện Hash Join
SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID
OPTION (HASH JOIN);

Trong ví dụ trên:
1. Build Phase: xây dựng bảng băm
- SQL Server chọn bảng Departments (bảng nhỏ hơn) làm Build Input.
- Tạo bảng băm từ các hàng của bảng Departments dựa trên cột DepartmentID.
2. Probe Phase:
- SQL Server duyệt qua từng hàng của bảng Employees (bảng lớn hơn).
- Sử dụng hash function trên column Employees.DepartmentID để tạo ra hash value tìm các row khớp trong hash table(việc tìm kiếm key trên hash table này rất nhanh)
- Kết hợp các row khớp và trả về kết quả.

Độ phức tạp của thuật toán Hash Join là O(N + M), Hash join tốt cho các table có kích thước lớn và không sắp xếp. Hash Join yêu cầu bộ nhớ để lưu trữ hash table, đảm bảo rằng hệ thống có đủ bộ nhớ để tránh việc phải ghi hash table ra disk, điều này có thể làm giảm hiệu suất.

Merge Join(hay Sort Merge Join)

Merge Join Được sử dụng khi cả hai table đều được sắp xếp theo column JOIN. SQL Server duyệt qua cả hai table một cách tuần tự và khớp các row. Merge Join rất nhanh, nhưng yêu cầu các table phải được sắp xếp hoặc có index trên các column JOIN.

Merge join xử lý bài toán join như thế nào:

- Merge Join yêu cầu cả hai table phải được sắp xếp theo cột dùng để JOIN. Nếu các table chưa được sắp xếp, SQL Server sẽ cần sắp xếp trước khi thực hiện JOIN, gây ra chi phí bổ sung.

- SQL Server bắt đầu với bản ghi đầu tiên của cả hai table.

- So sánh bản ghi của table thứ nhất (bên trái) với bản ghi của table thứ hai (bên phải).

- Nếu bản ghi từ cả hai table khớp, chúng sẽ được kết hợp và đưa vào kết quả.

- Nếu bản ghi từ table bên trái nhỏ hơn, SQL Server sẽ chuyển sang bản ghi tiếp theo trong table bên trái. Ngược lại, nếu bản ghi từ table bên phải nhỏ hơn, SQL Server sẽ chuyển sang bản ghi tiếp theo của table bên phải.

- Quá trình này tiếp tục cho đến khi tất cả các bản ghi đã được so sánh và kết hợp.

Độ phức tạp:
- Nếu cả hai bảng đã được sắp xếp, độ phức tạp thời gian của Merge Join là O(N + M), trong đó N là số bản ghi của bảng bên trái và M là số bản ghi của bảng bên phải.
- Nếu các bảng cần được sắp xếp trước, độ phức tạp sẽ tăng lên do phải sắp xếp với chi phí O(N log N) và O(M log M), tổng là: O(N log N) + O(M log M) + O(N + M)

So sánh và lựa chọn thuật toán JOIN:

- Nested Loop Join: Thích hợp cho các phép join giữa table nhỏ và table lớn với index thích hợp.

- Merge Join: Thích hợp cho các table lớn đã được sắp xếp theo column join.

- Hash Join: Hiệu quả cho các phép join giữa các table lớn khi không có index hoặc không thể sort.

3. Performance Tips and Tricks for SQL Join

Để viết một truy vấn JOIN hiệu suất cao, bạn cần lưu ý những điểm sau:

Chọn đúng loại JOIN

- Hãy chọn loại JOIN phù hợp với yêu cầu của bạn. Nếu chỉ cần lấy các bản ghi khớp ở cả hai table, hãy chọn INNER JOIN thay vì OUTER JOIN, vì nó nhanh hơn do không cần xử lý các giá trị NULL.

- Sử dụng Inner Join hoặc Outer Join thay vì Cross Join

Tối ưu hóa Indexes

- Đảm bảo các column được sử dụng trong điều kiện JOIN được đánh index. SQL Server có thể tận dụng index để tìm kiếm nhanh hơn và tránh quét toàn bộ table.

-- Tạo index trên column join
CREATE INDEX idx_customer_id ON Orders(CustomerID);

Sử dụng các điều kiện WHERE để lọc dữ liệu trước khi JOIN

- Hãy luôn cố gắng lọc dữ liệu trước khi thực hiện JOIN, điều này giúp giảm lượng dữ liệu cần xử lý và tăng tốc độ thực thi.

-- Lọc dữ liệu trước khi join
SELECT o.OrderID, c.CustomerName
FROM Orders o
JOIN Customers c ON o.CustomerID = c.CustomerID
WHERE o.OrderDate > '2023-01-01';

Giới hạn tập kết quả (LIMIT / TOP)

- Khi bạn không cần tất cả các kết quả, hãy sử dụng TOP, LIMIT, hoặc OFFSET để giới hạn kết quả trả về. Điều này giúp giảm bớt dữ liệu được xử lý.

SELECT TOP 100 *
FROM Orders o
JOIN Customers c ON o.CustomerID = c.CustomerID;

Sử dụng Covering Indexes

Tham khảo bài viết: https://www.linkedin.com/pulse/tất-tần-tật-về-index-trong-sql-server-nguyễn-thuận-a7jtc/?trackingId=2fWgnQn8j7EogJrVJqpEAQ%3D%3D

Tránh sử dụng hàm trên column JOIN

- Khi sử dụng hàm VD như UPPER(), LOWER() trên column JOIN, SQL Server không thể sử dụng index. Hãy cố gắng tránh các hàm này trong điều kiện JOIN.

Giảm thiểu chuyển đổi kiểu dữ liệu

- Đảm bảo các cloumn JOIN có cùng kiểu dữ liệu để SQL Server không phải chuyển đổi kiểu. Chuyển đổi kiểu dữ liệu có thể khiến SQL Server bỏ qua index và thực hiện quét toàn bộ bảng table scan thay vì index seek, làm chậm quá trình JOIN.

Sử dụng thuật toán phù hợp

- Xem thuật toán JOIN ở mục 2

- Sử dụng các hint như OPTION (LOOP JOIN), OPTION (MERGE JOIN), hoặc OPTION (HASH JOIN) để hướng dẫn SQL Server sử dụng thuật toán JOIN cụ thể.

VD: 
-- Truy vấn ban đầu
SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID;

-- Truy vấn tối ưu hóa với hint
SELECT e.EmployeeName, d.DepartmentName
FROM Employees e
JOIN Departments d ON e.DepartmentID = d.DepartmentID
OPTION (MERGE JOIN); -- Sử dụng Merge Join nếu cả hai table đã được sắp xếp

Sử dụng And thay vì Or

- Dùng điều kiện AND để thêm các điều kiện bổ sung giúp lọc kết quả chính xác hơn. Tránh dùng OR trong JOIN vì nó làm giảm hiệu suất và khó tận dụng index.

SELECT c.customer_id, c.name, o.order_id
FROM customers c
JOIN orders o 
  ON c.customer_id = o.customer_id
  AND o.status = 'Completed';

Trong ví dụ này:
Điều kiện OR trong câu lệnh JOIN làm cho truy vấn trở nên kém hiệu quả hơn vì cơ sở dữ liệu phải tìm kiếm với cả hai điều kiện. Cụ thể, việc sử dụng OR khiến không thể tối ưu qua các index như với AND.

Sử dụng Parallelism trong query JOIN với các table lớn

Việc thực hiện song song có thể tăng chi phí tổng thể nếu không được tối ưu hóa đúng cách. Đối với các truy vấn nhỏ, thực thi song song có thể không cần thiết và thậm chí có thể làm giảm hiệu suất. Parallel execution tiêu tốn nhiều tài nguyên hơn, vì vậy cần cân nhắc về CPU và bộ nhớ có sẵn trên hệ thống.

SELECT c.customer_id, c.name, o.order_id 
FROM customers c
JOIN orders o 
ON c.customer_id = o.customer_id
OPTION (MAXDOP 4);  -- Chỉ định sử dụng tối đa 4 luồng song song

Kiểm tra execution plan

- Luôn kiểm tra execution plan để xem cách SQL Server thực hiện truy vấn JOIN. Điều này giúp bạn phát hiện các vấn đề như Table Scan hoặc Key Lookup và có thể điều chỉnh index hoặc logic của truy vấn.

*Note:

- Thứ tự các join table khi viết query không ảnh hưởng tới hiệu năng, trừ khi dùng hint(force order). Thông thường thì hệ thống sẽ chọn table nhỏ hơn làm Build Input trong Hash Join, Chọn outer table nhỏ hơn trong Nested Loop Join để tối ưu, nên cẩn thận khi force order.

- Thứ tự join table thì không ảnh hưởng tới kết quả trả về.

- Trong câu query có nhiều điều kiện join, thứ tự của chúng có thể sẽ ảnh hưởng tới hiệu năng.