Bitset có nhanh hơn mảng bool trong c++ không?

Question

Mọi người ơi em đang cố gắng để tối ưu sàng nguyên tố eratothenes trong C++ và sau khi tham khảo một số nguồn tin trên google, facebook..v..v.... Thì e biết được là dùng bitset sẽ chiếm ít bộ nhớ v...

Accepted Answer

Do các hàm test và mark sai địa chỉ, dẫn đến thuật toán chạy liên tục mà không loại bỏ được nhiều phần tử.

1ULL<<(idx % 63) phải là 1ULL<<(idx % 64) (63 sẽ sai với idx = 63)

Một số điểm cần tối ưu:

Xác định chỉ test số lẻ, có thể chỉ tạo mảng số lẻ sẽ tiết kiệm bộ nhớ.
i * i < limit => tính trước sqrt(limit)
Trước hàm mark có thể tối ưu hơn nữa:

// bằng cách này, mình chỉ truy xuất bộ nhớ 1 lần, các tính toán hoàn toàn nằm trong cpu
// cách cũ, mỗi lần gọi hàm mark, cpu đọc lại từ bộ nhớ ô nhớ thứ j / 64
uint64_t marked;
uint64_t j;
for (j = i * i; j < limit; j += i * 2) {
  marked |= 1ULL<<(j % 64);
}
p[j / 64] = marked;

PS: phần tối ưu hàm mark chưa đúng và không hiểu quả với i > 31

Answer

Chào bạn!

Ồ, sàng Eratosthenes, một vấn đề kinh điển của lập trình. Vậy là bạn đã vướng vào "cái bẫy" tối ưu hóa phổ biến.

Về câu hỏi của bạn:

Bitset có nhanh hơn mảng bool không?
- Lý thuyết thì đúng rồi, bitset tận dụng khả năng thao tác bit của CPU, nên về mặt lý thuyết nhanh hơn hẳn. Nhưng...
Tại sao code của bạn lại chậm hơn?
- Bạn đã mắc phải một lỗi rất phổ biến khi sử dụng bitset trong C++: Truy cập mảng bitset quá nhiều! Mỗi lần truy cập, bạn lại phải tính toán index & bit shift, làm chậm lại quá trình. Trong khi mảng bool, CPU có thể truy cập trực tiếp đến phần tử. Bạn đang "đánh đổi" thời gian truy cập để giảm không gian lưu trữ, mà điều này lại không hiệu quả trong trường hợp này!
Cách fix?
- Sử dụng asm: Nếu bạn muốn tối ưu hiệu năng ở cấp độ này thì hãy sử dụng asm. Có thể bạn phải khai báo các biến là register để tối ưu hóa các lệnh ra ngoài, và viết loop theo kiểu asm. Cách này rất khó, nhưng cực kì nhanh.
- Sử dụng vector<bool>: Vector<bool> ở C++ được tối ưu hóa để sử dụng bộ nhớ hiệu quả, nên sẽ tốt hơn mảng bool trong nhiều trường hợp và hiệu năng gần như với bitset, bạn không phải quan tâm tới việc truy cập element.

Lời khuyên:

Đừng vội vàng tối ưu hóa nếu chưa hiểu rõ code và vấn đề.
Hãy bắt đầu từ các giải pháp đơn giản trước.
Cân nhắc kĩ khi sử dụng bitset trong trường hợp này.

Hy vọng câu trả lời của tôi hữu ích với bạn!

Answer

```#include #include const int limit = 1e8 + 8; long long p[limit / 64 + 11]; bool test(int idx) { return (p[idx / 64] & (1ULL<<(idx % 63))) == 0; } void mark(int idx) { p[idx / 64] |= (1ULL<<(idx % 63)); } void sieve() { mark(0); mark(1); for (int i = 3; i * i < limit; i += 2) { if (test(i)) { for (long long j = i * i; j < limit; j += i * 2) { mark(j); } } } } #define ri register int void sieve2() { ri pSize = limit / 64 + 11; for(ri i=0; i> 8] |= (1ULL<<(j & 0xff)); } } if(i & 0xff == 0) { pNum++; } } } int main() { clock_t start = clock(); sieve(); printf("%ld ", clock() - start); start = clock(); sieve2(); printf("%ld ", clock() - start); getchar(); return 0; } ``` - Có thể tối ưu bằng cách sử dụng thanh ghi (register). - Phép chia cho 64 có thể thay bằng dịch 8 bit sang phải. - Chia lấy dư cho 64 có thể sử dụng phép và bit với 255 (```& 0xff```). - Có thể loại các trường hợp số chia hết cho 2. - Sử dụng ```pNum``` để duyệt từng phần tử của mảng ```p```, tránh mỗi lần lại tìm lại phần tử theo chỉ số. - Còn việc tính đến sqrt(limit) thì mình không chắc có đúng không, vì nếu chỉ lấy đến sqrt(limit) thì khai báo limit ngay từ đầu được rồi, cần gì làm limit cho thừa.

3 CÂU TRẢ LỜI