AI Scraper đã làm sập app Vercel của tôi như thế nào (và cách tôi cứu nó bằng DigitalOcean & Cloudflare)
Giới thiệu
Nếu bạn đang vận hành một website public hiện nay, có thể bạn đã từng thấy những đợt traffic tăng đột biến một cách “kỳ lạ”. Ban đầu bạn sẽ rất vui, nghĩ rằng sản phẩm của mình cuối cùng cũng viral. Nhưng rồi bạn nhận ra… đó chỉ là bot AI đang “cày” server của bạn.
Gần đây mình đã gặp đúng tình huống này với dự án Viconic.dev – một nền tảng tìm kiếm và chia sẻ icon. Đây là câu chuyện về việc các AI crawler gần như đánh sập website của mình, và cách mình lấy lại quyền kiểm soát mà vẫn không mất khả năng hiển thị trên các công cụ AI.
“Cái ôm tử thần” từ AI Bots
Ban đầu, mình deploy Viconic trên Vercel. Mọi thứ rất ổn: nhanh, dễ deploy, phù hợp với nhu cầu ban đầu.
Tuy nhiên, khi website bắt đầu phát triển, mình nhận thấy có những đợt request tăng đột biến bất thường.
Các crawler từ những công ty AI như Perplexity, OpenAI (ChatGPT), và nhiều bên khác liên tục scrape dữ liệu từ website để phục vụ training và tìm kiếm real-time.
Chỉ trong thời gian ngắn:
- Giới hạn request bị vượt quá
- Website bắt đầu chậm và có nguy cơ downtime
- Chi phí phát sinh tăng lên
Nói đơn giản: hệ thống bắt đầu quá tải.
Bước 1: Chuyển sang môi trường có kiểm soát (Vercel → DigitalOcean)
Để xử lý vấn đề và có khả năng kiểm soát tốt hơn, mình quyết định chuyển hạ tầng từ Vercel sang DigitalOcean.
Việc có server riêng mang lại:
- Độ ổn định tốt hơn
- Không còn bị giới hạn request như serverless
- Chi phí dễ dự đoán
- Chủ động hơn trong việc xử lý traffic
Mình không còn phụ thuộc vào quota nữa, và có đủ tài nguyên để xử lý lượng truy cập lớn.
Bước 2: Kiểm soát bot với Cloudflare
Việc chuyển server giúp giải quyết vấn đề về tài nguyên, nhưng nếu để bot tiếp tục tiêu tốn băng thông thì vẫn không ổn.
Tuy nhiên, mình cũng không muốn chặn hoàn toàn. Các công cụ AI đang trở thành một kênh discovery quan trọng, và mình vẫn muốn Viconic xuất hiện trên đó.
Vì vậy, mình sử dụng Cloudflare.
Chiến lược mình áp dụng
1. Giới hạn hành vi crawl quá mức
- Chặn hoặc rate-limit các bot AI hoạt động quá mạnh
- Ngăn truy cập vào các endpoint nặng
2. Cho phép truy cập có chọn lọc
- Cho phép bot truy cập vào:
- Trang danh sách icon
- Các endpoint tìm kiếm
Kết quả:
- Bot vẫn có thể index nội dung
- Nhưng không còn làm quá tải hệ thống
Kết luận
AI đang thay đổi cách traffic hoạt động trên web.
Là developer:
- Không thể chặn toàn bộ bot
- Nhưng cũng không thể để chúng tiêu tốn toàn bộ tài nguyên
Một giải pháp hợp lý là:
DigitalOcean (VPS) + Cloudflare (điều phối và kiểm soát bot)
Đây là cách giúp mình giữ được sự ổn định trong thời đại AI scraping.
Trao đổi thêm
Bạn đã từng gặp tình trạng bot AI làm quá tải hệ thống chưa?
Bạn đang xử lý vấn đề này như thế nào?
Tham khảo
Nếu bạn đang tìm icon cho dự án của mình, có thể thử:
All Rights Reserved