7.1K 399 21

Đã đăng vào thg 1 16, 8:10 CH 73 phút đọc

4.0K

Tôi đã đọc 5.000+ paper về Cybersecurity trên Arxiv: Xu hướng Cyber Security 2025 đang dịch chuyển về đâu?

Bước ngoặt và Sự chuyển dịch: Khi tôi chọn con đường hơi khác để đi

Đã 5 năm kể từ ngày tôi ngừng viết lách, bớt tham gia các hoạt động cộng đồng, tập trung hơn vào công việc chuyên môn để cố gắng trở thành một chuyên gia Xử lý Ngôn ngữ Tự nhiên (NLP). Và rồi, đến năm 2025, tôi đã thực hiện 2 cú "quay xe" lớn, bỏ ngang những công việc đã quen thuộc và thành thạo trước đây để chuyển sang những thứ mới lạ hơn và gần như chẳng biết gì. Đầu năm 2025, tôi chuyển dịch lần 1, tưởng là mọi thứ êm đềm, đến giữa 2025, tôi lại chuyển dịch lần 2. Và giờ, hết năm, trên 1 chặng đường mới, tôi quyết định quay lại viết lách để chia sẻ với các bạn hành trình tiếp theo của mình. (Dù chưa biết là sẽ đi được đến đâu).

Plot twist 1:

Đầu năm 2025, tôi quyết định cất gọn mảng NLP vào góc tủ. Tại sao? Vì khi các mô hình LLM đã quá thông minh, sân chơi của dân NLP thuần túy dần trở nên chật chội và bão hòa. Các mô hình, kinh nghiệm, kỹ thuật mà tôi tích lũy nhiều năm nay trở nên cũ kỹ, kém hiệu quả và linh hoạt. Một phần, tôi mệt mỏi với công việc hiện tại. Tôi thèm khát sự mới mẻ, thế là nhảy sang Physical AI – với tham vọng mang bộ não của LLM nhét vào thể xác robot.

Tôi tin rằng Physical AI sẽ là bước đột phá lớn tiếp theo cho ngành robotic tương tự như câu chuyện cách đây hơn 3 năm khi chatGPT thay đổi sân chơi NLP. Tôi được tiêm nhiễm vào đầu biết bao sự thành công của các công ty mới nổi. Đơn cử phải kể đến như Physical Intelligence được định giá lên tới 2.4 tỷ $ chỉ sau 9 tháng hoạt động. Tôi nghiên cứu họ, nghiền ngẫm xem họ làm gì và làm như thế nào. Tôi cùng đội ngũ của mình đưa ra kế hoạch làm sao như họ (hoặc cố gắng bằng 1 phần của họ). Chúng tôi nghiên cứu các mô hình mới nhất, soạn thảo các bản đề xuất, kế hoạch hành động với nhiều ý tưởng mới. Chúng tôi chuẩn bị dữ liệu. Chúng tôi học cách tương tác với robot thông qua môi trường mô phỏng (simulation). Chúng tôi tin rằng sự tổng quát hóa model AI nhận thức vật lý sẽ là chìa khóa quan trọng để thúc đẩy sự phát triển của ngành robotic (bất kể trên phần cứng thể xác nào).

Nghe có vẻ ngầu, nhưng thực tế thì... "chua", không những chua mà còn "chát". "Chua" vì nó khó, "chát" vì nó tốn tiền. Sự thiếu hụt dữ liệu thực tế vừa là cơ hội và cũng là thách thức lớn mà chúng tôi phải vượt qua. (Tôi thích yếu tố cơ hội hơn vì thách thức sinh ra là để chờ giải pháp chứ không phải để ngáng đường và cơ hội là thành quả cho những người xứng đáng).

Và rồi,...

Plot twist 2:

Tháng 8/2025, chúng tôi được thông báo là có một chiến trường cũng khốc liệt không kém, mà sự cấp bách còn lớn hơn nhiều. Trong khi tôi loay hoay điều khiển Unitree G1 cầm cái cốc, nhặt quả táo bỏ vào hộp thì ngoài kia, vibe coding, vibe hacking đang phát triển mạnh mẽ. AI đang được dùng để đánh sập các hệ thống ngân hàng, tự động viết mã độc và fake giọng nói CEO để lừa đảo. Các cuộc tấn công ngày càng trở nên tinh vi hơn và nhanh hơn. Tôi xin trích dẫn lại báo cáo ngày ấy tôi đọc từ Anthropic hồi tháng 8:

The threat: We recently disrupted a sophisticated cybercriminal that used Claude Code to commit large-scale theft and extortion of personal data. The actor targeted at least 17 distinct organizations, including in healthcare, the emergency services, and government and religious institutions. Rather than encrypt the stolen information with traditional ransomware, the actor threatened to expose the data publicly in order to attempt to extort victims into paying ransoms that sometimes exceeded $500,000.

The actor used AI to what we believe is an unprecedented degree. Claude Code was used to automate reconnaissance, harvesting victims’ credentials, and penetrating networks. Claude was allowed to make both tactical and strategic decisions, such as deciding which data to exfiltrate, and how to craft psychologically targeted extortion demands. Claude analyzed the exfiltrated financial data to determine appropriate ransom amounts, and generated visually alarming ransom notes that were displayed on victim machines.

Và một sự thật nực cười mà tôi nhận ra rằng, vibe coding càng phát triển, việc xây dựng và phát triển các hệ thống thông tin sẽ càng được rút ngắn thời gian, nhanh thì thường đi với sự ẩu đoảng và từ đó các rủi ro liên quan đến an ninh bảo mật của các hệ thống thông tin - do AI code đến 70-80% càng trở nên nghiêm trọng và cấp bách.

Và thế, bỏ qua tiếng gọi từ humanoid robot từ các công ty robotic, cuộc chơi tạm ngừng lại, tôi chuyển hướng sang Cyber Security.

Ở góc nhìn cá nhân, tôi tin rằng việc áp dụng AI vào lĩnh vực An ninh bảo mật cũng sẽ tạo một bước đột phá lớn so với Cyber Security truyền thống. Khi các cuộc tấn công càng ngày càng trở nên tinh vi hơn thì việc phòng thủ cũng phải vậy. Việc áp dụng AI cho phòng thủ không còn là sự lựa chọn mà trở thành yêu cầu bắt buộc. Chúng ta cần những lá chắn phòng thủ với tốc độ phản ứng nhanh hơn và mạnh hơn. AI có thể rà quét lỗ hổng bảo mật, chủ động vá những lỗ hổng do chính... AI tạo ra trước khi các lỗ hổng đó bị khai thác bởi kẻ xấu. Cuộc chiến giờ đây không còn tính bằng giờ, mà tính bằng giây, không còn là sự bị động và ứng phó mà là sự chủ động và linh hoạt. Và cuộc chơi này tôi không muốn đứng ngoài dù cũng thấy "chua" và "chát" lắm.

Bài viết này tôi viết sau 6 tháng tôi nằm gai nếm mật, tìm hiểu từ những khái niệm cơ bản đầu tiên trong Cyber Security cho đến việc ứng dụng/phát triển các mô hình AI cho công việc của mình. Bài viết này cũng dùng chính AI để đọc và phân tích hơn 5.000 bài báo nghiên cứu về Cyber Security trong năm 2025, nhằm vẽ lại cho các bạn thấy bức tranh tổng quan của ngành dưới góc nhìn nghiên cứu trong suốt một năm qua.

Behind The Scenes: Bức tranh tổng quan Cyber Security qua góc nhìn nghiên cứu

Là một người làm AI nhiều năm, tôi thích quan sát mọi thứ qua góc nhìn dữ liệu. Trước khi đi sâu vào mổ xẻ từng kỹ thuật, khái niệm, tôi muốn các bạn nhìn vào dữ liệu. Những con số, biểu đồ là những biểu hiện rõ ràng nhất cho bất kỳ nhận định nào.

Disclaimer: Nhận định trong bài viết đến từ góc nhìn nghiên cứu, phản ánh của dữ liệu trên Arxiv, mang tính chất dự báo, có thể không toàn cảnh cho bức tranh phát triển sản phẩm và công nghệ.

Như đã nói, tôi không nhìn bức tranh toàn cảnh bằng mắt thường. Với tốc độ đọc 2h / 1 bài báo, để đọc hết 5000 bài báo thuộc topic cs.CR (Cryptography and Security) trên Arxiv, bạn sẽ phải tốn đến 1 năm không ăn không ngủ để đọc cho bạn. Điều đó là không thể, tuy nhiên, tôi vẫn muốn cung cấp cho các bạn một cái nhìn tổng quát. Để làm được điều này một cách thông minh hơn, tôi đã xây dựng một pipeline gồm các Agent AI để cày hơn 5.000 bài báo trên Arxiv được gắn nhãn cs.CR trong năm 2025.

Quảng cáo: Tôi có xây dựng một trang web giúp bạn đăng ký nhận những bài báo nghiên cứu mới nhất, hay nhất hàng ngày. Nó sẽ giúp bạn tiết kiệm được rất nhiều thời gian tìm kiếm, khảo sát các ý tưởng mới và luôn nắm bắt kịp thời những nghiên cứu mới nhất của thế giới. Bạn có thể truy cập https://survey.quangph.asia/ (Vào https://surveyresearch-1.firebaseapp.com/ nếu link kia không vào được) để cập nhật thông tin, đăng ký để nhận được cập nhật tri thức nghiên cứu mới nhất mỗi ngày.

Vậy tại sao phải nhìn vào Arxiv? Vì Arxiv là nơi những ý tưởng mới mẻ nhất, những nghiên cứu mới nhất dù mới là thử nghiệm chưa được công bố (sẽ mất khoảng 3-6 tháng sau để các bài viết này xuất hiện tại các hội thảo uy tín). Các tác giả thường sử dụng Arxiv như một kênh để khẳng định chủ quyền ý tưởng nghiên cứu của mình trước khi mọi thứ hoàn thiện. Tôi tin rằng, nhìn vào Arxiv là nhìn vào tương lai của 6-12 tháng tới.

Việc tiếp theo, tôi đã phân loại tất cả các bài báo vào topic chính trong lĩnh vực Cyber Security. Tôi đã xây dựng được biểu đồ Top 15 Cybersecurity Research Sub-fields dựa trên dữ liệu năm 2025.

Nhìn vào biểu đồ, bạn thấy gì? Một sự lệch pha khủng khiếp mà nếu chỉ đọc tin tức công nghệ hàng ngày, bạn sẽ không bao giờ cảm nhận rõ nét được.

Cái thanh màu đen dài ngoằng kia – AI Security – với 1.756 bài báo, đang áp đảo hoàn toàn phần còn lại của thế giới. Nó gấp gần 3 lần mảng đứng thứ hai là Cryptography. Nó nhiều hơn tổng số bài báo của 10 mảng cuối cộng lại bao gồm cả những mảng xương sống như Network Security, Cloud Security hay DevSecOps. Trong giới học thuật (nếu chỉ tính riêng Arxiv), Cyber Security năm 2025 thực chất là cuộc chiến xoay quanh AI. Và tôi tin chắc 99.99% rằng cuộc chiến này sẽ còn sôi động nữa trong năm 2026.

Dù bị hào quang của AI che lấp, nhưng Cryptography và Privacy Engineering vẫn giữ vững vị trí #2 và #3. Sự trỗi dậy của việc đảm bảo quyền riêng tư (Privacy) cho thấy một thực tế phũ phàng: Dữ liệu để train AI đang bị vét cạn và rủi ro rò rỉ dữ liệu từ model là quá lớn. Các nền tảng lớn đều đang cạn kiệt dữ liệu huấn luyện và các hệ thống AI buộc train trên dữ liệu lịch sử của người dùng. Một khi model bị tấn công, khai thác, rủi ro cho việc mất thông tin cá nhân là rất lớn. Các nghiên cứu đã tập trung điên cuồng vào việc làm sao để train model trên dữ liệu của người dùng mà không thực sự nhìn thấy dữ liệu đó. Tức là bản thân model cũng không hề biết về những thông tin nhạy cảm của người dùng.

Còn Cryptography? Nó đang chạy đua với thời gian trước nguy cơ từ máy tính lượng tử. Từ khóa "Post-Quantum & Quantum Crypto" xuất hiện trong hàng trăm bài báo cho thấy nỗi sợ hãi về ngày tàn của RSA/ECC đang đến rất gần. Tôi cũng tin rằng, mã hóa hậu lượng tử sẽ là keyword quan trọng trong năm 2026.

Một điểm thú vị và cũng là nghịch lý là Cloud Security và DevSecOps - những cái tên cộm cán của ngành bảo mật lại nằm chót bảng.

Vậy cộng đồng nghiên cứu học thuật có vẻ đã bỏ rơi các mảng truyền thống?

Không hẳn. Theo tôi, có thể vì các vấn đề của Network, Cloud hay DevSecOps đã dần trở thành bài toán kỹ thuật đã có lời giải, đã được triển khai diện rộng trong nhiều sản phẩm thực tế, trong khi AI là một vùng đất hoang dã, mới mẻ và đầy rẫy những lỗ hổng chưa từng được biết đến.

Network Security, Cloud Security hay DevSecOps vẫn là những kỹ năng sống còn của các doanh nghiệp. Nhưng dưới góc độ nghiên cứu, có vẻ như chúng đã bão hòa. Không còn nhiều phát minh mới ở tầng này nữa. Cuộc chơi ở đây giờ là cuộc chơi của các vendor, của các best practices, chứ không phải là nơi để các nhà nghiên cứu tìm ra những concept đột phá.

Tiếp theo, chúng ta sẽ mổ xẻ sâu hơn về các từ khóa thường được đề cập trong giới nghiên cứu. Bằng việc phân tích riêng lẻ mỗi bài báo, mỗi bài báo, tôi trích xuất ra từ 3-5 từ khóa quan trọng nhất, thể hiện rõ nét linh hồn của bài báo.

Qua việc phân tích đầy đủ hơn 5000 bài báo, bạn sẽ thấy sự xâm lấn của các thuật ngữ AI vào lãnh địa Security mạnh mẽ đến mức nào. Các thuật ngữ cốt lõi của bảo mật truyền thống như Intrusion Detection, Malware Analysis, Access Control không biến mất, nhưng chúng bị đẩy dạt ra rìa và nhỏ xíu. Nằm chễm chệ ở trung tâm, to nhất, rõ nhất là Adversarial ML, LLM Security, Data Privacy. Hãy nhìn vào các cụm từ như Graph Neural Networks (GNN) hay Reinforcement Learning. Tại sao chúng lại xuất hiện trong một bản đồ về Security? GNN đang trở thành công nghệ lõi để phát hiện lỗ hổng trong Source Code (vì code bản chất là đồ thị). Reinforcement Learning thì đang được dùng để huấn luyện các Agent tấn công tự động (Red Teaming Agents) hay Penetration Testing.

Để tránh thiên vị vào AI Security, tôi sẽ loại bỏ lĩnh vực này khỏi phân tích để xem rõ hơn việc ứng dụng AI vào trong các bài toán khác sẽ như thế nào.

Có thể thấy, các thuật ngữ AI như Large Language Model, Machine Learning, AI Agent vẫn xuất hiện nhiều và tỷ trọng lớn. Điều này chứng tỏ các kỹ thuật, công cụ của dân làm AI ngày xưa giờ chính là vũ khí mới của đội ngũ chuyên gia Security.

Đó là bức tranh tổng quát. Nhìn chung, giờ tôi đã biết mình cần làm gì. Tuy nhiên, để có cái nhìn sâu hơn, chi tiết hơn cho đừng bài toán. Tôi sẽ cùng bạn phân tích kỹ hơn từng mảng việc cụ thể trong top 15. Để xem bước đột phá tiếp theo của chúng ta sẽ là gì?

1. AI Security

Tôi vừa cung cấp cho bạn một bức tranh tổng quan về thế giới Cyber Security trong năm 2025, giờ đây, chúng ta sẽ zoom đến từng phân vùng nhỏ trong đó.

Từ bảo mật hạ tầng model đến bảo vệ Generative AI

Nhìn vào wordcloud, ta thấy ngay sự thống trị tuyệt đối của LLM Security & Safety và Adversarial Robustness. Điều này xác nhận một sự chuyển dịch trọng tâm mạnh mẽ trong năm qua: chúng ta không còn chỉ bảo vệ hạ tầng chứa model, mà đang phải bảo vệ chính tư duy, suy luận và đầu ra của model đó. Các từ khóa như Prompt Injection, Data Poisoning, hay Adversarial Attacks không nằm rải rác mà bao vây lấy các thuật ngữ về Large Language Models, cho thấy tấn công vào AI hiện nay không chỉ là đánh cắp dữ liệu, mà là thao túng hành vi. Bức tranh này phản ánh kỷ nguyên mà AI không chỉ là công cụ xử lý, mà là một bề mặt tấn công (attack surface) mới đầy rủi ro và khó lường.

Theo tôi, có một vài điểm nhấn quan trọng mà bạn cần lưu ý:

Prompt Injection Attacks & Jailbreak: Đây là SQL Injection của kỷ nguyên AI. Kẻ tấn công sử dụng các câu lệnh đầu vào được xử lí khéo léo để đánh lừa LLM, khiến nó bỏ qua các lớp kiểm duyệt an toàn và thực hiện các tác vụ độc hại.
Data Poisoning & Backdoor Attacks: Thay vì tấn công khi model đã chạy, hacker đầu độc dữ liệu huấn luyện. Kỹ thuật này cấy các trigger ẩn vào dataset; model vẫn hoạt động bình thường nhưng sẽ hành xử sai lệch khi gặp trigger đó. Đây là cơn ác mộng cho AI Supply Chain. Trong quá trình làm việc của tôi như một kỹ sư AI, tôi đã từng chứng kiến điều này xảy ra với chính model của chúng tôi. Khi kẻ tấn công xác định được nguồn dữ liệu huấn luyện tự động của chúng tôi, tiêm nhiễm tri thức độc hại và chúng tôi phải dừng production 1 tuần khi phát hiện ra để xử lý.
Privacy-Preserving ML (Federated Learning, Differential Privacy, FHE): Federated Learning cho phép train model phân tán mà không cần gom dữ liệu về một chỗ. Differential Privacy (DP) thêm nhiễu để đảm bảo không thể truy ngược dữ liệu gốc từ output của model. Homomorphic Encryption (FHE) cho phép tính toán trực tiếp trên dữ liệu mã hóa mà không cần giải mã. Tất cả kỹ thuật này là lá chắn đảm bảo tính riêng tư của dữ liệu, giúp dữ liệu huấn luyện không thể bị khai thác, đặc biệt là dữ liệu cá nhân.

Tiêu điểm, năm 2025 chứng kiến sự bùng nổ của các nghiên cứu trên Arxiv tập trung vào hai mảng mới nổi: Agentic AI và Machine Unlearning.

Agentic AI Security: Khi AI chuyển từ chatbot sang Agent có khả năng tự chủ thực thi tác vụ (gọi API, truy cập database, code), rủi ro leo thang đặc quyền.
Machine Unlearning: Đây là xu hướng cực nóng do áp lực pháp lý (GDPR/EU AI Act). Thách thức kỹ thuật là làm sao xóa bỏ tri thức về một dữ liệu cụ thể (ví dụ: thông tin nhạy cảm đã lỡ train) mà không cần train lại toàn bộ model từ đầu và không làm giảm hiệu suất chung (Model Utility).

Một nghịch lý thú vị mà giới chuyên gia đang đau đầu là "The Alignment Tax". Các nỗ lực làm cho model an toàn hơn (Safety Alignment) thường tỷ lệ nghịch với sự sáng tạo và khả năng giải quyết vấn đề của nó. Hơn nữa, wordcloud có sự xuất hiện của RAG Systems bên cạnh Adversarial Attacks. Điều này chỉ ra một lỗ hổng chí mạng: Dù LLM của bạn an toàn, nhưng nếu hệ thống RAG truy xuất phải một tài liệu độc hại (do hacker cài cắm vào kho tri thức doanh nghiệp), model vẫn sẽ bị tấn công như thường. Bảo mật model là vô nghĩa nếu không bảo mật cả ngữ cảnh.

Sự xuất hiện của Vision-Language Models và Multimodal LLMs trong hình cũng dự báo làn sóng tấn công tiếp theo sẽ không chỉ là text, mà qua hình ảnh và âm thanh (Audio/Image Injection). Các phương pháp Red-teaming truyền thống có thể sẽ lỗi thời. Hacker đang dùng AI để tấn công AI (Automated Red-teaming). Điều này đòi hỏi doanh nghiệp cần chuyển ngay sang tư duy Secure by Design cho AI thông qua việc triển khai AI Firewall/Guardrails ở cả input và output (không bao giờ tin tưởng tuyệt đối vào model nội bộ), áp dụng Watermarking để định danh nội dung AI và xây dựng quy trình MLOps tích hợp Vulnerability Scanning cho cả Model weights và Dataset trước khi đưa vào production.

2. Cryptography

Tiếp theo, chúng ta bước sang một chiến tuyến thầm lặng nhưng khốc liệt hơn: Cryptography - Mật mã học. Cryptography chính là nền móng toán học cứng rắn, nơi định đoạt sự sống còn của dữ liệu trước khi nó kịp được xử lý.

Cái kết của RSA đã được dự báo và sự trỗi dậy của Post-Quantum Cryptography

Trong cryptography, từ khóa Post-Quantum & Quantum Crypto chiếm lĩnh vị trí trung tâm với kích thước khổng lồ, che mờ các khái niệm truyền thống. Điều này gửi đi một thông điệp mạnh mẽ: Cộng đồng bảo mật đang trong trạng thái báo động đỏ chuẩn bị cho ngày Q-Day – ngày máy tính lượng tử đủ mạnh để phá vỡ các thuật toán mã hóa hiện tại như RSA, ECC. Không còn là lý thuyết, sự xuất hiện của Lattice-Based Cryptography và Homomorphic Encryption (FHE) cho thấy trọng tâm đã chuyển dịch từ việc mã hóa để lưu trữ sang mã hóa để tính toán và mã hóa để chống lại máy tính lượng tử.

Để tồn tại trong kỷ nguyên này, ba trụ cột công nghệ sau mang tính quyết định:

Post-Quantum Cryptography (PQC) & Lattice-Based: Đây là giải pháp thay thế cho RSA. Lattice-based là ứng cử viên sáng giá nhất vì độ khó toán học của nó, dùng toán học để chống lại máy tính lượng tử khiến cả máy tính lượng tử cũng phải bó tay.
Homomorphic Encryption (FHE): FHE cho phép thực hiện phép tính trực tiếp trên dữ liệu đang mã hóa mà không cần giải mã. Kết quả khi giải mã giống hệt như tính trên dữ liệu gốc. Đây là chìa khóa để các hệ thống AI, LLM xử lý dữ liệu nhạy cảm như bệnh án, tài chính mà không bao giờ nhìn thấy nội dung thực.
Multi-Party Computation (MPC): Kỹ thuật cho phép nhiều bên cùng tính toán trên một tập dữ liệu chung mà không ai lộ dữ liệu riêng của mình cho người khác. Hãy tưởng tượng 5 ngân hàng muốn tìm ra khách hàng lừa đảo chung nhưng không muốn lộ danh sách khách hàng của mình cho đối thủ - MPC giải quyết vấn đề đó. Điều này cũng thúc đẩy việc phối hợp, hợp tác giữa nhiều trung tâm huấn luyện AI, giúp họ chia sẻ dữ liệu và khả năng tính toán để xây dựng 1 model chung vượt trội mà không sợ mất dữ liệu riêng của mình.

Từ năm 2024, NIST đã chuẩn hóa các thuật toán như Kyber (ML-KEM) và Dilithium (ML-DSA), các nghiên cứu không còn bàn về lý thuyết PQC nữa, mà tập trung vào triển khai thực tế và đánh giá hiệu quả. Một xu hướng nghiên cứu nóng là việc các thuật toán PQC dù an toàn về mặt toán học, nhưng khi chạy trên phần cứng lại tiêu tốn điện năng hoặc phát ra sóng điện từ đặc trưng, giúp hacker nghe lén được khóa bí mật (Side-Channel Attacks). Các paper năm 2025 tập trung vào Masking techniques để che giấu các dấu hiệu vật lý này. Với FHE, nó rất chậm, chậm hơn hàng nghìn lần so với tính toán thường. Xu hướng hiện tại là thiết kế các chip chuyên dụng (ASIC/FPGA) hoặc dùng GPU để tăng tốc FHE, biến nó từ lý thuyết phòng lab thành công cụ thực tế. Đây là xu hướng Hardware Acceleration trong PQC.

Ở một khía cạnh khác, có một sự sự đối đầu giữa Post-Quantum Security và Lightweight Cryptography. Các thuật toán hậu lượng tử thường có kích thước khóa rất lớn và đòi hỏi tài nguyên tính toán cao. Điều này đi ngược lại nhu cầu của IoT Security, nơi các thiết bị cảm biến nhỏ xíu cần tiết kiệm pin. Vậy làm sao để mang khả năng kháng lượng tử lên một con chip IoT rẻ tiền? Đây là điểm nghẽn kỹ thuật lớn nhất, dẫn đến sự ra đời của các giao thức Hybrid Cryptography = kết hợp cái cũ (nhanh) và cái mới (an toàn) như một bước đệm tạm thời.

Store Now, Decrypt Later, đừng đợi đến khi máy tính lượng tử phổ biến mới hành động. Kẻ xấu đang thu thập dữ liệu mã hóa của bạn hôm nay, lưu trữ lại và chờ 5-10 năm nữa khi máy tính lượng tử phá được khóa để đọc. Việc phân loại dữ liệu, xác định loại dữ liệu nào mang tính dài hạn là việc cần làm ngay và là yếu tố then chốt. Sau đó, doanh nghiệp cần xây dựng hệ thống có khả năng thay đổi thuật toán mã hóa linh hoạt, chuyển đổi hệ thống lưu trữ cũ sang mới mà không thay đổi toàn bộ hệ thống. Rà soát toàn bộ hệ thống xem đâu là nơi đang dùng RSA/ECC và lên lộ trình thay thế bằng các thuật toán PQC chuẩn NIST. Nếu làm về Data/AI, bắt buộc phải nghiên cứu FHE hoặc MPC để đón đầu xu hướng chia sẻ dữ liệu an toàn.

3. Privacy Engineering

Nếu như Cryptography cung cấp những viên gạch nguyên liệu, thì Privacy Engineering chính là bản kiến trúc để xây dựng nên ngôi nhà bảo mật. Đây là nơi các thuật toán toán học khô khan được chuyển hóa thành các giải pháp kỹ thuật thực tế để bảo vệ dữ liệu trong suốt vòng đời của nó.

Ở Privacy Engineering, bức tranh được thể hiện rõ nét ở Differential Privacy (DP) và Privacy-Preserving ML/AI. Điều này dự báo một dấu mốc quan trọng: Kỷ nguyên của Data Anonymization bằng masking để bảo vệ dữ liệu đã kết thúc. Các kỹ thuật ẩn danh truyền thống đã được chứng minh là dễ dàng bị phá vỡ bởi các tấn công tái định danh. Thay vào đó, cộng đồng kỹ thuật đang chuyển sang các phương pháp bảo vệ dựa trên bằng chứng toán học và thống kê, nơi quyền riêng tư được định lượng con số cụ thể chứ không phải là lời hứa suông.

Để hiện thực hóa quyền riêng tư, chúng ta có thể dựa vào một số công cụ chủ lực:

Differential Privacy: Cơ chế của nó là thêm một lượng nhiễu được tính toán kỹ lưỡng vào dữ liệu hoặc kết quả truy vấn. Điều này đảm bảo rằng sự hiện diện (hay vắng mặt) của một cá nhân trong tập dữ liệu không làm thay đổi đáng kể kết quả đầu ra, khiến kẻ tấn công không thể suy luận ngược lại thông tin của người đó.
Synthetic Data Generation: Đây là một xu hướng đang lên rất nhanh. Thực tế, tại doanh nghiệp, tôi đã áp dụng (và lạm dụng) chiến lược này nhiều năm trở lại đây. Thay vì dùng dữ liệu thật nhạy cảm, AI sẽ học phân phối thống kê của dữ liệu gốc và tạo ra một tập dữ liệu giả lập mới. Dữ liệu này giữ nguyên tính chất thống kê, hữu ích cho phân tích và training nhưng không chứa thông tin của bất kỳ người thật nào.
Federated Learning: Kỹ thuật đưa code đến nơi có dữ liệu thay vì đưa dữ liệu về nơi có code. Các thiết bị như máy tính cục bộ tự train model cục bộ và chỉ gửi các tham số cập nhật đã được mã hóa về server trung tâm. Dữ liệu thô không bao giờ rời khỏi thiết bị.

Năm 2025, Privacy Engineering cũng tập trung giải quyết một bài toán khó: Làm sao áp dụng DP cho Large Language Models một cách hiệu quả. Privacy-Utility Trade-off - Đánh đổi giữa Riêng tư và Tiện ích. Áp dụng DP vào quá trình training LLM thường làm giảm đáng kể khả năng suy luận, sự thông minh của AI. Các nghiên cứu trọng điểm năm nay Private LoRA hay Ghost Clipping đang tìm cách tối ưu hóa để model vừa thông minh vừa không thể bị tấn công. Đặc biệt là tấn công xác định xem một dữ liệu cụ thể có nằm trong tập train hay không. Một hướng tiếp cận cũng phát triển mạnh mẽ là sử dụng LLM để tạo ra dữ liệu văn bản tổng hợp chất lượng cao dùng cho việc train các model khác, giúp né tránh hoàn toàn các vấn đề bản quyền và lộ lọt thông tin cá nhân (PII) từ dữ liệu gốc.

Ở khía cạnh khác, Synthetic Data cũng sẽ trở thành tiêu chuẩn mặc định cho môi trường Testing và Development. Production data sẽ bị cô lập hoàn toàn trong các Trusted Execution Environments. Nhiệm vụ của các hệ thống thụ hưởng dữ liệu, đặc biệt là đội ngũ phát triển AI là cần sử dụng ngay các công cụ Privacy Auditing để mô phỏng tấn công Membership Inference vào model của bạn trước khi release. (tránh bị hacker khai thác và kiện ngược gây làn sóng tẩy chay với doanh nghiệp). Thay vì chờ đợi dữ liệu thực, hãy chuyển sang đầu tư pipeline tạo dữ liệu tổng hợp (Synthetic Data). Đừng chờ bắt buộc, hãy chuẩn bị ngay.

4. Application Security

Tiếp theo, chúng ta quay trở lại với chiến trường thực tế nhất: Application Security. Đây là nơi đảm bảo an toàn cho code được viết ra, nơi phần mềm được đóng gói và cũng là nơi hacker tìm kiếm từng kẽ hở logic để len lỏi vào hệ thống. AppSec năm 2025 không còn là câu chuyện của những chiếc máy quét lỗ hổng tĩnh (SAST) khô khan nữa. Nó đang trải qua một cuộc thay máu toàn diện nhờ AI.

Malware Analysis & Detection và Vulnerability Analysis & Detection vẫn là hai trụ cột khổng lồ. Tuy nhiên, điều thú vị nằm ở những kẻ mới đến đang chen lấn xung quanh: Large Language Models (LLMs), Graph Neural Networks và Software Supply Chain Security. LLM Fine-Tuning và Secure Code Generation cũng nằm chễm chệ ở đó cũng cảnh báo một thực tế: Developer đang tin tưởng mù quáng vào code do AI sinh ra (Copilot/ChatGPT). Điều này dẫn đến một thế hệ lỗi bảo mật mới: code chạy ngon nhưng rỗng tuếch về bảo mật, chứa đầy lỗ hổng business logic vì AI không hiểu nghiệp vụ của bạn. Ở phe tấn công, Malware Analysis đang phải đối mặt với các dòng mã độc được viết lại bởi AI để né tránh các bộ signature detection. Cuộc chiến bây giờ là: AI tạo mã độc (để obfuscate/che giấu) đấu với AI phân tích mã độc (để deobfuscate/giải mã).

Có ba xu hướng chính đang định hình lại mảng này mà tôi muốn các bạn chú ý:

Software Supply Chain Security: Khi 80% code trong dự án của bạn đến từ các thư viện nguồn mở, bạn không chỉ phải lo về code của mình mà còn phải lo về code của người lạ. Từ khóa Malicious Package Detection xuất hiện cho thấy hacker đang chuyển hướng tấn công vào các kho lưu trữ như NPM, PyPI. Chúng không hack bạn, chúng hack thư viện bạn dùng.
Graph Neural Networks (GNN) cho Code Analysis: Đây là bước đột phá kỹ thuật. Các công cụ quét code cũ dùng Static Analysis thường dựa trên Regex hoặc AST nên rất hay báo động giả (False Positive). GNN biến code thành đồ thị (Code Property Graph), cho phép AI hiểu được luồng dữ liệu (Data Flow) và ngữ cảnh sâu hơn, giúp phát hiện các lỗi logic phức tạp mà công cụ truyền thống bó tay.
LLM-driven Reverse Engineering: Reverse Engineering và phân tích mã độc vốn là đặc quyền của các chuyên gia cấp cao. Nhưng với sự hỗ trợ của LLM, rào cản này đang bị hạ thấp. AI có thể đọc mã máy và giải thích chức năng của nó bằng ngôn ngữ tự nhiên, giúp tăng tốc độ phân tích malware lên gấp chục lần.

Một điểm nhấn quan trọng trong năm 2025 là sự chuyển dịch từ Detection sang Remediation. Từ khóa Automated Program Repair và Vulnerability Remediation cho thấy đích đến cuối cùng không phải là đưa ra một bản báo cáo dài dằng dặc các lỗi, mà là AI tự động tạo ra bản vá và Developer chỉ việc nhấn "Merge". Directed Fuzzing kết hợp với AI cũng đang là State-of-the-art. Thay vì Fuzzing ngẫu nhiên như ném đá dò đường, AI hướng dẫn bộ Fuzzer tập trung đánh vào các hàm yếu nhất hoặc các đoạn code vừa thay đổi. Các nghiên cứu trên Arxiv chỉ ra rằng Coverage-Guided Fuzzing được tăng cường bởi LLM có thể tìm ra các lỗi bộ nhớ (Memory Safety) sâu trong kernel nhanh hơn 40% so với phương pháp truyền thống.

Có một sự tranh luận ngầm rất thú vị: Chúng ta hô hào "Shift Left" (đưa bảo mật sang trái - làm sớm nhất có thể), nhưng dữ liệu nghiên cứu lại cho thấy sự bùng nổ của Runtime Enforcement và Dynamic Analysis (làm ở bên phải - khi chạy). Lý do, Shift Left là chưa đủ. Với tốc độ sinh code của AI hiện nay, việc review code tĩnh không thể bắt kịp. Chúng ta buộc phải chấp nhận code có lỗi và tập trung xây dựng lớp bảo vệ tại thời gian chạy (Runtime Monitoring) để chặn các hành vi bất thường ngay khi nó xảy ra.

Năm 2026 sẽ là năm của "Autonomous AppSec". Sẽ không còn cảnh DevSecOps ngồi triage từng lỗi từ SonarQube nữa. AI Agent sẽ tự động: Quét lỗi -> Xác minh lỗi (bằng cách viết test case exploit) -> Tự sửa code -> Tạo Pull Request. Đừng chỉ học cách code an toàn, hãy học cách Audit code của AI. Hãy trang bị ngay các công cụ SCA thế hệ mới có khả năng phát hiện "AI-hallucinated packages". Và quan trọng nhất, hãy bắt đầu thử nghiệm Graph-based/AI-based vulnerability detection cho dự án của mình.

5. IoT Security

Bây giờ, chúng ta bước vào thế giới của Internet of Things – nơi mà một lỗ hổng bảo mật không chỉ làm mất dữ liệu, mà có thể làm nổ một nhà máy điện, lật một chiếc xe hơi đang chạy, hoặc dừng máy trợ tim của một bệnh nhân.

Nếu như 5 năm trước, nói đến IoT Security là nói đến việc hack camera IP hay bóng đèn thông minh, thì năm 2025, trọng tâm nghiên cứu đã dịch chuyển hoàn toàn sang Cyber-Physical Systems (CPS) - nòng cốt của cách mạng công nghiệp 4.0.

Nhìn vào các từ khóa Industrial Control Systems, Smart Grid Security, UAV Security, chúng ta thấy rõ: Mối lo ngại lớn nhất bây giờ là Kinetic Cyber Attacks - Tấn công mạng gây tác động vật lý. Hacker không cần tống tiền bằng dữ liệu nữa, chúng tống tiền bằng sự an toàn tính mạng. Có một sự thật hiển nhiên và đau lòng, bạn không thể cài Antivirus hay EDR lên một con cảm biến nhiệt độ hay một cái công tơ điện thông minh. Chúng quá yếu, quá ít RAM. Và điều đó biến chúng thành bề mặt tấn công dễ tổn thương nhất. Vì không thể bảo vệ từ endpoint security, chúng ta buộc phải bảo vệ từ bên ngoài - Intrusion Detection System. IDS trở thành tuyến phòng thủ duy nhất và quan trọng nhất. Và năm 2025, IDS không còn chạy bằng luật tĩnh (Snort/Suricata) nữa, mà chạy bằng Anomaly Detection dựa trên AI hay UEBA (User and Entity Behavior Analytics) để bắt các hành vi bất thường mà chưa từng có trong database.

Có hai cụm từ cực kỳ đáng giá mà tôi muốn highlight: Edge Computing kết hợp với Lightweight Security. Đưa AI xuống thiết bị biên (Edge AI) là xu hướng bắt buộc. Khi một chiếc xe tự lái phát hiện bị hack phanh, nó không thể gửi dữ liệu lên Cloud hỏi tôi có nên dừng lại không?. Network latency trong trường hợp khẩn cấp đồng nghĩa với tai nạn chết người. AI bảo mật phải nằm ngay trên chip của xe (TinyML), ra quyết định trong mili-giây.

Và không thể không nhắc đến Vehicular Security và CAN Bus Security. Ngành công nghiệp ô tô đang trải qua cơn ác mộng bảo mật khi xe hơi biến thành Data Center di động. Giao thức CAN Bus - xương sống giao tiếp trong xe vốn dĩ không có bảo mật. Giờ đây, khi nối nó vào Internet, hacker có thể chiếm quyền điều khiển vô lăng từ xa.

Nếu bạn làm về IoT, hãy dừng ngay việc tin tưởng vào Perimeter Security. Hãy áp dụng tư duy Zero Trust for IoT: Mặc định mọi thiết bị đều đã bị nhiễm độc, cô lập chúng vào các VLAN riêng biệt. Áp dụng các chuẩn mới của NIST cho IoT để Lightweight Cryptography. Những điều đó sẽ giúp bạn hạn chế khả năng tấn công của các attacker.

6. Blockchain Security

Rời khỏi thế giới IoT chật chội, chúng ta bước vào thế giới của Blockchain & Web3, nơi mọi giao dịch đều minh bạch nhưng kẻ tấn công thì ẩn mình trong bóng tối.

Một điều bất ngờ khi tôi nhìn wordcloud của Blockchain Security là khi thấy Large Language Models nằm chễm chệ ngay trên đỉnh, to ngang ngửa với Smart Contract Security. Điều này cho thấy LLM hiện đang là cánh tay nối dài của rất nhiều lĩnh vực mà trước giờ không liên quan, như trường hợp ta đang thấy ở đây là Blockchain.

Các từ khóa Vulnerability Analysis & Detection và Smart Contract Vulnerability Detection với sự kết hợp của LLMs cho thấy một xu hướng rõ rệt: Cộng đồng đang dùng AI để đọc Smart Contract (Solidity/Rust) thay cho mắt thường. Trước đây, Audit một Smart Contract tốn hàng chục nghìn đô và mất vài tuần. Giờ đây, các mô hình LLM được fine-tune chuyên biệt cho code blockchain có thể phát hiện các lỗi Reentrancy, Integer Overflow trong vài phút. Nhưng rủi ro ở chỗ: Hacker cũng dùng chính con AI đó để tìm lỗi trước khi Developer kịp vá.

Khác với các mảng khác, Blockchain Security năm 2025 có hai trụ cột đặc biệt nổi bật đậm chất toán học:

Formal Verification (Kiểm chứng hình thức): Trong thế giới Web2, chúng ta dùng "Testing" (chạy thử xem có lỗi không). Trong Web3, Testing là không đủ. Chúng ta cần "Proving" (Chứng minh toán học là không thể có lỗi). Xu hướng năm nay là dùng các ngôn ngữ lập trình mới hoặc các công cụ toán học để chứng minh logic của Smart Contract là đúng tuyệt đối. Formal Verification đang chuyển từ lý thuyết hàn lâm sang tiêu chuẩn bắt buộc cho các giao thức DeFi tỷ đô.
Game Theory: Trong Blockchain, có những thứ đúng về mặt code nhưng sai về mặt kinh tế. Đó là các cuộc tấn công MEV (Maximal Extractable Value), Flash Loan Attacks, hay Sandwich Attacks. Hacker không hack vào lỗi phần mềm, hắn hack vào cơ chế khuyến khích của giao thức. Hắn dùng tiền để thao túng giá, rút cạn bể thanh khoản (Liquidity Pool) một cách hợp lệ.

7. Threat Intelligence

Nhìn sang Threat Intelligence, chúng ta tiếp tục thấy một sự xâm chiếm của Large Language Models (LLMs), Natural Language Processing (NLP) và Retrieval-Augmented Generation (RAG). Có vẻ, Threat Intelligence năm 2025 đã trở thành một bài toán Xử lý Ngôn ngữ Tự nhiên (NLP), miền đất hứa trước đây của tôi. Hacker không chỉ giao tiếp bằng code, chúng giao tiếp bằng ngôn ngữ (trên Dark Web, Telegram, diễn đàn). Các báo cáo an ninh (Threat Reports) cũng là văn bản. Để hiểu kẻ thù, chúng ta không đếm số lượng packet nữa, mà chúng ta phải đọc hiểu hàng triệu trang tài liệu mỗi ngày. Và ai làm việc đó tốt nhất? Chính là LLMs.

Năm 2025, chứng kiến sự chuyển dịch từ săn IOCs sang thấu hiểu TTPs, trọng tâm đã chuyển sang TTPs (Tactics, Techniques, and Procedures).

Một từ khóa cũng nằm chễm chệ ở đáy nhưng cực quan trọng: Retrieval-Augmented Generation (RAG). Theo tôi, đây là vũ khí bí mật của các SOC hiện đại. Mỗi ngày có hàng nghìn báo cáo bảo mật mới, hàng triệu tin nhắn trên Dark Web. Chuyên gia CTI không thể đọc hết. RAG cho phép nạp toàn bộ tri thức này vào một Vector Database. Khi có sự cố, chuyên gia chỉ cần hỏi Chatbot nội bộ: "Gần đây có nhóm APT nào nhắm vào các công ty năng lượng dùng VPN Fortinet không?". AI sẽ lục tìm trong hàng tấn tài liệu và tổng hợp câu trả lời chính xác kèm dẫn chứng. Nó biến một Junior Analyst thành một Senior có trí nhớ siêu phàm.

Trong CTI, khả năng giải thích quan trọng ngang ngửa khả năng phát hiện. Nếu không giải thích được, Intelligence chỉ là Noise. Điều này dẫn ta đến một từ khóa quan trọng - Explainable AI (XAI), cũng là một trong những nghiên cứu chính trong năm 2025.

Năm 2026 có thể có sự bùng nổ của Predictive CTI. Không chỉ báo cáo những gì đã xảy ra, AI sẽ dự báo những gì sắp xảy ra. Theo tôi, để làm điều này, cần thực hiện ngay việc xây dựng các Threat Intelligence Platform có tích hợp AI với khả năng tóm tắt và phân tích ngữ nghĩa, kết hợp xây dựng các Threat Knowledge Base nội bộ mạnh mẽ để tăng cường AI bằng RAG. Chuyển hóa các lesson learned thành tri thức bổ sung cho model để tăng cường khả năng cảnh báo cho tương lai.

8. Network Security

Chúng ta thường nghĩ về Network Security là những con Firewall lầm lì, những dòng lệnh cấu hình khô khan. Nhưng hãy nhìn vào wordcloud dưới đây. Bạn có thấy Firewall đâu không?Thay vào đó, đập vào mắt chúng ta là Deep Learning, Machine learning, Anomaly Detection và to nhất là Intrusion Detection Systems (IDS) được bao phủ bởi các thuật ngữ AI.

Rất nhiều từ khóa trong NLP được đề cập cho thấy năm 2025, Network Security đang vay mượn kịch liệt các kỹ thuật của xử lý ngôn ngữ tự nhiên. Hệ thống IDS có thể đọc hiểu traffic mạng như đọc một cuốn sách. Nó không tìm kiếm một từ khóa riêng lẻ, mà nó tìm kiếm sự bất thường trong ngữ pháp và văn phong của cuộc giao tiếp. Việc áp dụng các mô hình có khả năng chuỗi như Transformers giúp hệ thống có thể phân tích được hành vi của 1 chuỗi gói tin thay vì tín hiệu của từng gói tin đơn lẻ.

9. Vulnerability Management

Chúng ta thường nghĩ Quản lý lỗ hổng (VM) đơn giản là chạy một con Nessus hay OpenVAS, xuất ra cái báo cáo PDF dày 500 trang rồi gửi cho Dev bắt sửa. Nhưng năm 2025, cuộc chơi không còn đơn giản thế.

Trong VM, ta thấy sự xuất hiện của Large Language Models với vai trò là người phân loại. Với hàng nghìn lỗ hổng mới mỗi ngày, con người không thể phân loại kịp. AI đang được dùng để đọc mô tả CVE và quyết định xem: Lỗ hổng này có thực sự nguy hiểm với hệ thống của công ty mình không?

Một trong những từ khóa quan trọng mà tôi muốn bạn để ý là Vulnerability Prioritization và Risk Prioritization. Theo tôi đây là các từ khóa mang tính chiến lược. Trước đây, cứ thấy điểm CVSS 9.0/10 là chúng ta hoảng loạn bắt Dev vá ngay. Nhưng thực tế, lỗ hổng đó có thể nằm trong một module mà ứng dụng của bạn không hề dùng đến. Năm 2025, xu hướng là Risk-based VM. Chúng ta dùng dữ liệu tình báo (Threat Intel) và AI để tính điểm EPSS (Exploit Prediction Scoring System). Các bài báo trên Arxiv năm nay tập trung vào Context-aware Vulnerability Scoring. Thay vì tin vào điểm số chung chung của NIST, các hệ thống VM dùng LLM để quét cấu hình server, xem xét đường đi của dữ liệu (Attack Path Analysis) và kết luận: "Lỗ hổng này tuy Critical nhưng nằm sau 3 lớp Firewall và không có Public IP, nên độ ưu tiên thấp. Vá sau.". Các nghiên cứu chỉ ra rằng 70% các thư viện dính lỗ hổng trong một dự án thực tế là không bao giờ được gọi đến (not invoked). AI giúp chúng ta xác định phần code chết này để loại bỏ cảnh báo rác, giúp đội Security bớt bị stress vì báo cáo đỏ lòm.

10. Security Operations Center (SOC)

Nhìn sang bức tranh của SOC, đập vào mắt chúng ta lại là sự thống trị của Large Language Models (LLMs) và Malware Analysis & Detection. Nhưng hãy nhìn kỹ hơn vào những từ khóa với những cụm từ kỹ thuật mới lạ như Explainable AI (XAI), Synthetic Data Generation, Multi-Agent Systems, Ensemble Learning,..

Đây không phải là một SOC truyền thống nơi con người ngồi nhìn màn hình SIEM nữa. Đây là một Autonomous SOC (SOC tự hành).

Trong nhiều năm, SOC bị ám ảnh bởi Alert Fatigue. Một ngày có 10.000 cảnh báo, 9.900 là rác. Analyst Tier 1 bị kiệt sức và chán nản.

Năm 2025 cho thấy một giải pháp triệt để:

LLMs & Soc Automation: LLM không chỉ chat. Nó đóng vai trò là bộ não phân loại (Triage). Nó đọc log thô, hiểu ngữ cảnh và tự quyết định: "Đây là quét cổng bình thường, bỏ qua" hay "Đây là hành vi leo thang đặc quyền, báo động đỏ".
Multi-Agent Systems: Đây là xu hướng cực hay. Thay vì một con AI làm tất cả, chúng ta có một nhóm các AI Agent. Một con chuyên tra cứu VirusTotal, một con chuyên đọc log Firewall, một con chuyên viết báo cáo. Chúng tự giao tiếp với nhau để đưa ra kết luận cuối cùng. Con người được đẩy lên làm Tier 2/3 – những thợ săn mối đe dọa (Threat Hunters) và điều tra viên (Investigators).

Trong SOC, Explainable AI (XAI) cũng là một từ khóa quan trọng. XAI buộc AI phải đưa ra bằng chứng cho mọi quyết định của mình. Nếu AI không giải thích được, không ai dám để AI tự động phản ứng (SOAR). Một điều quan trọng nữa, AI chỉ giỏi khi có quy trình chuẩn. Điều này đòi hỏi phải chuẩn hóa các quy trình phản ứng sự cố (Incident Response Playbooks) để AI có thể học theo và AI có 1 hệ thống tri thức chuyên gia để tham chiếu.

Một từ khóa kỹ thuật thú vị khác là Synthetic Data Generation. Dữ liệu tấn công thực tế (Real attack data) rất hiếm và nhạy cảm. Làm sao để train AI phát hiện tấn công Zero-day? Giới nghiên cứu đang dùng chính Generative AI để tạo ra hàng triệu mẫu log tấn công giả lập (Fake logs) nhưng cực kỳ giống thật. Chúng ta đang dùng AI để dạy AI.

Dự đoán 2026 sẽ là kỷ nguyên của Self-Healing Operations. Khi phát hiện sự cố, hệ thống SOC không chỉ báo cáo, mà tự động sinh ra script Ansible/Terraform để cô lập máy chủ, vá lỗ hổng, và khôi phục dịch vụ. Con người chỉ nhận thông báo rằng sự cố đã được xử lý.

11. Identity and Access Management (IAM)

Nhìn vào hình này, tôi cá là nhiều bạn sẽ ngạc nhiên. Tại sao Blockchain, Decentralized Identity, và Verifiable Credentials lại to đùng và lấn át cả những thuật ngữ truyền thống như SSO hay LDAP?

Câu trả lời nằm ở sự thay đổi triết lý: Chúng ta đang chuyển từ định danh tập trung (Centralized) sang định danh tự chủ (Self-Sovereign Identity - SSI).

Năm 2025 đánh dấu sự bùng nổ của nghiên cứu về Verifiable Credentials. Thực tế cũ, bạn đăng nhập bằng Google/Facebook. Google nắm giữ danh tính của bạn. Nếu Google khóa nick, bạn bay màu khỏi tất cả các nền tảng mà bạn đăng nhập qua Google account. Nếu bạn nắm giữ danh tính của mình trong một chiếc ví số (Wallet) trên điện thoại, được bảo chứng bằng Blockchain. Khi bạn vào một trang web, bạn không đăng nhập, bạn xuất trình một chứng thư số (Credential) chứng minh bạn là ai mà không cần tiết lộ dữ liệu thừa.

Bên cạnh đó, Biometric Authentication và Behavioral Biometrics cũng chiếm sóng cực lớn. Mật khẩu đã chết. OTP qua SMS cũng đang hấp hối vì bị phishing quá dễ. Tương lai là sinh trắc học. Nhưng không chỉ là vân tay hay khuôn mặt (Static Biometrics), mà là hành vi (Dynamic Biometrics).

Khi AI học cách bạn gõ phím (Continuous Authentication)

Xác thực truyền thống chỉ diễn ra 1 lần lúc đăng nhập. Sau đó, nếu bạn đi vệ sinh và hacker ngồi vào máy bạn, hệ thống vẫn tưởng là bạn. Continuous Authentication là giải pháp giải quyết vấn đề này. Các mô hình AI có thể chạy ngầm, liên tục phân tích cách bạn di chuột, tốc độ gõ phím, thậm chí là góc cầm điện thoại. Mỗi người có một chữ ký hành vi độc nhất. AI có thể phát hiện người lạ ngồi vào máy tính chỉ sau 15 giây gõ phím với độ chính xác 98%, ngay lập tức khóa màn hình (Lock Session) mà không cần đợi timeout.

12. Red Teaming

Ngày xưa, Red Teaming là hình ảnh của những anh chàng hacker mặc áo hoodie đen, ngồi gõ lệnh trong đêm, tìm cách bypass firewall bằng kỹ năng thượng thừa và trực giác cá nhân. Nhưng nhìn vào 2025, lãng mạn đã chết. Đập vào mắt chúng ta là Automated Penetration Testing và Reinforcement Learning. Red Teaming giờ đây không còn là nghệ thuật (Art) nữa, nó đã trở thành khoa học (Science) và tự động hóa (Automation).

Tôi lại xin tiếp tục được trích dẫn 1 đoạn trong cảnh báo của Anthropic khi họ phát hiện ra các AI Agents dựa trên model của họ có khả năng tấn công tự động toàn trình vào các hệ thống thực tế. Link report: https://www.anthropic.com/news/disrupting-AI-espionage

The threat actor—whom we assess with high confidence was a Chinese state-sponsored group—manipulated our Claude Code tool into attempting infiltration into roughly thirty global targets and succeeded in a small number of cases. The operation targeted large tech companies, financial institutions, chemical manufacturing companies, and government agencies. We believe this is the first documented case of a large-scale cyberattack executed without substantial human intervention.

Hãy nhìn vào cụm từ Multi-Agent Framework và AI Agents. Đây là cơn ác mộng của Blue Team. Hacker không tấn công đơn lẻ. Họ dùng một nhiều AI Agent phối hợp với nhau và tăng tốc độ tấn công lên vượt trội. Hãy tưởng tượng:

Agent A (Recon): Chuyên đi dò quét cổng, thu thập thông tin OSINT.
Agent B (Planner): Lên kế hoạch tấn công dựa trên dữ liệu của A.
Agent C (Exploiter): Thực thi mã khai thác, brute-force mật khẩu.
Agent D (Reporter): Tổng hợp báo cáo.

Chúng phối hợp nhịp nhàng, chia sẻ bộ nhớ chung (Shared Memory) và hoạt động 24/7 không biết mệt mỏi.

Là dân làm Physical AI chuyển sang, tôi hiểu rất rõ sức mạnh của Reinforcement Learning. Trong Robot, RL giúp robot học cách đi lại bằng cách ngã hàng nghìn lần. Trong Red Teaming, RL giúp AI Agent học cách hack bằng cách thất bại hàng triệu lần trong môi trường giả lập (Simulation). Thay vì viết script cố định (Hard-coded scripts), chúng ta train các Agent RL trong môi trường ảo. Nó sẽ thử mọi cách: SQLi không được thì thử XSS, XSS không được thì thử Social Engineering. Nó học được cấu trúc mạng của bạn và tìm ra con đường ngắn nhất để chiếm quyền Admin (Shortest Attack Path).

Các paper về LLM-based Pentesting trên Arxiv năm qua cũng cho thấy các mô hình như PentestGPT hay Auto-Hacker đã có thể tự động vượt qua các bài thi CTF (Capture The Flag) mức độ trung bình mà không cần con người can thiệp. Chúng biết tự đọc tài liệu API, tự viết script Python để khai thác lỗi logic. Ranh giới giữa Script Kiddie và Advanced Hacker có thể sẽ bị xóa nhòa. Một đứa trẻ 15 tuổi biết dùng tool AI Red Teaming giờ đây có sức công phá ngang ngửa một chuyên gia bảo mật 10 năm kinh nghiệm. Rào cản gia nhập ngành tấn công mạng đã giảm dần và dễ tiếp cận hơn nhiều.

Pentest định kỳ (6 tháng/lần) sẽ chết. Thay vào đó là Continuous Automated Red Teaming (CART). Doanh nghiệp sẽ nuôi một đội quân "AI Hacker" nhà trồng, ngày đêm tấn công vào chính hệ thống của mình. Nếu AI tìm ra lỗi trước khi hacker thật tìm ra, bạn thắng.

13. Incident Response (IR)

Chuyển sang Incident Response, bạn sẽ thấy một sự chiếm đóng quen thuộc của Large Language Models (LLMs). Nhưng khoan hãy vội chán, hãy nhìn vào những từ khóa vệ tinh xung quanh nó: Digital Forensics, Provenance Graphs, Memory Forensics và Deception Framework. Chúng ta đang chuyển từ việc điều tra dựa trên Logs sang điều tra dựa trên Narratives.

Log truyền thống là các dòng rời rạc. Rất khó để xâu chuỗi sự kiện. Các nghiên cứu năm 2025 tập trung dùng Graph Neural Networks để dựng lên Provenance Graphs. Nó vẽ ra một cây gia phả của cuộc tấn công: File A được tải về bởi Chrome -> File A sinh ra Process B -> Process B sửa Registry C -> Registry C mở cổng Backdoor D. Thay vì nhìn vào hàng triệu dòng log, chuyên gia IR chỉ cần nhìn vào đồ thị này để thấy ngay Root Cause của vấn đề. AI giúp chúng ta nhìn thấy cả khu rừng thay vì chỉ thấy từng cái cây.

Trong IR, nỗi đau lớn là chuyển ngữ cảnh khi có quá nhiều thông cần phục vụ cho quá trình điều tra. Một chuyên gia IR phải mở 10 cửa sổ: SIEM để xem log, EDR để xem tiến trình, Threat Intel để tra IP... Retrieval-Augmented Generation (RAG) và LLMs đứng giữa bức tranh để giải quyết việc này. Bạn không cần gõ lệnh query phức tạp nữa. AI sẽ là kênh trung gian giúp bạn truy vấn, tìm kiếm và khai thác thông tin, tự động tổng hợp dữ liệu từ Memory Forensics, Network Logs, và Disk Image, giảm thời gian điều tra từ hàng giờ xuống hàng phút. Việc điều tra số sẽ được chuẩn hóa thành các đoạn mã (Playbooks) có thể chạy tự động. Khi có sự cố, AI tự động dump RAM, snapshot ổ cứng, phân tích malware và gửi báo cáo sơ bộ trước khi con người kịp... pha cà phê.

Trong khi IR truyền thống là đuổi hacker ra ngoài, xu hướng mới là mời hacker ở lại... trong cái bẫy. Đây là Deception Framework.

Cyber Deception: Khi phát hiện xâm nhập, thay vì chặn ngay (khiến hacker biết mình bị lộ và đổi chiến thuật), hệ thống tự động tạo ra một môi trường giả lập (Decoy) với dữ liệu giả. Hacker tưởng mình đang hack sâu hơn, nhưng thực chất đang bị AI ghi lại toàn bộ hành vi (TTPs).
Reinforcement Learning: Được dùng để điều khiển cái bẫy này, tự động tung ra mồi nhử phù hợp với hành vi của hacker để giữ chân hắn lâu nhất có thể, giúp đội IR có thêm thời gian thu thập chứng cứ.

14. Cloud Security

Nhìn vào bức tranh Cloud Security, từ khóa Confidential Computing và Trusted Execution Environments (TEE) đang chiếm vị thế lớn, to hơn cả Access Control. Điều này báo hiệu một sự thay đổi tư duy triệt để: Chúng ta không còn tin vào nhà cung cấp Cloud (Cloud Provider) nữa.

Trước đây, dữ liệu được mã hóa khi lưu trữ (At Rest) và khi truyền tải (In Transit). Nhưng khi xử lý (In Use) - tức là khi load lên RAM để CPU tính toán - nó phải ở dạng rõ (plaintext). Tuy nhiên, nếu admin của AWS/Azure hoặc một hacker có quyền root trên máy chủ vật lý muốn dump RAM, họ có thể thấy hết.

Bên cạnh đó, Quantum Hardware Security xuất hiện cho thấy nỗi lo về việc máy tính lượng tử tấn công vào chính phần cứng của Cloud Provider không còn là chuyện viễn tưởng.

15. DevSecOps

Chúng ta nhìn vào lĩnh vực cuối cùng trong top 15 - DevSecOps, từ khóa Software Supply Chain Security đang chiếm trọn không gian, đè bẹp cả thuật ngữ gốc DevSecOps. Điều này khẳng định một thực tế tàn khốc: Mối nguy hiểm lớn nhất hiện nay không phải là code bạn viết sai, mà là code bạn "mượn" về dùng.

Bên cạnh đó, sự xuất hiện của Large Language Models (LLMs), Self-Healing Security và Immutable Audit Log cho thấy quy trình phát triển phần mềm đang chuyển sang trạng thái: Tự động hóa và tự sửa chữa. Trước đây, tool scan xong báo lỗi, Dev phải vào sửa. Bây giờ, khi phát hiện một thư viện có lỗ hổng trong package.json, AI Agent sẽ tự động tìm phiên bản vá, chạy thử unit test để đảm bảo không bị conflict, và tự tạo Merge Request. Con người chỉ việc bấm "Approve". Các nghiên cứu về LLM-based Code Repair đã cho thấy tỷ lệ sửa đúng các lỗi cấu hình IaC như quên đóng S3 bucket, mở thừa port của AI đã đạt trên 90%.

Bottleneck lớn nhất của DevSecOps là thời gian xử lý của Developer. Bằng cách dùng AI để pre-fix, chúng ta giải phóng Dev khỏi những việc lặp lại nhàm chán để tập trung vào logic nghiệp vụ.

LỜI KẾT

Nhìn lại 6 tháng nằm gai nếm mật và bức tranh toàn cảnh của năm 2025, tôi nhận ra một sự thật: Ranh giới giữa AI và Cyber Security đã bị xóa nhòa. Nơi AI, đặc biệt Agentic AI và LLM đã trở thành các công cụ cực kỳ đặc lực cho Cyber Security.

Những con số thống kê từ Arxiv không biết nói dối: Tương lai của bảo mật không còn nằm ở sức người, mà nằm ở sức mạnh tính toán và khả năng tự chủ của các Agent. Tôi tin rằng, năm 2026 sẽ là kỷ nguyên của Autonomous Security.

Năm 2026 sẽ không còn là cuộc chơi của những công cụ thụ động (Passive Tools). Chúng ta sẽ chứng kiến sự trỗi dậy của Autonomous Security Operations:

Tốc độ là vua: Khi hacker dùng AI để tấn công trong vài chục giây, hệ thống phòng thủ cũng phải phản ứng tự động trong vài chục giây. Con người sẽ rời khỏi vị trí Operator để trở thành Auditor - người giám sát cho các hệ thống AI tự hành.
Dữ liệu là vũ khí: Ai nắm giữ nhiều tri thức về TTPs và sở hữu các Threat Graph lớn hơn, người đó thắng. Việc xây dựng RAG và Knowledge Base nội bộ sẽ là ưu tiên sống còn.
Niềm tin là xa xỉ phẩm: Trong thế giới của Deepfake giọng nói, mã độc do AI viết và dữ liệu bị đầu độc, triết lý Zero Trust sẽ trở nên cực đoan hơn. Chúng ta sẽ không tin bất cứ thứ gì, kể cả chính các giác quan của mình, nếu không có bằng chứng mật mã học.

Hành trình này vẫn còn rất dài, và như đã nói, nó vẫn rất "chua" và "chát". Nhưng chính trong cái vị chát đó, tôi tìm thấy sự phấn khích của việc được đứng nơi đầu sóng ngọn gió. Hy vọng bức tranh nghiên cứu này sẽ giúp các bạn – những người đồng nghiệp, những người đang tin tưởng hay nghi ngờ AI áp dụng trong CyberSec thế nào (Như bạn KB nếu bạn đọc đến đây) thì bức tranh mà tôi vẽ ra này sẽ cho bạn một góc nhìn rõ ràng hơn, tươi sáng hơn.

Tạm biệt.

cyber security Artificial Intelligent CyberSecurity Machine Learning