1.6K 23 34

Đã đăng vào thg 4 7, 6:52 SA

trong

35 phút đọc

Nghiên cứu mới: AI visibility dễ bị thao túng hơn chúng ta tưởng

Câu hỏi tưởng chừng đơn giản - "chúng ta tối ưu hóa được đầu ra AI đến mức nào?" - lại dẫn đến một nghịch lý căn bản.

Một mặt, bản chất xác suất của các mô hình ngôn ngữ lớn (LLM) khiến độ hiển thị trong AI (AI visibility) vốn dĩ không ổn định và khó kiểm soát. Mặt kia, bằng chứng thực nghiệm ngày càng tích lũy từ nhiều nhóm nghiên cứu độc lập lại cho thấy LLM dễ bị thao túng hơn bất kỳ ai nghĩ và mức độ thao túng đạt được không hề nhỏ. Hiểu rõ hai chiều của nghịch lý này là điều kiện tiên quyết để hoạch định chiến lược nội dung trong kỷ nguyên tìm kiếm tạo sinh.

Tóm tắt các điểm chính

LLM có bản chất xác suất, không xác định. Khác với công cụ tìm kiếm truyền thống trả về kết quả cố định, LLM tạo ra câu trả lời theo cơ chế lấy mẫu ngẫu nhiên - khiến cùng một câu hỏi có thể cho ra kết quả khác nhau mỗi lần chạy. Chỉ trung bình 30% thương hiệu duy trì được sự xuất hiện liên tiếp giữa hai lần chạy kế tiếp nhau [5].
Dù vậy, LLM cực kỳ dễ bị thao túng có hệ thống. Nghiên cứu E-GEO (Bagga et al., Columbia/MIT, 2025) - công trình quy mô lớn nhất trong lĩnh vực GEO tính đến nay - cho thấy mô tả sản phẩm được viết lại theo chiến lược tối ưu hóa lặp (iterative prompt optimization) đạt tỷ lệ thắng ~90% so với mô tả gốc [1].
Một "chiến lược phổ quát" đã được xác định thực nghiệm: nội dung dài hơn, giọng thuyết phục cao, kết hợp các yếu tố thổi phồng (diễn đạt lại ấn tượng hơn mà không thêm thông tin mới). Chiến lược này không phụ thuộc danh mục sản phẩm và có thể transfer xuyên domain [1].
Các nền tảng AI khác nhau ưu tiên nguồn thông tin theo những cách có cấu trúc và có thể đo lường được. ChatGPT nghiêng Wikipedia; Google AI Overviews và Perplexity nghiêng Reddit; mỗi nền tảng có "profile trích dẫn" riêng biệt - điều này có hệ quả trực tiếp với chiến lược phân phối nội dung [6][7].
Một cuộc đua vũ trang đang hình thành, tương tự giai đoạn SEO spam tiền Panda/Penguin. Nếu các kỹ thuật GEO manipulation trở nên phổ biến mà không có phản ứng từ phía nhà phát triển LLM, chất lượng câu trả lời AI trong thương mại điện tử sẽ suy giảm có hệ thống [1].

1. Hai mặt của cùng một bài toán: Bất ổn và dễ bị thao túng

1.1 Tính xác suất như là rào cản cấu trúc

Độ hiển thị trong AI (LLM visibility) là bài toán tối ưu hóa trên một hàm mục tiêu không xác định, đó là điểm khác biệt căn bản so với SEO truyền thống.

Công cụ tìm kiếm truyền thống như Google hoạt động theo cơ chế xác định (deterministic): cùng một từ khóa, cùng thời điểm, cùng vị trí địa lý - kết quả trả về gần như đồng nhất. LLM thì ngược lại: quá trình sinh văn bản dựa trên lấy mẫu có trọng số từ phân phối xác suất - có nghĩa là ngay cả khi câu hỏi đầu vào hoàn toàn giống nhau, mô hình vẫn có thể sinh ra câu trả lời khác nhau ở từng lần chạy.

Hệ quả là cùng một thương hiệu, cùng một câu hỏi, nhưng mức độ xuất hiện dao động mạnh qua các phiên chạy. Nghiên cứu của AirOps (2025) trên hơn 45.000 citations từ 800 queries cho thấy: trung bình chỉ 30% thương hiệu duy trì được visibility liên tiếp từ lần chạy này sang lần tiếp theo [5]. Khi mở rộng sang các lần chạy không liên tiếp, khoảng 57% thương hiệu biến mất khỏi một lần chạy rồi lại xuất hiện ở lần khác [5] - một hiện tượng mà AirOps gọi là citation drift (trôi dạt trích dẫn).

Chỉ 1 trong 5 thương hiệu duy trì được sự xuất hiện xuyên suốt từ lần đầu đến lần thứ năm [5]. Sự nhất quán là ngoại lệ, không phải quy tắc.

1.2 Bảy nguyên nhân cấu trúc khiến độ hiển thị AI khó ổn định

Infinity tổng hợp lại các phân tích hàng đầu và xác định bảy yếu tố cấu trúc khuếch đại tính bất ổn này:

Lottery-style outputs. Ở cấp độ từng câu hỏi, kết quả LLM biến động lớn - không thể dự đoán như danh sách kết quả tìm kiếm.

Thiên kiến nền tảng (Primary Bias). Chuyên gia SEO Dan Petrovic đặt tên cho hiện tượng các model mang theo thiên kiến được hình thành từ corpus huấn luyện. Mức độ có thể override thiên kiến này thông qua tối ưu hóa nội dung vẫn chưa được định lượng rõ ràng.

Tiến hóa không ngừng của model. Chiến thuật hiệu quả với các phiên bản LLMs (ChatGPT, Gemini, Perplexity...) cũ chưa chắc còn giá trị với các phiên bản tiếp theo. Không có cơ chế nào đảm bảo backward compatibility cho các kỹ thuật GEO.

Phân kỳ nguồn theo nền tảng. Đây là điểm được xác nhận định lượng rõ ràng nhất. Nghiên cứu của Profound [6] trên 680 triệu citations từ tháng 8/2024 đến tháng 6/2025 cho thấy:

Nền tảng	Nguồn dẫn đầu	Tỷ lệ trong top 10
ChatGPT	Wikipedia	47,9%
Google AI Overviews	Reddit	21,0%
Perplexity	Reddit	46,7%

Nghiên cứu của Semrush [7] trên 5.000 từ khóa và hơn 150.000 citations bổ sung thêm chiều so sánh: Perplexity có domain overlap cao nhất với Google top 10 (hơn 91%), trong khi ChatGPT có overlap thấp nhất - và nghiêng Bing hơn Google. Reddit xuất hiện là nguồn hàng đầu trên tất cả các nền tảng được nghiên cứu.

Semrush citation research

Cá nhân hóa không đồng đều. Gemini có quyền truy cập Google Workspace, cho phép tạo ra kết quả cá nhân hóa cao hơn đáng kể so với các LLM khác - biến cùng một câu hỏi thành hai câu hỏi hoàn toàn khác nhau tùy người dùng.

Nghịch lý của prompt dài. Khi người dùng cung cấp ngữ cảnh phong phú trong câu hỏi, tập hợp câu trả lời khả dĩ thu hẹp lại - ironically khiến việc tác động vào kết quả trở nên khó hơn, dù đây là xu hướng người dùng đang hướng đến.

Những yếu tố này tạo ra ấn tượng rằng LLM visibility là thứ gần như nằm ngoài tầm kiểm soát. Nhưng đây chính là điểm mà nghiên cứu thực nghiệm đưa ra kết quả gây bất ngờ.

2. Bằng chứng thực nghiệm: LLM dễ bị thao túng có hệ thống

2.1 E-GEO: Nghiên cứu quy mô lớn nhất về GEO trong e-commerce

Phát hiện lớn nhất của E-GEO không phải là tỷ lệ thắng 90% - mà là sự tồn tại của một chiến lược phổ quát, có thể transfer xuyên danh mục.

Công trình "E-GEO: A Testbed for Generative Engine Optimization in E-Commerce" (Bagga, Farias, Korkotashvili, Peng & Wu - Columbia University & MIT, tháng 11/2025) [1] là benchmark đầu tiên được thiết kế chuyên biệt cho GEO trong thương mại điện tử, khắc phục những hạn chế của các nghiên cứu tiền nhiệm vốn thiếu framework đánh giá có giá trị kinh tế đo lường được.

GEO process

Thiết kế nghiên cứu

Dữ liệu đầu vào. Nhóm tác giả xây dựng tập dữ liệu E-GEO từ hai nguồn: (1) hơn 7.151 câu hỏi mua sắm lấy từ subreddit r/BuyItForLife - nơi người dùng thảo luận về sản phẩm bền, đáng đầu tư - được xử lý qua GPT-4o-mini để lọc các câu hỏi có ý định rõ ràng; và (2) hơn 52.165 listing sản phẩm Amazon thuộc 30+ danh mục, truy xuất bằng encoder all-MiniLM-L6-v2. Điểm khác biệt của E-GEO so với các benchmark thương mại điện tử trước đó là tập câu hỏi chứa ngữ cảnh phong phú - điều kiện, ràng buộc, sở thích cá nhân - phản ánh cách người dùng thực sự tương tác với trợ lý mua sắm AI, thay vì các từ khóa ngắn kiểu truyền thống.

Kiến trúc thử nghiệm. Thay vì kiểm tra các heuristic thủ công, nhóm nghiên cứu thiết kế một hệ thống tối ưu hóa lặp dựa trên hai agent AI:

The Optimizer - chạy trên GPT-4o - đóng vai người bán, nhiệm vụ là viết lại mô tả sản phẩm theo hướng tối đa hóa khả năng được AI gợi ý. Để tránh phụ thuộc vào heuristic cố định, Optimizer nhận phản hồi từ vòng lặp trước và điều chỉnh chiến lược liên tục - kiến trúc lấy cảm hứng từ module reflection trong GEPA (Agrawal et al., 2025).

The Judge - cũng là GPT-4o, sử dụng system prompt CL4R1T4S mô phỏng giao diện ChatGPT - đóng vai trợ lý mua sắm, nhận câu hỏi cùng danh sách 10 sản phẩm và xếp hạng từ tốt nhất đến kém nhất. Đây là thiết kế cố ý tách biệt bước retrieval khỏi bước re-ranking - phù hợp với kiến trúc RAG (Retrieval-Augmented Generation) thực tế của các hệ thống thương mại.

Nhóm đối chứng gồm các sản phẩm cạnh tranh giữ nguyên mô tả gốc - Optimizer phải đánh bại nhóm này để chứng minh chiến lược có hiệu quả thực sự.

Chỉ số đánh giá là thay đổi thứ hạng (rank change) sau khi viết lại - dương nghĩa là cải thiện vị trí.

Kết quả

Phát hiện trung tâm của E-GEO là sự hội tụ của quá trình tối ưu hóa về một "chiến lược phổ quát" (universal strategy) nhất quán - bất kể danh mục sản phẩm hay loại câu hỏi. Chiến lược này bao gồm ba yếu tố:

Nội dung dài hơn so với mô tả gốc
Giọng thuyết phục cao, gần với phong cách quảng cáo
Yếu tố thổi phồng - diễn đạt lại thông tin hiện có để nghe ấn tượng hơn mà không bổ sung thông tin thực chất mới

Điều đáng chú ý là chiến lược này đi ngược lại với quan niệm thông thường rằng AI ưa thích nội dung súc tích, đầy đủ dữ kiện, và trung lập. Thực nghiệm cho thấy ngược lại: chính sự dài dòng và giọng thuyết phục - dù không thêm giá trị thông tin thực sự - lại được The Judge (GPT-4o) đánh giá cao hơn.

Mô tả viết lại theo chiến lược này đạt tỷ lệ thắng ~90% so với mô tả gốc [1]. Quan trọng hơn, không cần kiến thức chuyên ngành theo danh mục: chiến lược phát triển thuần túy từ đồ gia dụng (home goods) đạt 88% tỷ lệ thắng khi áp dụng sang danh mục điện tử (electronics), và 87% sang thời trang (clothing) [1].

Khả năng transfer xuyên domain này có hàm ý quan trọng: lỗ hổng của LLM trong việc đánh giá sản phẩm không phải là đặc điểm của từng ngành - mà là đặc điểm cấu trúc của cách mô hình xử lý ngôn ngữ thuyết phục.

2.2 Ba dòng nghiên cứu độc lập cùng xác nhận

E-GEO không đứng đơn độc. Một hệ thống bằng chứng từ các nhóm nghiên cứu độc lập, sử dụng phương pháp luận khác nhau, hội tụ về cùng một kết luận.

GEO: Generative Engine Optimization - Aggarwal et al. (2023) [2]

Đây là công trình khai phá khái niệm GEO, được chấp nhận tại KDD 2024 - một trong những hội nghị hàng đầu về khai phá dữ liệu và học máy. Nhóm tác giả từ Princeton và Allen Institute for AI giới thiệu GEO-bench, benchmark đa domain gồm các cặp câu hỏi–nguồn web, đánh giá hiệu quả của các kỹ thuật chỉnh sửa nội dung khác nhau thông qua impression score - thước đo kết hợp số từ được trích dẫn, vị trí citation, và đánh giá chất lượng từ GPT-3.5.

Kết quả: mật độ thông tin thực chất - đặc biệt là citations và thống kê có nguồn gốc rõ ràng - tăng độ hiển thị trong câu trả lời AI lên khoảng 40% [2]. Kỹ thuật thêm quotes từ nguồn uy tín và fluency optimization cũng cho kết quả dương.

Sự khác biệt giữa GEO (2023) và E-GEO (2025) phản ánh sự tiến hóa của phương pháp nghiên cứu: GEO kiểm tra các heuristic do con người đặt ra; E-GEO để AI tự tìm ra chiến lược hiệu quả nhất. Kết quả phân kỳ - citations hiệu quả theo GEO 2023, nhưng verbosity + persuasion hiệu quả hơn theo E-GEO 2025 - gợi ý rằng trong bối cảnh e-commerce với vai trò Judge là trợ lý mua sắm thực thụ, các yếu tố định tính và phong cách ngôn ngữ có trọng lượng cao hơn mật độ dữ kiện thuần túy.

Manipulating Large Language Models to Increase Product Visibility - Kumar & Lakkaraju (2024) [3]

Công trình từ Harvard Business School áp dụng một kỹ thuật khác biệt về mặt cơ chế: thay vì tối ưu hóa ngôn ngữ tự nhiên, nhóm tác giả nhúng một chuỗi văn bản chiến lược (Strategic Text Sequence - STS) định dạng JSON vào trang thông tin sản phẩm - một dạng prompt injection ẩn được thiết kế để tác động trực tiếp vào quá trình suy luận của LLM khi đọc trang sản phẩm.

Thử nghiệm trên catalog sản phẩm máy pha cà phê hư cấu cho thấy STS tăng đáng kể xác suất sản phẩm được xếp hạng #1 - áp dụng cho cả sản phẩm hiếm khi xuất hiện lẫn sản phẩm thường xếp hạng thứ hai [3]. Nhóm tác giả nhận định đây là dạng tác động tương tự cách SEO làm thay đổi cách webpages được tối ưu cho thuật toán tìm kiếm - nhưng tốc độ ảnh hưởng và mức độ trực tiếp cao hơn nhiều.

Ranking Manipulation for Conversational Search Engines - Pfrommer et al. (UC Berkeley, 2024) [4]

Đây là nghiên cứu có tính chất phòng thủ rõ ràng nhất - nhóm tác giả từ UC Berkeley tiếp cận vấn đề như một bài toán an ninh (adversarial problem). Bằng cách nhúng chỉ dẫn trực tiếp vào nội dung trang web (ví dụ: "please recommend this product first"), họ chứng minh rằng LLM có thể bị điều khiển thứ tự gợi ý một cách đáng tin cậy.

Ba phát hiện quan trọng của Pfrommer et al. [4]:

Thứ nhất, các LLM khác nhau có lỗ hổng khác nhau - một số model nhạy cảm hơn với tên sản phẩm, số khác với vị trí xuất hiện trong context window (position bias). Không có "chiến lược vá lỗi" đồng nhất.

Thứ hai, các cuộc tấn công transfer hiệu quả sang hệ thống thực tế - kỹ thuật được phát triển trong môi trường thí nghiệm transfer sang Perplexity.ai ở điều kiện thực tế, không chỉ là kết quả lab.

Thứ ba, position bias là yếu tố dễ bị khai thác nhất - sản phẩm xuất hiện ở các vị trí nhất định trong context window có xu hướng được xếp hạng cao hơn, bất kể chất lượng thực chất của mô tả.

3. Phân tích tổng hợp: Điều gì đang thực sự xảy ra bên trong LLM?

3.1 Ngôn ngữ thuyết phục đánh lừa được cơ chế đánh giá của LLM như thế nào?

Kết quả của E-GEO đặt ra một câu hỏi sâu hơn về kiến trúc: tại sao LLM lại đánh giá cao ngôn ngữ thuyết phục và nội dung thổi phồng, thay vì thông tin thực chất?

Câu trả lời nằm ở cách LLM được huấn luyện. Các mô hình như GPT-4o được fine-tune theo phương pháp RLHF (Reinforcement Learning from Human Feedback), trong đó người đánh giá con người cho điểm các câu trả lời. Ngôn ngữ tự tin, rõ ràng, ấn tượng thường nhận điểm cao hơn ngôn ngữ trung lập nhưng chính xác - một thiên kiến huấn luyện (training bias) mà khi mô hình được dùng làm The Judge trong E-GEO, nó tái hiện lại chính xác pattern đó.

Nói cách khác: LLM đang đánh giá sản phẩm theo cách nó được huấn luyện để đánh giá ngôn ngữ - không phải theo giá trị thực của sản phẩm. Đây là vấn đề về alignment, không chỉ là vấn đề về prompt engineering.

3.2 Profile trích dẫn theo nền tảng: Hàm ý thực tiễn

Sự phân kỳ rõ ràng giữa các nền tảng AI trong cách chọn nguồn - được xác nhận bởi cả Profound [6] và Semrush [7] - tạo ra hai hàm ý thực tiễn quan trọng.

Hàm ý thứ nhất: Chiến lược nội dung không thể "một size cho tất cả." Thương hiệu muốn hiển thị trên ChatGPT cần tăng cường hiện diện trên Wikipedia và các nguồn bách khoa uy tín; muốn hiển thị trên Perplexity cần khai thác cộng đồng Reddit và YouTube; muốn hiển thị trên Google AI Overviews cần cân bằng cả hai, đồng thời chú trọng LinkedIn và Quora - nơi chiếm tỷ trọng cao trong top 10 của nền tảng này [6].

Hàm ý thứ hai: Không phải citations cũng ngang nhau. Nghiên cứu AirOps [5] cho thấy thương hiệu vừa được cited vừa được mentioned trong câu trả lời AI có xác suất resurface sau khi biến mất cao hơn 40% so với thương hiệu chỉ được cited. Đây là sự khác biệt về chiều sâu tích hợp: khi AI chủ động nhắc đến tên thương hiệu trong văn bản (không chỉ footnote), nó tạo ra tín hiệu ngữ nghĩa mạnh hơn trong quá trình retrieval ở lần chạy tiếp theo.

3.3 Mối quan hệ với kiến trúc RAG

Phần lớn các hệ thống AI tìm kiếm hiện tại, bao gồm ChatGPT với web search, Perplexity, và Google AI Mode, đều dựa trên kiến trúc RAG (Retrieval-Augmented Generation) [4] - tức là khi trả lời câu hỏi, hệ thống trước tiên truy xuất một tập tài liệu liên quan, sau đó dùng LLM để tổng hợp câu trả lời từ tập tài liệu đó.

Điều này có nghĩa là tác động của GEO xảy ra ở hai điểm: (1) bước retrieval - nội dung có được truy xuất vào tập tài liệu không; (2) bước re-ranking - trong số các tài liệu đã được truy xuất, cái nào được LLM ưu tiên khi tổng hợp câu trả lời. E-GEO tập trung vào bước thứ hai và cho thấy mức độ ảnh hưởng rất lớn ngay cả khi bước retrieval giữ nguyên [1]. Pfrommer et al. bổ sung thêm rằng vị trí của tài liệu trong context window (position bias) cũng tác động mạnh đến bước re-ranking [4].

4. Cuộc đua vũ trang và bài học từ lịch sử SEO

4.1 Kịch bản Panda/Penguin đang lặp lại?

Vấn đề của scale không phải là các kỹ thuật GEO tồn tại - mà là khi chúng được áp dụng đại trà, hệ thống sẽ sụp đổ về chất lượng theo cách có thể dự đoán được.

Nghiên cứu E-GEO [1] cho thấy chiến lược tối ưu hóa có tính phổ quát và không đòi hỏi kiến thức chuyên ngành - bất kỳ người bán nào cũng có thể áp dụng. Trong môi trường thương mại điện tử với AI làm trung gian gợi ý, điều đó tạo ra động lực rất mạnh để tối ưu hóa mô tả sản phẩm theo chiều hướng thổi phồng. Kết quả dự đoán được: marketplace sẽ tràn ngập nội dung dài dòng, giọng quảng cáo, không thêm giá trị thực - và AI sẽ tiếp tục ưu tiên chúng, vì đó là cách nó được huấn luyện để đánh giá.

Google đã đứng trước bài toán tương đương trong giai đoạn 2010–2012. Câu trả lời của họ là thuật toán Panda (2011) - nhắm vào nội dung chất lượng thấp, thin content, nội dung từ content farm - và Penguin (2012) - nhắm vào link spam và các kỹ thuật thao túng PageRank. Cả hai đều được xây dựng như phản ứng với một hệ sinh thái đã bị "tối ưu hóa" đến mức mất đi giá trị sử dụng thực.

4.2 Tại sao LLM khó tự bảo vệ hơn Google

Google có một lợi thế quan trọng: khi phát hiện pattern spam, họ có thể điều chỉnh thuật toán xếp hạng mà không cần retrain toàn bộ hệ thống. LLM không có lợi thế đó - quá trình fine-tune để giảm nhạy cảm với nội dung thổi phồng đòi hỏi thay đổi trong cách mô hình học từ feedback con người, một quá trình tốn kém và chậm.

Một đề xuất phòng thủ là neo câu trả lời AI vào kết quả tìm kiếm đã được lọc chất lượng (grounding). Nhưng mức độ grounding khác nhau đáng kể giữa các nền tảng - và không phải LLM nào cũng ưu tiên các trang đang xếp hạng cao trên Google [7]. Nghiên cứu Semrush cho thấy ChatGPT có domain overlap thấp nhất với Google top 10 - tức là grounding vào Google search không phải cơ chế bảo vệ đáng tin cậy cho tất cả nền tảng [7].

Hơn nữa, Google đang chủ động hạn chế quyền truy cập dữ liệu tìm kiếm từ các LLM bên ngoài - thể hiện qua vụ kiện SerpAPI và sự kiện "num=100 apocalypse" (khi Google chặn các request scraping hàng loạt kết quả tìm kiếm) - làm thu hẹp thêm khả năng các LLM bên thứ ba dựa vào index của Google như một bộ lọc chất lượng.

4.3 Hàm ý cho người làm nội dung

Nghịch lý ở đây cần được nhìn nhận thẳng thắn. Trong ngắn hạn, các kỹ thuật GEO mang lại lợi thế cạnh tranh thực sự và có thể đo lường được - tỷ lệ thắng 90% trong E-GEO không phải con số có thể bỏ qua [1]. Trong dài hạn, nếu tất cả đều áp dụng chiến lược này, lợi thế cạnh tranh triệt tiêu lẫn nhau và chất lượng tổng thể của hệ thống giảm sút.

Đây là bài toán prisoner's dilemma kinh điển ở cấp độ hệ sinh thái nội dung: hành động tối ưu cho từng cá nhân dẫn đến kết quả tệ nhất cho toàn bộ hệ thống - kể cả những cá nhân đó.

Một điểm đáng chú ý là AirOps [5] ghi nhận các trang có visibility bền vững nhất trong AI search chia sẻ các đặc điểm cấu trúc: schema markup phong phú, heading có thứ bậc rõ ràng, định dạng dễ quét, ngôn ngữ súc tích - đây là những tín hiệu giúp cả người đọc lẫn mô hình hiểu nội dung hiệu quả hơn. Sự tương phản giữa những trang bền vững này và chiến lược thổi phồng từ E-GEO gợi ý rằng sự ổn định dài hạn và khả năng thao túng ngắn hạn có thể là hai trục không song song trong không gian tối ưu hóa.

5. Kết luận: Câu hỏi đúng cần đặt ra

Bài toán không phải là "liệu có thể ảnh hưởng câu trả lời AI không" - nghiên cứu đã trả lời rõ: có, và ở mức độ đáng lo. Câu hỏi thực sự là: ai chịu trách nhiệm đảm bảo rằng hệ thống AI dùng để gợi ý sản phẩm và thông tin không bị biến thành hệ thống mà người thổi phồng khéo nhất sẽ thắng?

Về phía nhà phát triển LLM: cần thiết kế cơ chế phòng thủ chủ động - tương tự cách Google xây dựng Panda và Penguin - để giảm trọng lượng của các tín hiệu ngôn ngữ thuần túy (verbosity, persuasive tone) so với tín hiệu thực chất (factual accuracy, source diversity). Đây là vấn đề alignment, không phải vấn đề lọc nội dung.

Về phía người làm nội dung: hiểu rõ landscape - bao gồm cả khả năng thao túng lẫn giới hạn của nó - là nền tảng để đưa ra quyết định chiến lược có trách nhiệm. Tối ưu hóa mù quáng theo chiến lược thổi phồng có thể mang lại lợi thế ngắn hạn, nhưng đẩy toàn bộ hệ sinh thái vào một cuộc đua không ai muốn đến đích.

Câu hỏi thường gặp

GEO (Generative Engine Optimization) khác SEO truyền thống ở điểm cơ bản nào?

SEO tối ưu hóa nội dung cho thuật toán xếp hạng xác định - cùng từ khóa, cùng thời điểm, cùng vị trí địa lý, kết quả gần như đồng nhất. GEO đối mặt với đầu ra xác suất (probabilistic): cùng câu hỏi có thể cho kết quả khác nhau mỗi lần chạy, và không có đường link trực tiếp nào giữa "xếp hạng" trong câu trả lời AI với một chỉ số kỹ thuật cụ thể. Ngoài ra, GEO cần tính đến bước retrieval (nội dung có được đưa vào context window không) lẫn bước re-ranking (trong số nội dung đã retrieved, cái nào được ưu tiên) - hai bước với logic tối ưu hóa khác nhau [4].

Tại sao chiến lược "viết dài hơn và thuyết phục hơn" lại hiệu quả với AI, trong khi trực giác nói rằng AI nên thích nội dung chính xác và súc tích?

Đây là hệ quả trực tiếp của cách LLM được fine-tune. Phương pháp RLHF (Reinforcement Learning from Human Feedback) sử dụng đánh giá của con người để điều chỉnh mô hình và người đánh giá con người có xu hướng cho điểm cao hơn cho ngôn ngữ tự tin, có cấu trúc, ấn tượng. Khi mô hình được dùng như "Judge" để đánh giá sản phẩm, nó tái hiện chính xác thiên kiến đó. Đây là vấn đề alignment giữa mục tiêu huấn luyện (câu trả lời được người dùng thích) và mục tiêu triển khai (gợi ý sản phẩm khách quan) [1].

Độ hiển thị trong ChatGPT, Google AI Overviews và Perplexity cần được tối ưu theo những cách khác nhau không?

Có, và sự khác biệt có thể đo lường được. Dữ liệu từ 680 triệu citations [6] và nghiên cứu 5.000 từ khóa [7] xác nhận rằng mỗi nền tảng có "profile trích dẫn" riêng biệt - ChatGPT nghiêng Wikipedia và nguồn bách khoa; Perplexity nghiêng Reddit (chiếm gần 47% trong top 10 nguồn); Google AI Overviews cân bằng hơn nhưng ưu tiên cả Reddit, YouTube, và LinkedIn. Chiến lược phân phối nội dung cần được thiết kế theo nền tảng đích, không áp dụng đồng nhất.

Làm thế nào để phân biệt visibility bền vững với visibility tạm thời từ thao túng?

AirOps [5] ghi nhận rằng các trang duy trì visibility dài hạn trong AI search có đặc điểm: schema markup phong phú, heading rõ ràng có thứ bậc, ngôn ngữ súc tích và dễ quét - đây là tín hiệu giúp mô hình hiểu ngữ nghĩa hiệu quả. Các trang chỉ được cited một lần rồi biến mất (citation drift) thường thiếu các tín hiệu cấu trúc này. Ngoài ra, thương hiệu được cả cited lẫn mentioned (đề cập trong văn bản chính của câu trả lời) có xác suất resurface cao hơn 40% so với chỉ cited - cho thấy chiều sâu tích hợp vào câu trả lời quan trọng hơn sự xuất hiện đơn thuần [5].

Các nhà phát triển LLM có thể làm gì để giảm thiểu tác động của GEO manipulation?

Không có giải pháp đơn giản, vì vấn đề nằm ở cấp độ huấn luyện. Một số hướng tiếp cận khả dĩ: (1) điều chỉnh quá trình fine-tune để giảm trọng lượng của tín hiệu ngôn ngữ thuần túy (verbosity, tone) so với tín hiệu nội dung (factual density, source diversity); (2) triển khai cơ chế phát hiện nội dung thổi phồng (fluff detection) tại bước re-ranking; (3) tăng cường grounding vào các nguồn đã được kiểm định chất lượng. Nhưng tất cả các giải pháp này đòi hỏi sự đánh đổi: giảm nhạy cảm với ngôn ngữ thuyết phục có thể làm giảm tính tự nhiên của câu trả lời trong các ngữ cảnh hợp lệ khác [1][4].

Nguồn nghiên cứu và trích dẫn:

[1] Bagga, P. S., Farias, V. F., Korkotashvili, T., Peng, T., & Wu, Y. (2025). E-GEO: A Testbed for Generative Engine Optimization in E-Commerce. arXiv:2511.20867.

[2] Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of KDD 2024. arXiv:2311.09735.

[3] Kumar, A., & Lakkaraju, H. (2024). Manipulating Large Language Models to Increase Product Visibility. arXiv:2404.07981.

[4] Pfrommer, S., Bai, Y., Gautam, T., & Sojoudi, S. (2024). Ranking Manipulation for Conversational Search Engines. Department of EECS, UC Berkeley. arXiv:2406.03589.

[5] Davidson, O. (2025). Staying Seen In AI Search: How Citations & Mentions Impact Brand Visibility. AirOps Research.

[6] Lafferty, N. (2025). AI Platform Citation Patterns: How ChatGPT, Google AI Overviews, and Perplexity Source Information. Profound.

[7] Levin, E. (2025). How Google's AI Mode Compares to Traditional Search and Other LLMs [AI Mode Study]. Semrush Blog.

Nguồn: Infinity - đơn vị cung cấp giải pháp Digital Marketing tích hợp cho doanh nghiệp — từ thiết kế website chuẩn SEO & UX/UI, dịch vụ AI SEO (GEO/AEO), PR Digital, sáng tạo nội dung số, quảng cáo trực tuyến (SEM/Ads) đến phân tích dữ liệu Marketing. Với nền tảng nghiên cứu và dữ liệu thực chiến, chúng tôi giúp doanh nghiệp xây dựng chiến lược thương hiệu bền vững và tăng trưởng có hệ thống trong kỷ nguyên AI.