Xử lý dữ liệu có cấu trúc bằng AI Agent trên CSV/Excel
Trong hầu hết các dự án AI hoặc Data-driven system, dữ liệu có cấu trúc (structured data) vẫn là “nguồn sống” cốt lõi. Chúng thường được lưu trữ dưới dạng file CSV hoặc Excel những bảng, dữ liệu chứa hàng ngàn bản ghi về khách hàng, giao dịch, hoặc hiệu suất kinh doanh.
Vấn đề là, việc phân tích thủ công các tệp này vừa chậm, vừa dễ sai sót. Giờ đây, với AI Agent, bạn có thể “trò chuyện” trực tiếp với file CSV/Excel, đặt câu hỏi tự nhiên và nhận kết quả ngay tức thì.
Structured Data trong CSV/Excel
Trong môi trường phát triển, CSV và Excel là hai định dạng phổ biến nhất để lưu dữ liệu có cấu trúc.
- CSV: nhẹ, dễ parse, phù hợp cho batch nhỏ–trung bình.
- Excel (XLSX): hỗ trợ nhiều sheet, định dạng phức tạp, thường dùng cho báo cáo.
Với góc nhìn của developer, ta có thể coi file CSV/Excel như một “mini database”, nơi mỗi hàng là một record, mỗi cột là một field. AI Agent sẽ đóng vai trò như lớp middleware thông minh, hiểu cấu trúc, sinh truy vấn, và trả kết quả theo yêu cầu người dùng.
Kiến trúc tổng thể: Từ dữ liệu thô → câu trả lời AI
Một AI Agent xử lý CSV/Excel thường được thiết kế theo pipeline gồm nhiều tầng mỗi tầng đảm nhiệm một nhiệm vụ trong luồng dữ liệu.

Input Layer
Agent có thể lấy dữ liệu từ:
- Upload trực tiếp CSV/Excel qua giao diện.
- Đọc qua API: Google Sheets, OneDrive, hoặc Amazon S3.
- Dịch vụ ingestion backend (Flask/FastAPI endpoint).
Một chút mẹo nhỏ dành cho Dev:
- CSV → tốc độ đọc nhanh, dùng
pandas.read_csv()hoặcpapaparse. - Excel → đọc bằng
openpyxlhoặcxlrd. - Google Sheets → cần xác thực OAuth2, phù hợp dữ liệu realtime.
Parser Layer – Biến dữ liệu thô thành DataFrame/JSON
Parser đóng vai trò “phiên dịch viên”. Dữ liệu từ file được chuẩn hóa để Agent có thể thao tác. Thông thường, developer sẽ:
- Loại bỏ giá trị NaN/null.
- Chuẩn hóa kiểu dữ liệu (ngày, số, chuỗi).
- Đặt lại tên cột để đồng bộ schema.
import pandas as pd
df = pd.read_csv("sales.csv")
df.columns = df.columns.str.lower().str.replace(" ", "_")
df["date"] = pd.to_datetime(df["date"], errors="coerce")
df.dropna(inplace=True)
Nếu bỏ qua bước này, các truy vấn sau đó có thể trả về kết quả sai lệch hoặc lỗi khi mapping schema.
Agent Core
Khi dữ liệu đã “sạch”, phần trung tâm (Agent Core) sẽ nhận câu hỏi từ người dùng và sinh code tương ứng. Các mô hình phổ biến:
- Pandas DataFrame Agent → dịch câu hỏi thành code Pandas.
- SQLDatabaseAgent → convert CSV/Excel sang SQLite và query bằng SQL.
AI Agent (kết hợp LLM như GPT hoặc Claude) sẽ xử lý ngôn ngữ tự nhiên, phân tích ý nghĩa, sinh câu lệnh phù hợp và trả kết quả. Developer không cần viết query thủ công, nhưng vẫn nhận được kết quả chính xác như chạy SQL/Pandas.
Query Execution
Ví dụ:
Input: “Top 5 khách hàng có tổng doanh thu cao nhất quý 3?”
→ AI Agent sinh code:
df.groupby("customer")["revenue"].sum().sort_values(ascending=False).head(5)
Security note:
- Cần sandbox môi trường thực thi (để tránh code injection).
- Dùng guardrail để ngăn lệnh nguy hiểm (drop, delete, os.*, v.v.).
Output Layer
Kết quả có thể là:
- Dữ liệu dạng bảng: DataFrame, JSON.
- Thống kê tổng hợp: sum, mean, count.
- Biểu đồ trực quan: matplotlib, seaborn, plotly.
Ví dụ:
import matplotlib.pyplot as plt
monthly_sales = df.groupby("month")["revenue"].sum()
monthly_sales.plot(kind="bar", title="Doanh thu theo tháng")
plt.show()
Người dùng chỉ cần hỏi “Vẽ biểu đồ doanh thu theo tháng”, agent sẽ tự sinh code, chạy và hiển thị biểu đồ.
Tích hợp thực tế: LangChain + Pandas DataFrame Agent
Một ví dụ phổ biến trong Python:
from langchain.agents import create_pandas_dataframe_agent
from langchain.llms import OpenAI
import pandas as pd
df = pd.read_excel("marketing_data.xlsx")
agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True)
print(agent.run("Chiến dịch nào có ROI cao nhất trong quý 3?"))
Chỉ vài dòng code, developer đã có một hệ thống Q&A thông minh trên Excel, tự sinh mã phân tích và trả kết quả tức thì.
Các bước triển khai cho developer
Bước 1: Làm sạch và chuẩn hóa dữ liệu
- Loại bỏ dữ liệu lỗi, NaN, null.
- Chuẩn hóa kiểu ngày (datetime).
- Đặt tên cột đồng nhất, không dấu, viết thường.

Bước 2: Tích hợp AI Agent
- Python: dùng pandas, openpyxl, tích hợp LangChain.
- Node.js: dùng xlsx, papaparse, và API từ OpenAI/Claude.
- Có thể xây thêm lớp middleware để mapping câu hỏi → query.
Bước 3: Mapping ngôn ngữ tự nhiên → Truy vấn
Agent parser sẽ phân tích câu hỏi, xác định cột liên quan, phép toán, rồi sinh code tương ứng.
Cần có sandbox/guardrail để ngăn thực thi code nguy hiểm.
Bước 4: Visualization
Thêm khả năng hiển thị biểu đồ giúp người dùng dễ nhận diện insight.
Có thể để agent tự generate mã vẽ chart bằng matplotlib hoặc plotly.
Kết luận
Khi được tích hợp đúng cách, AI Agent có thể trở thành công cụ phân tích CSV/Excel cực kỳ mạnh mẽ.
Thay vì viết hàng chục dòng SQL hay Pandas, giờ đây bạn chỉ cần hỏi: “Doanh thu quý 3 của từng khu vực là bao nhiêu?” Và nhận lại câu trả lời tức thì kèm biểu đồ trực quan.
Đây không chỉ là cải tiến năng suất, mà còn là bước tiến lớn trong tự động hóa phân tích dữ liệu cho doanh nghiệp.
Nguồn tham khảo: https://bizfly.vn/techblog/xu-ly-du-lieu-co-cau-truc-bang-ai-agent-tren-csv-excel.html
All rights reserved