0

Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó (Nắng AI v47)

Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó.

Ở bài trước (Sunny AI lv5), tôi đã build một autonomous agent:

  • Tự chia task
  • Tự sửa lỗi khi code fail (self-healing)
  • Có tool guard để tránh hành động sai

Chạy hoàn toàn local với model 3B.

Nhưng sau khi dùng một thời gian, tôi nhận ra một vấn đề:

«Agent làm được việc — nhưng hành vi không ổn định.»

Vấn đề

Agent có thể:

  • hoàn thành task
  • sửa lỗi
  • chạy end-to-end

Nhưng:

  • có lúc trả lời lan man
  • có lúc lặp lại
  • có lúc “làm quá” yêu cầu

Nói cách khác:

«Nó làm được, nhưng không “ngoan”.»

Ý tưởng

Thay vì tiếp tục nâng cấp agent, tôi thử một hướng khác:

«Không thay đổi cách nó làm việc → mà thay đổi cách nó “cư xử”»

Lưu ý (quan trọng)

v47 không phải là phiên bản nâng cấp trực tiếp từ lv5.

Tôi không mang toàn bộ hệ thống agent sang.

Thay vào đó, tôi tách riêng một phần nhỏ để tập trung vào behavior:

  • bỏ planner
  • bỏ tool execution
  • giữ lại vòng lặp core: → evaluation → reflection → adjustment

Mục tiêu:

«đơn giản hóa hệ thống để kiểm tra liệu có thể kiểm soát hành vi mà không cần toàn bộ agent hay không.»


Kiến trúc

Một layer mới:

LLM → Behavior Loop

Flow:

LLM → Output → Self-Eval → Reflection → Adjust → Next Output

Các thành phần chính

  • self_evaluator.py → chấm điểm output mỗi turn
  • reflection.py → phân tích output vừa rồi
  • latent_adapter.py → điều chỉnh trạng thái hành vi (không can thiệp vào weights, mà thay đổi generation parameters hoặc “persona ngắn hạn” trong system prompt dựa trên reflection)
  • metrics.py → theo dõi sự thay đổi

Điểm khác biệt

Lv5:

  • sửa lỗi khi fail

v47:

  • điều chỉnh ngay cả khi không fail

Ví dụ

  • câu trả lời quá ngắn → trừ điểm
  • lặp từ → trừ điểm
  • sai “vai” → trừ điểm

→ turn sau thay đổi hành vi


Demo

1000006951.jpg

  • action: calm
  • output còn khá chung chung

1000006952.jpg

  • action chuyển warm
  • câu trả lời bắt đầu “mềm” hơn

1000006953.jpg

  • consistency giảm
  • nhưng eval tăng
  • system cố điều chỉnh cách trả lời

1000006950.jpg

  • action chuyển concerned
  • output ngắn hơn, trực tiếp hơn

Trong quá trình thử nghiệm, hệ thống mất khoảng 1–2 turn để nhận diện sự thay đổi trong thái độ của user và điều chỉnh action (từ calm sang warm hoặc concerned).

Độ trễ gần như bằng không do toàn bộ pipeline chạy local.

Đây có phải Reinforcement Learning không?

Không.

  • không training
  • không update weights
  • không backprop

Nhưng có:

  • evaluation
  • reward
  • feedback loop

→ gần với một dạng:

«runtime behavior shaping»

Điều thú vị

Tôi không thay đổi model.

Tôi chỉ:

  • quan sát output
  • chấm điểm
  • điều chỉnh

Và hành vi bắt đầu thay đổi.

Toàn bộ pipeline này chạy ổn định trên model 3B local.

Ngay cả với vòng lặp:

evaluation → reflection → adjustment

system vẫn phản hồi mượt.

Điều này cho thấy không cần model lớn vẫn có thể làm behavior shaping ở runtime.

Vấn đề mở

  • đây có phải learning thật không?
  • hay chỉ là biasing nâng cao?
  • có scale được không?

Consistency và eval score có xu hướng hội tụ sau vài turn, nhưng chưa ổn định hoàn toàn.

Repo

https://github.com/canhdien69-tech/Nang-AI-runtime-behavior

Kết

Lv5 giúp agent làm việc.

v47 bắt đầu khiến nó “cư xử”.

Tôi không chắc đây là hướng đúng.

Nhưng nó đáng để thử.


Hướng tiếp theo

Hiện tại system mới dừng ở mức điều chỉnh behavior theo từng turn.

Một số hướng tôi đang nghĩ tới:

  • giữ trạng thái hành vi qua nhiều turn (short-term memory)
  • giảm generic response bằng penalty rõ hơn
  • thử cho behavior ảnh hưởng trực tiếp vào decision layer
  • kiểm tra xem loop này có ổn định khi chạy dài không

Chưa rõ hướng nào thực sự hiệu quả.

Nhưng mục tiêu vẫn là:

«kiểm soát được hành vi mà không cần train model.»

Một hướng đang nghĩ tới

Nếu lv5 là phần “làm việc” và v47 là phần “cư xử”

thì câu hỏi tiếp theo là:

điều gì xảy ra nếu hai thứ này chạy cùng nhau?

  • agent vừa làm task
  • vừa tự điều chỉnh hành vi theo từng bước

Tức là không chỉ sửa lỗi khi fail, mà còn điều chỉnh cách nó hành động trong quá trình làm việc.

Chưa rõ điều này sẽ giúp agent ổn định hơn hay chỉ làm hệ thống phức tạp thêm.

Nhưng đây có thể là bước tiếp theo.

Source code: https://github.com/canhdien69-tech/Nang-AI-runtime-behavior
License: CC BY-NC 4.0


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí