Đã đăng vào thg 3 30, 2:12 SA 5 phút đọc

Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó (Nắng AI v47)

Tôi không train model. Nhưng tôi bắt đầu kiểm soát được hành vi của nó.

Ở bài trước (Sunny AI lv5), tôi đã build một autonomous agent:

Tự chia task
Tự sửa lỗi khi code fail (self-healing)
Có tool guard để tránh hành động sai

Chạy hoàn toàn local với model 3B.

Nhưng sau khi dùng một thời gian, tôi nhận ra một vấn đề:

«Agent làm được việc — nhưng hành vi không ổn định.»

Vấn đề

Agent có thể:

hoàn thành task
sửa lỗi
chạy end-to-end

Nhưng:

có lúc trả lời lan man
có lúc lặp lại
có lúc “làm quá” yêu cầu

Nói cách khác:

«Nó làm được, nhưng không “ngoan”.»

Ý tưởng

Thay vì tiếp tục nâng cấp agent, tôi thử một hướng khác:

«Không thay đổi cách nó làm việc → mà thay đổi cách nó “cư xử”»

Lưu ý (quan trọng)

v47 không phải là phiên bản nâng cấp trực tiếp từ lv5.

Tôi không mang toàn bộ hệ thống agent sang.

Thay vào đó, tôi tách riêng một phần nhỏ để tập trung vào behavior:

bỏ planner
bỏ tool execution
giữ lại vòng lặp core: → evaluation → reflection → adjustment

Mục tiêu:

«đơn giản hóa hệ thống để kiểm tra liệu có thể kiểm soát hành vi mà không cần toàn bộ agent hay không.»

Kiến trúc

Một layer mới:

LLM → Behavior Loop

Flow:

LLM → Output → Self-Eval → Reflection → Adjust → Next Output

Các thành phần chính

self_evaluator.py → chấm điểm output mỗi turn
reflection.py → phân tích output vừa rồi
latent_adapter.py → điều chỉnh trạng thái hành vi (không can thiệp vào weights, mà thay đổi generation parameters hoặc “persona ngắn hạn” trong system prompt dựa trên reflection)
metrics.py → theo dõi sự thay đổi

Điểm khác biệt

Lv5:

sửa lỗi khi fail

v47:

điều chỉnh ngay cả khi không fail

Ví dụ

câu trả lời quá ngắn → trừ điểm
lặp từ → trừ điểm
sai “vai” → trừ điểm

→ turn sau thay đổi hành vi

Demo

action: calm
output còn khá chung chung

action chuyển warm
câu trả lời bắt đầu “mềm” hơn

consistency giảm
nhưng eval tăng
system cố điều chỉnh cách trả lời

action chuyển concerned
output ngắn hơn, trực tiếp hơn

Trong quá trình thử nghiệm, hệ thống mất khoảng 1–2 turn để nhận diện sự thay đổi trong thái độ của user và điều chỉnh action (từ calm sang warm hoặc concerned).

Độ trễ gần như bằng không do toàn bộ pipeline chạy local.

Đây có phải Reinforcement Learning không?

Không.

không training
không update weights
không backprop

Nhưng có:

evaluation
reward
feedback loop

→ gần với một dạng:

«runtime behavior shaping»

Điều thú vị

Tôi không thay đổi model.

Tôi chỉ:

quan sát output
chấm điểm
điều chỉnh

Và hành vi bắt đầu thay đổi.

Toàn bộ pipeline này chạy ổn định trên model 3B local.

Ngay cả với vòng lặp:

evaluation → reflection → adjustment

system vẫn phản hồi mượt.

Điều này cho thấy không cần model lớn vẫn có thể làm behavior shaping ở runtime.

Vấn đề mở

đây có phải learning thật không?
hay chỉ là biasing nâng cao?
có scale được không?

Consistency và eval score có xu hướng hội tụ sau vài turn, nhưng chưa ổn định hoàn toàn.

Repo

https://github.com/canhdien69-tech/Nang-AI-runtime-behavior

Kết

Lv5 giúp agent làm việc.

v47 bắt đầu khiến nó “cư xử”.

Tôi không chắc đây là hướng đúng.

Nhưng nó đáng để thử.

Hướng tiếp theo

Hiện tại system mới dừng ở mức điều chỉnh behavior theo từng turn.

Một số hướng tôi đang nghĩ tới:

giữ trạng thái hành vi qua nhiều turn (short-term memory)
giảm generic response bằng penalty rõ hơn
thử cho behavior ảnh hưởng trực tiếp vào decision layer
kiểm tra xem loop này có ổn định khi chạy dài không

Chưa rõ hướng nào thực sự hiệu quả.

Nhưng mục tiêu vẫn là:

«kiểm soát được hành vi mà không cần train model.»

Một hướng đang nghĩ tới

Nếu lv5 là phần “làm việc” và v47 là phần “cư xử”

thì câu hỏi tiếp theo là:

điều gì xảy ra nếu hai thứ này chạy cùng nhau?

agent vừa làm task
vừa tự điều chỉnh hành vi theo từng bước

Tức là không chỉ sửa lỗi khi fail, mà còn điều chỉnh cách nó hành động trong quá trình làm việc.

Chưa rõ điều này sẽ giúp agent ổn định hơn hay chỉ làm hệ thống phức tạp thêm.

Nhưng đây có thể là bước tiếp theo.

Source code: https://github.com/canhdien69-tech/Nang-AI-runtime-behavior
License: CC BY-NC 4.0