Reinforcementlearning Tag

Reinforcementlearning Tag - Viblo https://viblo.asia/rss Sun* Inc. https://viblo.asia/logo_full.svg https://viblo.asia/logo_full.svg Reinforcementlearning Tag - Viblo https://viblo.asia/rss vi-vn 2026-07-01T18:22:15+07:00 <![CDATA[Nhập môn Reinforcement Learning: Kỷ nguyên Deep RL - Phá đảo Discrete với DQN và Continuous với DDPG]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-ky-nguyen-deep-rl-pha-dao-discrete-voi-dqn-va-continuous-voi-ddpg-OXLA08PaJGr https://viblo.asia/p/nhap-mon-reinforcement-learning-ky-nguyen-deep-rl-pha-dao-discrete-voi-dqn-va-continuous-voi-ddpg-OXLA08PaJGr Trần Đăng An 2026-07-01 10:10:47 <![CDATA[Nhập môn Reinforcement Learning: Continuous Control và Thuật toán REINFORCE (Policy Gradient)]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-continuous-control-va-thuat-toan-reinforce-policy-gradient-Nj4vgwrdJ6r https://viblo.asia/p/nhap-mon-reinforcement-learning-continuous-control-va-thuat-toan-reinforce-policy-gradient-Nj4vgwrdJ6r Trần Đăng An 2026-07-01 09:58:36 <![CDATA[Nhập môn Reinforcement Learning: SARSA, Q-Learning và khái niệm On-policy vs Off-policy]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-sarsa-q-learning-va-khai-niem-on-policy-vs-off-policy-1j4lQoRGJwl https://viblo.asia/p/nhap-mon-reinforcement-learning-sarsa-q-learning-va-khai-niem-on-policy-vs-off-policy-1j4lQoRGJwl Trần Đăng An 2026-07-01 09:33:04 <![CDATA[Nhập môn Reinforcement Learning: Monte Carlo Methods và Temporal-Difference (TD) Learning]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-monte-carlo-methods-va-temporal-difference-td-learning-gdJzv57eJz5 https://viblo.asia/p/nhap-mon-reinforcement-learning-monte-carlo-methods-va-temporal-difference-td-learning-gdJzv57eJz5 Trần Đăng An 2026-06-30 21:33:51 <![CDATA[Nhập môn Reinforcement Learning: Dynamic Programming (Quy hoạch động)]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-dynamic-programming-quy-hoach-dong-Nj4vgwzdJ6r https://viblo.asia/p/nhap-mon-reinforcement-learning-dynamic-programming-quy-hoach-dong-Nj4vgwzdJ6r Trần Đăng An 2026-06-30 21:24:57 <![CDATA[Nhập môn Reinforcement Learning: Policies, Value Functions và Bellman Equations]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-policies-value-functions-va-bellman-equations-lZL9XWbMJQK https://viblo.asia/p/nhap-mon-reinforcement-learning-policies-value-functions-va-bellman-equations-lZL9XWbMJQK Trần Đăng An 2026-06-30 21:17:40 <![CDATA[Nhập môn Reinforcement Learning: Finite Markov Decision Processes (MDP)]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-finite-markov-decision-processes-mdp-gdJzv573Jz5 https://viblo.asia/p/nhap-mon-reinforcement-learning-finite-markov-decision-processes-mdp-gdJzv573Jz5 Trần Đăng An 2026-06-30 21:09:39 <![CDATA[Nhập môn Reinforcement Learning: Các kỹ thuật Bandit nâng cao & Giới thiệu MDP]]> https://viblo.asia/p/nhap-mon-reinforcement-learning-cac-ky-thuat-bandit-nang-cao-gioi-thieu-mdp-bA468Q3lLKv https://viblo.asia/p/nhap-mon-reinforcement-learning-cac-ky-thuat-bandit-nang-cao-gioi-thieu-mdp-bA468Q3lLKv Trần Đăng An 2026-06-30 20:54:31