0% found this document useful (0 votes)

12 views

Q Learning

Uploaded by

vivekanshi42

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views

Q Learning

Uploaded by

vivekanshi42

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 12

Q-learning

Watkins, C. J. C. H., and

Dayan, P., Q learning,
Machine Learning, 8: 279-292
(1992)
Q value
When an agent take action at in state st at time t,
the predicted future rewards is defined as Q(st,at).


Q ( st , at )  E rt 1  rt  2   2 rt 3   3 rt  4   
Example)
a3t
Q3(st,at)=0 a2t
Q2(st,at)=1

…
rt rt+1 rt+1
st st+1 st+2
a1t at+1 at+2
Q1(st,at)=2
Generally speaking, an agent should take action a1t
because the corresponding Q value Q1(st,at) is max.
Q learning
First, Q value can be transformed as follows.
Q ( st , at ) E rt 1  rt 2   2 rt 3   3 rt 4  
 k 
E   rt k 1  ①
 k 0 

 
E rt 1     rt k 2 
k

 k 0 
Ert 1  Q ( st 1 , at 1 ) ( ① )

As a result, the Q value at time t is easily calculated

by rt+1 and Q value of the next step.
Q learning
Q values is updated every step.

When an agent take action at in state st,

and gets reward r, the Q value is updated as
follows.
Q ( st , at ) Q( st , at )   r   max a Q( st 1 , a )  Q( st , at )

target value current value

TD error

α: step size parameter (learning rate)

Q learning algorithm

Initialize Q(s,a) arbitrarily

Repeat (for each episode):
initialize s
Repeat (for each step of episode):
Choose a from s using policy derived from Q
(e.g., greedy, ε-greedy)
take action a, observe r, s’
Q ( s, a ) Q( s, a )   r   max a ' Q ( s ' , a ' )  Q( s, a )

s←s’;
until s is terminal
n- step return (reward)
1 step
(Q-learning) 2 step n step Monte Carlo
initial state
(time t)
….. …..
Complete experience based method

Boot-strapping
Rt(1) rt 1  Qst 1 , at 1 
Rt( 2 ) rt 1   rt 2   2Qst 2 , at 2 
.
.
.

..
…
action
Terminal state
state Rt( n ) rt 1   rt 2     n  1rt n   nQst n , at n  (time T)
Rt rt 1   rt 2     n  1rt n     T  t  1rT
n- step return (reward)
Q ( st 1 , at 1 )

E rt 1  rt 2   rt 3   rt 4  
2 3

E r t 1
2 n

 rt 2   rt 3     Q ( st n , at n )


E rt 1  rt 2   2Q ( st 2 , at 2 ) 
E r t 1 
  Q ( st 1 , at 1 )
λ-return (trace-decay parameter)
1 step 2 step 3 step n step Monte Carlo

weight
….. …..
1 

 1   
1     n 1
1
n 1

.
.
.
1   2

..
…
λ-return

R t
( )
1    n  1 Rt( n )
n 1
T  t 1 1   t  1
1     n  1 Rt( n )  T  t  1 Rt T  t  1
n 1
λ-return (trace-decay parameter)

3-step return
Eligibility trace and Replacing trace
Eligibility and Replacing traces is useful to calculate the
n-step return
These traces show how often each state is visited.

Eligibility trace replacing trace

et  1 ( s ) ( s st ) et  1 ( s ) ( s st )
et (s )  et (s ) 
et  1 ( s )  1 ( s st ) 1 ( s st )

Eligibility trace

Replacing trace
Q(λ) algorithm
Q-learning
Q ( st , at ) Q( st , at )   r   max a Q( st 1 , a )  Q ( st , at )

Q(λ) with replacing trace

 r   max a Q ( st 1 , a )  Q ( st , at )
current value
target value

et ( st ) 1 st at St+1
for all s,a

Q ( s, a ) Q ( s, a )  e( s, a ) Q (st ,at)

e( s ) es, a 
Q(λ) algorithm
Initialize Q(s,a) arbitrarily and e(s,a)=0, for all s, a
Repeat (for each episode):
Initialize s, a
Repeat (for each step):
take action a, observe r, s’
choose a’ from s’ using policy derived from Q (e.g., ε-greedy)
a*←arg maxb Q(s’,b) (if a’ ties for the max, then a*←a’)
δ←r+γQ(s’,a*)-Q(s,a)
e(s,a)←1
for all s, a:
Q(s,a)←Q(s,a)+αδe(s,a)
If a’=a*, then e(s,a)←γλe(s,a)
else e(s,a)← 0
s←s’; a←a’
until s is terminal

Intro to Reinforcement Learning - DQ Q AC A3C
No ratings yet
Intro to Reinforcement Learning - DQ Q AC A3C
36 pages
RL Class Mtech
No ratings yet
RL Class Mtech
67 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
6 pages
New CZ3005 Module 5 - Reinforcement Learning
No ratings yet
New CZ3005 Module 5 - Reinforcement Learning
31 pages
Q Learning
No ratings yet
Q Learning
9 pages
10. Learning Task
No ratings yet
10. Learning Task
14 pages
MAS-Lab7-QFA
No ratings yet
MAS-Lab7-QFA
10 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
11 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
CZ3005 Module 5_Reinforcement Learning(1)
No ratings yet
CZ3005 Module 5_Reinforcement Learning(1)
31 pages
unit-5
No ratings yet
unit-5
65 pages
7- Reinforcement Learning
No ratings yet
7- Reinforcement Learning
23 pages
S18 Reinforcement Learning 2
No ratings yet
S18 Reinforcement Learning 2
46 pages
Rule-based Reinforcement Learning augmented by External Knowledge
No ratings yet
Rule-based Reinforcement Learning augmented by External Knowledge
7 pages
Intro To Reinforcement Learning
No ratings yet
Intro To Reinforcement Learning
56 pages
Some Thoughts On Reinforcement Learning: 1 Motivation
No ratings yet
Some Thoughts On Reinforcement Learning: 1 Motivation
9 pages
Reinforcement Learning: Instructor: Max Welling
No ratings yet
Reinforcement Learning: Instructor: Max Welling
18 pages
Report p1
No ratings yet
Report p1
7 pages
p1 Piotr
No ratings yet
p1 Piotr
7 pages
Hota-ML-ReinforcementLearning
No ratings yet
Hota-ML-ReinforcementLearning
12 pages
ML - Unit 3 - Part II
No ratings yet
ML - Unit 3 - Part II
51 pages
Q Learning Ejemplo
100% (1)
Q Learning Ejemplo
11 pages
39-Q Learning Numerical
No ratings yet
39-Q Learning Numerical
13 pages
37 RL
No ratings yet
37 RL
18 pages
Reinforcement Learning: EEE 485/585 Statistical Learning and Data Analytics
No ratings yet
Reinforcement Learning: EEE 485/585 Statistical Learning and Data Analytics
15 pages
Q Learning
No ratings yet
Q Learning
38 pages
21 - Reinforcement Learning
No ratings yet
21 - Reinforcement Learning
25 pages
AI (IT) UNIT-5
No ratings yet
AI (IT) UNIT-5
43 pages
Q Learning SARSA Deep Q Learning
No ratings yet
Q Learning SARSA Deep Q Learning
4 pages
DD2431 Machine Learning Lab 4: Reinforcement Learning Python Version
No ratings yet
DD2431 Machine Learning Lab 4: Reinforcement Learning Python Version
9 pages
Shobitha As
No ratings yet
Shobitha As
8 pages
AI A Z HandBook
No ratings yet
AI A Z HandBook
12 pages
Fundamentals of Reinforcement Learning
No ratings yet
Fundamentals of Reinforcement Learning
33 pages
Filippov Theory On Infinitesimal Epsilon-Greedy Q-Learning
No ratings yet
Filippov Theory On Infinitesimal Epsilon-Greedy Q-Learning
66 pages
Smooth Q-Learning - Accelerate Convergence
No ratings yet
Smooth Q-Learning - Accelerate Convergence
7 pages
RL Theory Tutorial
No ratings yet
RL Theory Tutorial
80 pages
Q Learning
No ratings yet
Q Learning
38 pages
Reinforcement Learning: 1 Updated Lecture Slides of Machine Learning Textbook, C Tom M. Mitchell, Mcgraw Hill, 1997
No ratings yet
Reinforcement Learning: 1 Updated Lecture Slides of Machine Learning Textbook, C Tom M. Mitchell, Mcgraw Hill, 1997
20 pages
Unit 5d - Deep Reinforcement Learning
No ratings yet
Unit 5d - Deep Reinforcement Learning
52 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
12 pages
112 Q Learning N
100% (1)
112 Q Learning N
15 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
9 pages
8200 Non Delusional Q Learning and Value Iteration
No ratings yet
8200 Non Delusional Q Learning and Value Iteration
11 pages
7.reinforcement Learning-Introduction-The Learning Task Q-Learning
No ratings yet
7.reinforcement Learning-Introduction-The Learning Task Q-Learning
34 pages
Q-Learning in RL With Openai Gym: Joo Soon Lee
No ratings yet
Q-Learning in RL With Openai Gym: Joo Soon Lee
34 pages
A Painless Q-Learning Tutorial
No ratings yet
A Painless Q-Learning Tutorial
6 pages
Unit 1
No ratings yet
Unit 1
18 pages
Convergence of Q-Learning PDF
No ratings yet
Convergence of Q-Learning PDF
4 pages
Lec 09
No ratings yet
Lec 09
26 pages
L13 Reinforcement Learning
No ratings yet
L13 Reinforcement Learning
35 pages
Rl Dp and Value and Policy
No ratings yet
Rl Dp and Value and Policy
4 pages
Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
No ratings yet
Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
14 pages
Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
No ratings yet
Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
14 pages
13-RL DRL
No ratings yet
13-RL DRL
102 pages
SP14 CS188 Lecture 10 - Reinforcement Learning I
No ratings yet
SP14 CS188 Lecture 10 - Reinforcement Learning I
35 pages
CS480 Lecture November 21st
No ratings yet
CS480 Lecture November 21st
193 pages
16 RL
No ratings yet
16 RL
51 pages
RL
No ratings yet
RL
6 pages
Sweet Baby Dresses in Crochet: 4 Dresses in Sizes Newborn to 24 Months, with Matching Accessories
From Everand
Sweet Baby Dresses in Crochet: 4 Dresses in Sizes Newborn to 24 Months, with Matching Accessories
Lisa Naskrent
4/5 (2)
DSA Company Wise
No ratings yet
DSA Company Wise
25 pages
Containers: Types of Containers: 1. Sequential Containers 2. Associative Containers 3. Derived Containers
No ratings yet
Containers: Types of Containers: 1. Sequential Containers 2. Associative Containers 3. Derived Containers
3 pages
Comparative of Advanced Sorting Algorithms Quick Sort Heap Sort Merge Sort Intro Sort Radix Sort Based On Time and Memory Usage
No ratings yet
Comparative of Advanced Sorting Algorithms Quick Sort Heap Sort Merge Sort Intro Sort Radix Sort Based On Time and Memory Usage
7 pages
A hash table.docx
No ratings yet
A hash table.docx
42 pages
BFS & DFS Answers
No ratings yet
BFS & DFS Answers
2 pages
Chapter 3 - Huffman Coding
No ratings yet
Chapter 3 - Huffman Coding
123 pages
Topic 3 - Heap and Priority Queue
No ratings yet
Topic 3 - Heap and Priority Queue
78 pages
STQP2034 Tutorial 2
No ratings yet
STQP2034 Tutorial 2
4 pages
Slides 4 - Minimization Problem
No ratings yet
Slides 4 - Minimization Problem
6 pages
Data Mining - Rule Based Classification
No ratings yet
Data Mining - Rule Based Classification
3 pages
VTU ADA Lab Programs
No ratings yet
VTU ADA Lab Programs
31 pages
Program 1: Write A Program To Perform Insertion Sort
No ratings yet
Program 1: Write A Program To Perform Insertion Sort
30 pages
FB Prep Handbook
No ratings yet
FB Prep Handbook
6 pages
The Big M Method
No ratings yet
The Big M Method
28 pages
Design & Analysis of Algorithm
No ratings yet
Design & Analysis of Algorithm
35 pages
Cheat Code Booklet For Alevel P4-Python New
No ratings yet
Cheat Code Booklet For Alevel P4-Python New
69 pages
Matlab Example
No ratings yet
Matlab Example
11 pages
Assignment 2
No ratings yet
Assignment 2
12 pages
LAB ASSIGNMENT RECORD of DSA
No ratings yet
LAB ASSIGNMENT RECORD of DSA
8 pages
Google - LeetCode
100% (1)
Google - LeetCode
29 pages
AI LAB ASSIGNMENT-1(22BCE20065)
No ratings yet
AI LAB ASSIGNMENT-1(22BCE20065)
16 pages
Unit 4 Part 3
No ratings yet
Unit 4 Part 3
6 pages
Daa Bits
100% (1)
Daa Bits
44 pages
Chapter Five: Stack and Queues
No ratings yet
Chapter Five: Stack and Queues
40 pages
Newton's Form of Interpolation
No ratings yet
Newton's Form of Interpolation
34 pages
Integer Linear Programming: Management Science
No ratings yet
Integer Linear Programming: Management Science
14 pages
Level 4
No ratings yet
Level 4
3 pages
Trees - Data Structures
100% (1)
Trees - Data Structures
146 pages
Design and Analysis of Algorithms Important Questions - 2024
No ratings yet
Design and Analysis of Algorithms Important Questions - 2024
5 pages
Artificial Variables: V O Thomas
No ratings yet
Artificial Variables: V O Thomas
19 pages

Q Learning

Uploaded by

Q Learning

Uploaded by

Q-learning

Watkins, C. J. C. H., and

As a result, the Q value at time t is easily calculated

When an agent take action at in state st,

target value current value

α: step size parameter (learning rate)

Initialize Q(s,a) arbitrarily

Eligibility trace replacing trace

Q(λ) with replacing trace

Q ( s, a ) Q ( s, a )  e( s, a ) Q (st ,at)

You might also like