domdomegg/qlearning.js

## qlearning.js
const input = {
	learningRate: 0.1,
	discountFactor: 0.95,
	initialQ: {},
	moves: [
		{ start: 's17', action: 'right', reward: 0, finish: 's18' },
		{ start: 's18', action: 'up', reward: 10, finish: 's14' },
		{ start: 's14', action: 'right', reward: -4, finish: 's15' },
		{ start: 's23', action: 'up', reward: 0, finish: 's18' },
		{ start: 's18', action: 'up', reward: 0, finish: 's13' },
		{ start: 's13', action: 'right', reward: 10, finish: 's14' },
	]
}

const Q = {};

input.moves.forEach(({ start, action, reward, finish }) => {
	Q[start] = Q[start] || {};
	Q[start][action] = Q[start][action] || 0;

	Q[start][action] += input.learningRate * (reward - Q[start][action] + input.discountFactor * (Math.max(0, ...Object.values(Q[finish] || {}))))
});

console.log(Q);
	const input = {
	learningRate: 0.1,
	discountFactor: 0.95,
	initialQ: {},
	moves: [
	{ start: 's17', action: 'right', reward: 0, finish: 's18' },
	{ start: 's18', action: 'up', reward: 10, finish: 's14' },
	{ start: 's14', action: 'right', reward: -4, finish: 's15' },
	{ start: 's23', action: 'up', reward: 0, finish: 's18' },
	{ start: 's18', action: 'up', reward: 0, finish: 's13' },
	{ start: 's13', action: 'right', reward: 10, finish: 's14' },
	]
	}

	const Q = {};

	input.moves.forEach(({ start, action, reward, finish }) => {
	Q[start] = Q[start] \|\| {};
	Q[start][action] = Q[start][action] \|\| 0;

	Q[start][action] += input.learningRate * (reward - Q[start][action] + input.discountFactor * (Math.max(0, ...Object.values(Q[finish] \|\| {}))))
	});

	console.log(Q);