如何用python实现可列折扣马尔科夫决策过程实例的构造 - 编程论坛

东海ECS2023-03-01 19:12

以下是代码:

程序代码：

import numpy as np

# 初始化状态转移矩阵
transition_matrix = np.array([[0.7, 0.3],
                             [0.4, 0.6]])

# 初始化折扣矩阵
discount_matrix = np.array([[0.1, 0.2],
                            [0.3, 0.4]])

# 初始化状态值函数
state_value_function = np.array([[0, 0],
                                 [0, 0]])

# 迭代更新状态值函数
while True:
    new_state_value_function = np.zeros((2, 2))
    for i in range(2):
        for j in range(2):
            new_state_value_function[i, j] = discount_matrix[i, j] + np.sum(transition_matrix[i, j] * state_value_function[i, :])
    if np.sum(np.abs(state_value_function - new_state_value_function)) < 1e-4:
        break
    state_value_function = new_state_value_function

# 输出状态值函数
print(state_value_function)

希望对你有帮助!