ReinforcementLearningCore.jl

# ReinforcementLearningCore.AbstractExplorer — Type

RLBase.plan!(p::AbstractExplorer, x[, mask])

Определяет, как выбирается действие в зависимости от значений действий.

# ReinforcementLearningCore.AbstractHook — Type

Обработчик вызывается на различных этапах выполнения run, что позволяет пользователям вводить настраиваемую логику времени выполнения. По умолчанию обработчик AbstractHook ничего не делает. Его поведение можно настроить, реализовав следующие методы:

Base.push!(hook::YourHook, ::PreActStage, agent, env)
Base.push!(hook::YourHook, ::PostActStage, agent, env)
Base.push!(hook::YourHook, ::PreEpisodeStage, agent, env)
Base.push!(hook::YourHook, ::PostEpisodeStage, agent, env)
Base.push!(hook::YourHook, ::PostExperimentStage, agent, env)

В соответствии с соглашением реализован метод Base.getindex(h::YourHook), извлекающий нужные метрики. Пользователи могут комбинировать различные обработчики AbstractHook с помощью оператора +.

# ReinforcementLearningCore.AbstractLearner — Type

AbstractLearner

Абстрактный тип для обучателя.

# ReinforcementLearningCore.ActorCritic — Type

ActorCritic(;actor, critic, optimizer=Adam())

Часть actor должна возвращать логиты (не используйте softmax в последнем слое!), а часть critic — значение состояния.

# ReinforcementLearningCore.Agent — Type

Agent(;policy, trajectory) <: AbstractPolicy

Оболочка для AbstractPolicy. По сути, ее единственная задача — надлежащим образом обновлять траекторию и политику на различных этапах. Агент является вызываемым объектом. Его метод вызова принимает аргументы с переменным количеством и именованные аргументы, которые должны быть переданы в политику.

# ReinforcementLearningCore.BatchExplorer — Type

BatchExplorer(explorer::AbstractExplorer)

# ReinforcementLearningCore.BatchStepsPerEpisode — Method

BatchStepsPerEpisode(batchsize::Int; tag = "TRAINING")

То же, что и StepsPerEpisode, но для сред, возвращающих вектор (Vector) наград (типичный случай для MultiThreadEnv).

# ReinforcementLearningCore.CategoricalNetwork — Type

CategoricalNetwork(model)([rng,] state::AbstractArray [, mask::AbstractArray{Bool}]; is_sampling::Bool=false, is_return_log_prob::Bool = false)

CategoricalNetwork инкапсулирует модель (как правило, нейронную сеть), которая принимает состояние state и выводит логиты для категориального распределения. Необязательный аргумент mask должен содержать массив значений типа Bool того же размера, что и state, кроме первого измерения, которое должно быть той же длины, что и вектор действий. Действия, сопоставленные по маске с false, имеют логит, равный -Inf, и (или) нулевую вероятность выборки.

rng::AbstractRNG=Random.default_rng()
is_sampling::Bool=false — производится ли выборка из полученного нормального категориального распределения (возвращает объект z типа Flux.OneHotArray).
is_return_log_prob::Bool=false — должны ли возвращаться логиты (то есть ненормализованные логарифмические вероятности) получения выбранных действий в указанном состоянии.

Действует только в том случае, если is_sampling имеет значение true, и возвращает z, logits.

Если is_sampling = false, возвращает только логиты, полученные в результате простого прямого прохода по модели model.

# ReinforcementLearningCore.CategoricalNetwork — Method

(model::CategoricalNetwork)([rng::AbstractRNG,] state::AbstractArray{<:Any, 3}, [mask::AbstractArray{Bool},] action_samples::Int)

Производит выборку action_samples действий из каждого состояния. Возвращает трехмерный тензор с измерениями (action_size x action_samples x batchsize). Всегда возвращает логиты каждого действия в тензоре с теми же измерениями. Необязательный аргумент mask должен содержать массив значений типа Bool того же размера, что и state, кроме первого измерения, которое должно быть той же длины, что и вектор действий. Действия, сопоставленные по маске с false, имеют логит, равный -Inf, и (или) нулевую вероятность выборки.

# ReinforcementLearningCore.CovGaussianNetwork — Type

CovGaussianNetwork(;pre=identity, μ, Σ)

При вызове возвращает μ и Σ, где μ — среднее значение, а Σ — ковариационная матрица. В отличие от GaussianNetwork, выходные данные трехмерные. μ имеет измерения (action_size x 1 x batchsize), а Σ — измерения (action_size x action_size x batchsize). Голова Σ сети CovGaussianNetwork должна возвращать не непосредственно квадратную матрицу, а вектор длиной action_size x (action_size + 1) ÷ 2. Этот вектор содержит элементы верхнетреугольного разложения Холецкого ковариационной матрицы, которая затем воссоздается из него. Производит выборку из MvNormal.(μ, Σ).