Adam и AdaMax
Конструкторы
Adam(; alpha=0.0001,
beta_mean=0.9,
beta_var=0.999,
epsilon=1e-8)
где alpha
является длиной шага или параметром обучения. beta_mean
и beta_var
представляют собой параметры убывания по экспоненте для оценок первого и второго моментов. Если задать их близкими к 0, прошлые итерации будут иметь меньшее значение для текущих шагов, а если задать их близкими к 1, прошлые итерации будут иметь большее значение. epsilon
требуется изменять редко, он существует только для того, чтобы избежать деления на 0.
AdaMax(; alpha=0.002,
beta_mean=0.9,
beta_var=0.999,
epsilon=1e-8)
где alpha
является длиной шага или параметром обучения. beta_mean
и beta_var
представляют собой параметры убывания по экспоненте для оценок первого и второго моментов. Если задать их близкими к 0, прошлые итерации будут иметь меньшее значение для текущих шагов, а если задать их близкими к 1, прошлые итерации будут иметь большее значение.