Документация Engee

Adam и AdaMax

Здесь приводятся сведения об Adam и AdaMax. Обратите внимание, что эти алгоритмы не используют алгоритмы линейного поиска, поэтому для получения достаточно быстрой сходимости в вашей конкретной задаче может потребоваться выполнить определенную настройку alpha.

Конструкторы

Adam(;  alpha=0.0001,
        beta_mean=0.9,
        beta_var=0.999,
        epsilon=1e-8)

где alpha является длиной шага или параметром обучения. beta_mean и beta_var представляют собой параметры убывания по экспоненте для оценок первого и второго моментов. Если задать их близкими к 0, прошлые итерации будут иметь меньшее значение для текущих шагов, а если задать их близкими к 1, прошлые итерации будут иметь большее значение. epsilon требуется изменять редко, он существует только для того, чтобы избежать деления на 0.

AdaMax(; alpha=0.002,
         beta_mean=0.9,
         beta_var=0.999,
         epsilon=1e-8)

где alpha является длиной шага или параметром обучения. beta_mean и beta_var представляют собой параметры убывания по экспоненте для оценок первого и второго моментов. Если задать их близкими к 0, прошлые итерации будут иметь меньшее значение для текущих шагов, а если задать их близкими к 1, прошлые итерации будут иметь большее значение.

Справочные материалы

Kingma, Diederik P., and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014).