ReLU関数の特徴

現在、tanh関数に変わってよく使われているのが、ReLU（Rectified Linear Unit）関数である。
f:id:itry:20190210153858p:plain
ReLU関数ではxが0より大きければ、微分値は常に最大値である1が得られることがわかる。
tanh関数では最大値が1、となるため、このことからも誤差逆伝播の際に勾配が消失しにくいことがわかる。
ReLU関数によって、ディープニューラルネットワーク全体の学習効率が向上したといえる。

ただし、xが0以下の場合は、微分値も0になるため、学習がうまくいかないケースもある、ということに注意しなくてはいけない。

また、RuLU関数にはいくつか派生系関数が存在し、その中の一つに、Leaky ReLU関数がある。
Leaky ReLU関数の特徴は、ReLU関数に比べ、わずかな傾きを持っている、ということだ。
この傾きによって、xが0以下の場合においても、微分値が0になることがなくなる。
つまり、理論上は、ReLU関数よりも勾配消失が起きにくい、ということになる。
しかし、実際にはReLUの方が精度がよいケースもあり、どちらが優れているとも決め切ることができない。

さらに、Leaky ReLUの傾きを更に最適化しようとした、Parametric ReLU関数や、複数の傾きをランダムに試すRandmized ReLU関数などもあるが、いずれも、どれが最も優れているか、ということを一概に言うことができない。