این نکته رو هم بد نیست بدونید که این تابع فقط اینطوری نبوده که چون بهتر از sigmoid هستش استفاده بشه
و در بعضی از شبکهها پایه تئوری داره و در حقیقت تقریب اینه که شما بی نهایت سیگموید رو با شیفتهای مختلف در فضا با هم جمع کنید که اگه اشتباه نکنم در حالت حدی به تابع softplus می رسید که تابع مشتق پذیر کامل همین ReLu هستش