سلام
فکر کنم تو سایت یا تو سوالهای قبلی جواب داده شده باشه به این سوال
اما بطور خلاصه باید بگم روشهای مختلفی طی این سه چهار سال اخیر براش عرضه شده . مهمترین اونها استفاده از RELU بود بجای سیگموید. بعد از اون هم بچ نرمالیزیشن.
relu تو مقاله الکس کریژوسکی دوباره مطرح شد سال 2012 (اگه اشتباه نکرده باشم سال 2009 قبلا معرفی شده بود مطمئن نیستم ولی محبوب سازی و گسترشش بعد از الکس نت اتفاق افتاد) و بچ نرمالیزیشن هم اگه اشتباه نکرده باشم اوایل 2015 توسط گوگل بنام Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
بعد از اون هم میشه به مقالات highway این مقاله دو بخشیه یکی بنام (Highway Networks و یکی دیگه بنام Training Very Deep Networks هست که البته تو همون مقاله اول ارجاع به دومی هست) و چند ماه بعدش مقاله Residual Net مایکروسافت اشاره کرد(Deep Residual Learning for Image Recognition) که با روشهایی (که البته با استفاده ازدستاوردهای قبلی بود ) معماری های خیلی عمیقی رو اموزش دادن و بعنوان مثال معماری مایکروسافت تونست برنده تمامی رقابتهای ImageNet تو سال 2015 بشه . تو سال 2016 هم این دستاوردها خیلی زیاد استفاده شدن .
اموزش ویدئویی دانشگاه استنفورد خیلی خوبه و بطور خاص این موضوع رو تو همون لکچر های اول توضیح میده بصورت مبسوط