سلام
وقتی شبکه در فازforward-pass هست یعنی اینکه مسیر حرکت از ابتدای شبکه به انتهای شبکه هست ( جریان رو به جلو ) در این فاز هدف این هست که وقتی تصاویر ورودی به شبکه fed شدند و طبق برچسب هایی که برای اون تصاویر هست خطایی طبق تابع lost function حساب شود که مشخص شود خروجی مد نظر چقدر از Ground Truth (یا همان برچسب یا label ) فاصله دارد . و این خروجی طبق یکسری پارامترهایی مثله وزن ها و بایاس ها ( همان فیلترها ) و .... که شبکه دارد بدست میاد که همان تابع lost function به شبکه اعلام میکند که طبق این پارامترها چقدر خطا داری خب مسلما اگر خطا زیاد باشد یا اینکه بیشتر از مدنظر باشد باید اون پارامترها آپدیت بشوند حال این فرایند آپدیت طبق الگوریتم هایی مبتنی بر گرادیان نزولی صورت میگیرد یعنی حالا برعکس قبل ، جریانی از انتهای شبکه به ابتدای شبکه عبور میکند که این جریان همان gradient میباشد یعنی این گرادیان هست که پارامترهای شبکه رو آپدیت میکند حال اگر گرادیان به هرنحوی نتواند به لایه های ابتدایی شبکه عبور کند این مفهوم یعنی گرادیان از اون لایه ها به بعد صفر شده ، این یعنی دیگر پارامترهای شبکه از اون لایه به بعد دیگر آپدیت نمیشوند این یعنی دیگر پارامترهای بهینه برای اون لایه ها بدست نمی آید .
حال در resnet که میبینید اون مسیرهایی که بدون لایه هستند چون resnet یه شبکه بسیار عمیق هست بنابراین اگر طبق ایده های قبلی این شبکه عمیق تر میشد مطمعنا vanishing gradient رخ میداد چون لایه ها اینقدر زیاد شدند که بلاخره بعد از چندین لایه به بعد دیگر گرادیان به صفر میل میکند ( همان vanishing gradient رخ میدهد )
vanishing gradient یعنی اینکه گرادیان به صفر میل کرده دیگر آپدیت پارامترها از یک لایه به بعد صورت نمیگیرد