صفر شدن مقادیر فعالسازی لایه ها در شبکه کانولوشن

Question

با سلام من در شبکه عمیق به این مشکل خورده ام که بعضی از لایه های یادگیری من صفر هستش علتشو میخواستم بپرسم که چرا این اتفاق می افتد.

این تصویر بعد از عمیلات زیر است
conval + rule + pool

enter image description here

علیرضا فروزنده نژاد · Answer 1 · 2017-03-12T18:32:47+0000

با این اطلاعات نمیشه به شکل دقیق مشکل را تشخیص داد اما مشکل شما احتمالا مربوط میشه به استفاده از تابع فعال سازی Relu. تابع Relu برای ورودی های کمتر از ۰ دارای مقدار ۰ و شیب ۰ هست به همین دلیل امکان داره نورون شما توسط Solver وزن منفی بگیره و به همین دلیل ورودی هاش منفی بشه پس همیشه خروجی صفر خواهد داشت و به علت شیب صفر توانایی خروج از این حالت را ندارد. به این حالت اصطلاحا مرگ نورون ها گفته میشه و نورون به طور کلی در تعلیم شبکه غیرفعال میشه.
enter image description here

برای حل این مشکل افزونه هایی برای Relu بوجود آمدند مثل Leaky Relu یا Parametric Relu.
اولی که در شکل بالا مشخص هست برای مقادیر منفی شیب کمی بوجود میاره تا درصورتی که نورون ورودی منفی پیدا کرد به کلی از بین نره و هنوز هم توانایی انتقال شیب کم و مشارکت در تعلیم را داشته باشه.
دومی شکل پیشرفته تری از Leaky Relu هست که شیب را برای مقادیر منفی توسط پارامتری تعیین میکنه که این پارامتر در هنگام تعلیم شبکه عصبی یادگرفته میشه.
البته راه حل های جزیی دیگه ای هم برای حل مشکل شما وجود داره مثل استفاده از learning rate پایین تر.

ممنون بابت این راهنمایی خوبتون من وقتی این حالت رو انجام دادم درست شد تغریبا و تعداد صفرهای خیلی کمی پیدا کرده ام. ایا این مشکل می تواند دردسر ساز باشد برای لایه های بیشتر؟ چون من الان فقط یک لایه کانوال زدم و یک لایه پول وقتی اینها رو دوبار تکرار میکنم یعنی دوتا کانوال ئ تا پول همگرایی سیستم اتفاق نمی افتد! — Parcham, دی 11, 1395
بستگی به دیتاست و معماری شبکه و هایپر پارامتر هاتون دارد — علیرضا فروزنده نژاد, دی 11, 1395
دیتاست من همون اعداد دست نویس هستش و من خودم کد زدم از تولباکسی استفاده نکردم. اگر بشه بیشتر توضیح بدین. — Parcham, دی 11, 1395
دیتاست mnist هست؟ خودتون لایه های شبکه عصبی و Solver را پیاده سازی کردید؟ — علیرضا فروزنده نژاد, دی 11, 1395
اره همین دیتاسته.
اره خودم پیاده سازی کردم.
الان مشکل من با روشی اقای فروزنده گفت حل شد ولی اگر باز پارامترهای دیگری دخیل هستش توضیح بدن تا این مشکل پیش نیاد و اینکه مقدار این ضرب الفا در الگوریتم relu چقدر باشه و چه میزان و اینکه نرخ یادگیری مناسب به چه صورتی تنظیم میشه توضیح بدین خیلی ممنون دوستان. — Parcham, دی 11, 1395
نظرتون در مورد این عکس چیه که در لایه 4 یعنی
conv+relu+pool+conv+relu+pool

http://www.axgig.com/images/09769348653932035585.jpg — Parcham, دی 11, 1395
ضریب آلفا معمولا ۱ هست ولی بعضی وقتا مقادیر دیگه هم استفاده میشه برحسب تجربه, learning rate هم بهتره در ابتدا مقداری مثل ۰.۰۰۱ انتخاب بشه و در هر مرحله کاهش پیدا کنه. — علیرضا فروزنده نژاد, دی 11, 1395
به نظر من عدد یک که نمیتونه باشه اگر باشه مثل x میشه. بچه نظرتون رو هم درمورد عکس دوم هم بگید ممنون. — Parcham, دی 11, 1395
در ELU عدد پیشفرض ۱ هست (درمقاله رفرنس)
در PRELU هم قابل یادگیری هست
در Leaky RELU هم ۰.۰۱ پیشفرض هست. — علیرضا فروزنده نژاد, دی 11, 1395

دسته بندی ها

صفر شدن مقادیر فعالسازی لایه ها در شبکه کانولوشن

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

صفر شدن مقادیر فعالسازی لایه ها در شبکه کانولوشن

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید