بچ نرمالیزیشن

Question

سلام
دوستانی که به معماری های دیپ تسلط کافی دارند لطف کنند بفرمایید معایب و مزایای این لایه رو ذکر کنند و در حال حاضر بیشتر استفاده میشه یا خیر ؟ چرا ؟
همانطور که میدانیم توزیع داده هامون shift پیدا میکنه در بین این همه حجم محاسباتی که در شبکه های عمیق داریم حال اگر در حال حاضر استفاده نمیشود پس به جای این چه لایه ایی یا ایده ایی بکار میبرند ؟ بنظر من اگر استفاده نشود از یه طرف نمیتونیم شبکه رو عمیق تر کنیم و از یه طرف واقعا سرعت همگرایی یا تریننیگ افت پیدا میکند و شاید دقت هم ، با این حساب به جای این چه ایده ایی بکار برده شده ؟

Alister · Answer 1 · 2017-11-14T19:02:00+0000

در سال 2015، لوف و همکاران batch normalization را معرفی کردند. در پروسه آموزش با گرادیان نزولی تصادفی ، دسته های کوچک نمونه های آموزش با توجه به میانگین و واریانس آنها نرمال میشن ،این امر باعث میشود نرون ها ،ورودی با توزیع مختلف در هر گام آموزش دریافت نکنند. این تکنیک به اندازه وزن ها حساس نیست در نتیجه میتوان از توابع فعال سازی اشباع پذیر مانند Sigmoid و Tanh بدون نگران بودن در مورد پدیده ناپدید شدن گرادیان نیز استفاده کرد.
Batch norm در واقع نیز مثل یه تکنیک regularization عمل میکنه (یه جورایی به دلیل اعمال نویز در سطح شبکه)
آموزش به مقدار دهی اولیه وزنها و نرخ یادگیری ،کمتر حساس هست و میتوان مقدار آن را افزایش داد . در نهایت با استفاده از این تکنیک سرعت آموزش پنج برابر سریعتر میشود و دقت را 2 درصد افزایش میدهد.

اما این تکنیک هر چند مزایای بسیاری داره اما مشکلاتی رو نیز داره که در ادامه چند تاشو میگم
به عنوان مثال در حین اجرای پروسه آموزش در صورتی که اندازه minibatch کوچیک باشه تاثیر batch norm کاهش پیدا میکنه و مواردی از این دست که در این مقاله بهش اشاره شده.

این مقاله یه متد به نام Batch Renormalization رو معرفی کرد.

از طرفی هنگامی که ما از batch norm در کنار تابع فعال ساز ELU در معماری RESNET استفاده میکنیم ، میتونه کارایی این مدل رو کاهش بده

کار دیگر :معرفی virtual batch normalization در این مقاله

چرا باید از sigmoid استفاده کرد؟ حتی از نظر بیولوژیک هم relu رفتار بهتری از sigmoid داره
اینم در نظر نگیریم، مشکل سریع اشباع شدنش توی دو طرف طیف یه نقطه ضعف اساسی محسوب میشه
به جز بحثی که آقای حسن پور در مورد سربار محاسباتی گفتن، یکی دیگه از مشکلاتش اینه که وابسته به دیتاسته، که این مشکل هم توی layer normalization سعی شده که حل بشه
در مورد حساسیت هم حرفتون درسته، یعنی وقتی bn استفاده بشه، کمتر نگران این هستیم که مثلا یه جوری مقداردهی اولیه داشته باشیم که نورونها توی بازه خوش رفتار خودشون بمونن و ....
بسته به ساختار شبکه میشه نرخ یادگیری رو هم افزایش داد، اما با همون نرخ قبلی هم بر اساس چیزایی که توی مقاله اصلی بحث شده و توی عمل هم می تونید ببینید، همگرایی شبکه سریعتر میشه — alireza.nrzi, دی 11, 1395
چرا وابسته به دیتاست هست ؟ منظورتون اینکه میانگین و واریانس ممکن است از دیتاستی به دیتاست دیگه فرق داشته باشه ؟ اگر اینطوری باشه تعداد بچ سایز هم تاثیر باید داشته باشه — DeeepNet, دی 11, 1395
بله چون مقادیر میانگین و واریانس از هر mini batch بدست میاد که معمولا رندوم به دست میان
در نتیجه دیتاست و ترتیب و سایز mini batchها هم در هنگام training و هم در تست (به خاطر running average ی که از training به دست میاد) تاثیر گذاره
البته این موضوع خودش یه علت اینه که batch normalization تاثیر regularization داره
البته اینم بگم که با وجود این بحث وابستگی به دیتاست و minibatch،ایده layer normalization هنوز به خوبی batch normalization توی شبکه کانولوشنی کار نمی کنه — alireza.nrzi, دی 11, 1395

دسته بندی ها

بچ نرمالیزیشن

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

بچ نرمالیزیشن

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید