سلام
covariate shift بخاطر عملیات ضربی که بین توده ورودی با فیلترها انجام میشه بوجود میاد.
از واریانس و میانگین برای نرمالسازی استفاده میشن .
پارامتر بتا و گاما برای scale و shift استفاده میشن در کفی من یادم میاد بخش نرمالسازی با بخش scale جدا شده بود و تاثیر scale رو میشد براحتی دید . با اینکار بعنوان مثال شما دیگه با مشکل saturationg graident و یا exploding graident مواجه نمیشد .
فکر میکنم به میزان 30 درصد افزایش زمان اموزش نسبت به زمانی که از این استفاده نکنیم داشتیم (البته اینو از قدیم یادم میاد الان باید دوباره تست کنید چون بهینه سازی های مختلف و... داستان رو تغییر میده ) و اینکه چقدر دقت افزایش پیدا میکنه فقط به این بستگی نداره خیلی از پارامترها دخیل هستن اما این لایه همگرایی رو تسریع میکنه و باعث دقت بهتر میشه(البته در شبکه های عمیق خودشون نشون میده در شبکه های کم عمق شاید اصلا محسوس نباشه اونم بخاطر زیاد نبودن بحث covariate shift هست)
من بعنوان جواب نزدم اینو چون اگر بزنم باید به بقیه سوالها هم جواب بدم و فرصت نیست. اگر چیزی بود اینجا بگو سر فرصت توضیح بیشتر میدم انشاءالله