سلام
توضیحات خوبی عزیزان دادن من هم یکسری نکات عرض میکنم
من یک مثال ساده میزنم شاید برای درک شهودی صحبتهایی که شده مناسب باشه.
اگر داده ها نرمال نشن داستان اونها رو همانند یک فردی در نظر بگیر که یک پاش خیلی بلند و یک پای دیگه خیلی کوتاهه.
این فرد قراره با یک فرد عادی به یک هدفی دست پیدا کنه و با هم مسابقه بدن.مسیر هم مسیر صاف و یکدستی نیست با کلی پیچ و خم و پستی و بلندی .
فردی که که پاش کوتاه و بلنده بنظر شما سریعتر میتونه حرکت کنه یا اون کسی که متوازنه ؟ فرد عادی خیلی راحت شروع میکنه به راه رفتن و میتونه براحتی شروع به دویدن کنه(نرخ یادگیری بالاتر). اما فرد اول این امکان براش نیست. با برداشتن یک گام مسیر خیلی کم و یا مسیر خیلی طولانی طی میشه یعنی خیلی مواقع پیش میاد که از مسیر خارج میشه به همین خاطر و دوباره باید به مسیر"قبلی" برگرده و مسیر جدیدی رو ادامه بده. بعضا بخاطر همین تواتر در خروج از مسیر مجبوره عطای گام بلند رو به لقاش ببخشه و کشان کشان روی زمین به ادامه پیشروی بپردازه. دویدن هم میسر نیست چون حتی بر فرض ممکن بودن براحتی با اون گام های بلند از مسیر خارج میشه چون امکان هماهنگی بین گامها نیست.
همین اتفاق در داده ها هم رخ میده . اسکیل های متفاوت باعث میشن یک وزن مقدارش خیلی بزرگتر و دیگری خیلی کوچکتر باشه این باعث میشه زمان زیادی طول بکشه تا همگرایی صورت بگیره چون یک مسیر نامتوازن طی میشه
از طرف دیگه زمانی که شکل شما نرمالسازی رو انجام میدید مقادیر دارای اسکیل های یکسان یا نزدیک به هم میشن به همین ترتیب تاثیرات متوازنتر و همگرایی به مراتب سریعتر اتفاق می افته وقتی هم همگرایی تسریع بشه یعنی شما خیلی زودتر به جواب میرسید یعنی اگر سابقا مثلا طی 20 ایپاک به یک دقت ایکس میرسیدید الان ممکنه طی 10 یا 15 ایپاک به همون دقت برسید.
به همین دلیل هم تاثیرات مقداردهی اولیه کاهش پیدا میکنه و همینطور استفاده از نرخ یادگیری بزرگتر اینجا ممکنه اما در قبل این امکان وجود نداشت .
نکته اضافی:
وقتی صحبت از توزیع داده میشه بحث سر این هست که فرکانس رخداد وقایع مختلف (مقادیر)در داده های ما به چه صورتی هست و ما چه مقادیری انتخاب کنیم که فرکانس رخداد اونها همانند اون چیزی باشه که در داده ما وجود داره. اگر مقادیر غیر استفاده کنیم یعنی به اطلاعات اماری داده های خودمون توجهی نکردیم و در انتها هم جوابی که بدست میاد معرف داده ما نیست.
حالا چرا به این شکل؛ واریانس به این صورت و شکل اصطلاحا گوسی (مثل ناقوس)؟ دلیلش اینه که توزیع تعداد زیادی از وقایع طبیعی به این شکل هست یعنی اکثر وقایع طبیعی دارای توزیع نرمال یا اصطلاحا گوسی(یا نزدیک به اون) هستند. در امار و علوم طبیعی و(و همینطور علوم مهندسی مثل کارما) و... هم خیلی زیاد استفاده میشن (برای مدل کردن متغیرهای تصادفی مستقل ازهم ، زمانی هم متغییرهای تصادفی نیاز باشه که توزیعش نامشخص باشه از این توزیع استفاده میکنند.
نکته جالب اینجاست که حتی برای مواردی که توزیع اصلی چیز دیگه ای بوده و از توزیع نرمال استفاده کردن نتیجه رضایت بخشی گرفتن! و بخاطر این موارد هست که از این نوع توزیع استفاده میشه.
برای اطلاعات تکمیلی در این مورد و مواردی که من گفتم میتونید توزیع نرمال و قضیه حد مرکزی یا این و این رو مطالعه کنید.
امیدوارم با این مثال درک بهتری از اتفاقی که رخ میده رو پیدا کرده باشید