اگه همون 1 درصد ما با یه لوکال مینیمم واقعی سرو کار پیدا کنیم (یعنی لوکال مینیممی که تو همه ابعاد لوکال مینیمم باشه نه فقط چندتا بعد) اونوقت این یعنی این لوکال مینیممه خیلی به گلوبال مینیمم نزدیکه و بخاطر همین خیلی نزدیک بودن دیگه مهم نیست که ما تو لوکال مینیمم هست.
تو یکی از اون لینکهایی که دادم خیلی خوب توضیح داده " اگه یک بعد داشته باشیم یک نقطه هست که با احتمال p میتونه مینیمم محلی باشه و نه سراسری. حالا اگه 1000 بعد داشته باشیم احتمال اینکه یک نقطه در یک فضای 1000 بعدی برای همه ابعاد یه مینیمم محلی باشه P ^1000 هست! که یه عدد فوق العاده کوچیکه.البته احتمال مینیمم محلی بودن تو بعضی از این ابعاد بخیلی الا هم هست. برای همین وقتی یکدفعه ما به یه لوکال مینیمم تو تعداد زیادی از ابعاد میرسیم بنظر میاد آموزش گیر کرده و پیش نمیره تا زمانی که بتونه جهت درست رو پیدا کنه .
مضافا اینکه احتمال p با نزدیکتر شدن مقدار Loss به مقدار مینیمم سراسری افزایش پیدا میکنه و اینم یعنی اینکه اگه ما واقعا تو یه مینیمم محلی واقعی بیوفتیم اونوقت دیگه اصلا مهم نیست چون این مینیمم محلی خیلی به مینیمم سراسری نزدیکه و هیچ مشکلی برای ما ایجاد نمیکنه .
3تا لینک هست که تو لینکهای بالا ارجاع دادن در این رابطه شاید خوندنش برای شما مطالب تازه ای داشته باشه :
http://arxiv.org/abs/1405.4604
http://arxiv.org/abs/1406.2572
http://arxiv.org/abs/1412.0233