سلام
در مورد شبکه های عصبی فعلی و الگوریتم های متداولی که استفاده میشه، از ساده ترین هاش مثل sgd+momentum تا الگوریتم های یکم پیچیده تر مثل AdaDelta یا Adam، همشون دارن تلاش می کنن که همین کارو بکنن و به یه نحوی، مستقیم یا غیر مستقیم، learning rate رو به صورت adaptive تغییر بدن
نکته دیگه اینه که تازه همه این چیزا توی خانواده الگوریتم های مبتنی بر گرادیان مرتبه اولن و کلی الگوریتم دیگه هست که از مرتبه های بالاتر استفاده می کنه، نمونه هاییش که الان توی شبکه های عصبی استفاده بشه شاید ازمعروفتش L-BFGS باشه که توی بعضی از کارهای style transfer یا visualization عملکرد شبکه ها استفاده میشه
https://en.wikipedia.org/wiki/Limited-memory_BFGS
اینا مدلها بیشتر مبتنی بر روش نیوتن و استفاده از ماتریس هسین و اینجور اطلاعات و تخمین های مرتبه دوم هستن
از کارهای دیگه بگم، مقاله های زیادی هم روی این زمینه تعیین یا adaptive کردن گام هست
مثلا این مقاله:
No More Pesky Learning Rates
https://arxiv.org/pdf/1206.1106.pdf
این فیلد فوق العاده گستردس و به خاطر اهمیتش، خیلی خیلی روش کار شده و هنوزم کار میشه. توی این زمینه اگه مقالات کنفرانس COLT رو دنبال کنید خیلی مطالب خوب و جالبی بدست میارید. معمولا کلاس و سطح مطالب هم خیلی بالاتر از استفاده صرف از شبکه یا تغییرات معماریه. مقالات امسالش رو می تونید از اینجا ببینید
http://proceedings.mlr.press/v65
الان همه بحث ما توی شبکه های عصبی یا یه جوری مرتبط با کارهای هوش مصنوعی و یادگیری بود، اما بهینه سازی اینقدر موضوع مهم و گسترده ایه که خودش به طور محض سالها جای کار داره و بهتره اگه در زمینه جدی می خواید کار کنید یکی از کتابها در زمینه بهینه سازی پیوسته رو بخونید (بحث بهینه سازی گسسته مثل net flow و بحثهای ترکیبیاتی خیلی فرق داره)
برای بهینه سازی پیوسته نظر شخصی من اینه که این کتاب خیلی ساده و راحت مطالب رو توضیح داده و خوب جا انداخته
Numerical Optimization از انتشارات اشپرینگر
http://www.springer.com/gp/book/9780387303031
اگه خیلی وقت خوندشنش رو ندارید و می خواید فقط یه دید کلی خوب به دست بیارید از الگوریتم هایی که الان توی یادگیری عمیق زیاد ازش استفاده میشه، توصیه میکنم فصل 3 ام که در مورد الگوریتم های line search ه رو بخونید