سلام
من یک سیستم نسبتا ساده (سیستم 3-تانک) دارم که میخوام با یادگیری عمیق کنترلش کنم یعنی Action من همون ورودی u باشه. با تولباکس متلب دارم کار میکنم و روش policy gradient. هم برای Actor و هم Critic از شبکه دیپ دارم استفاده میکنم اما مشکلم اینه که Actor یاد نمیگیره!!(Critic مشکلی نداره!) هرچقدر هم شبکه رو تغییر دادم و پارامترها رو دستکاری کردم و... باز هم درست train نشد. ممنون میشم اگر برای رفع مشکلم راهنمایی کنید.
(نمودار زرد مربوط به Critic ، نمودار آبی پاداش مربوط به هر اپیزود و نمودار نارنجی متوسط پاداش ها رو نشون میده)