به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:

برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.

سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.

لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید

لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.

بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید

اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

مشکل در استفاده از دیپ لرنینگ برای یادگیری سیاست یادگیری تقویتی

سلام
من یک سیستم نسبتا ساده (سیستم 3-تانک) دارم که میخوام با یادگیری عمیق کنترلش کنم یعنی Action من همون ورودی u باشه. با تولباکس متلب دارم کار میکنم و روش policy gradient. هم برای Actor و هم Critic از شبکه دیپ دارم استفاده میکنم اما مشکلم اینه که Actor یاد نمیگیره!!(Critic مشکلی نداره!) هرچقدر هم شبکه رو تغییر دادم و پارامترها رو دستکاری کردم و... باز هم درست train نشد. ممنون میشم اگر برای رفع مشکلم راهنمایی کنید.
(نمودار زرد مربوط به Critic ، نمودار آبی پاداش مربوط به هر اپیزود و نمودار نارنجی متوسط پاداش ها رو نشون میده)

سوال شده دی 11, 1399 توسط mohammad22 (100 امتیاز)
ویرایش شده دی 11, 1399 توسط mohammad22

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

...

دسته بندی ها

مشکل در استفاده از دیپ لرنینگ برای یادگیری سیاست یادگیری تقویتی

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

0 پاسخ

سوالات مشابه

دسته بندی ها

مشکل در استفاده از دیپ لرنینگ برای یادگیری سیاست یادگیری تقویتی

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

0 پاسخ