به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

سلام
من یک سیستم نسبتا ساده (سیستم 3-تانک) دارم که میخوام با یادگیری عمیق کنترلش کنم یعنی Action من همون ورودی u باشه. با تولباکس متلب دارم کار میکنم و روش policy gradient. هم برای Actor و هم Critic از شبکه دیپ دارم استفاده میکنم اما مشکلم اینه که Actor یاد نمیگیره!!(Critic مشکلی نداره!) هرچقدر هم شبکه رو تغییر دادم و پارامترها رو دستکاری کردم و... باز هم درست train نشد. ممنون میشم اگر برای رفع مشکلم راهنمایی کنید.
(نمودار زرد مربوط به Critic ، نمودار آبی پاداش مربوط به هر اپیزود و نمودار نارنجی متوسط پاداش ها رو نشون میده)

توسط (100 امتیاز)
ویرایش شده توسط

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

...