ممنون از راهنماییتون.
داده ی آموزش برای خروجی از کجا تامین میشه؟داده ی ورودی، تصویر صفحه ی بازی و جایزه ای هست که عامل گرفته ولیlabel خروجی برای ورودی چطوری بدست می آید؟و اینکه آیا ابتدا بازی سمت امولاتور انجام میشه و به اضای هر عمل انتخابی،جایزه و تصویر بدست می آید و توی یک دیتاست جمع می کنیم و سپس شبکه را بدون ارتباط با امولاتور و با داده های جمع آوری شده آموزش میدیم؟چیزی که متوجه شدم درسته؟
ممنون