پس ما توی یک لایه یه تعداد نرون داریم مثلا 200تا و یک بردار از یک سری اعداد که به صورت sequential میدیم به شبکه مثلا 10تا درسته؟ از cell اول شروع میشه و میره جلو. مثل kernel توی CNN?
و یه سوال دیگه: زمانیکه ما فرضا یک batch ده تایی از کلمات میدیم به شبکه کدوم خروجیش پیش بینی میکنه و کلمه چندم رو؟ 11ام رو یا اول رو؟