من یه چیزی رو متوجه نمیشم. فرضا ما سه کلمه ی "this is a" رو به شبکه میدیم میخوایم کلمه بعدی رو پیش بینی کنه. برای هر کدوم از این کلمه ها ما یه بردار داریم که یه المان 1 داره و بقیش صفره. این سه تا بردار رو که با هم نمیدیم به شبکه درسته؟ اینا ارتباطشون با استپ زمانی چطوریه؟ توی فرضا t یه بردار رو میدیم توی t+1 یه بردار و ... ؟ یا که این سه کلمه باید همزمان به شبکه داده بشن؟ بعد طول شبکه چقد باید باشه؟