سلام
در تصاویر علاوه بر وابستگی پیکسل ها بطور سطری آنها بطور ستونی هم به همدیگه وابسته اند پس اگر از مدلی استفاده کنیم که این دو وابستگی را بهتر یاد بگیره بهتر میشه ویژگی ها رو استخراج کرد. شبکه های convolutional از فیلتر هایی با ابعاد مثلا 3*3 یا n x n استفاده می کنند و این یعنی وابستگی سطری و ستونی پیکسل ها در لایه اول و همچنین وابستگی ویژگی های سطح بالاتر در لایه های بالاتر در نظر گرفته می شود. البته در لایه های بالاتر بعلت استفاده از لایه max-pooling از قدرت یادگیری وابستگی مکانی ویژگی ها کاسته می شود. (که میشه گفت جز معایب این شبکه ها هستش) بعبارت دیگه در لایه های انتهایی شبکه مجموعه ای از ویژگی ها رو میبینه که براش مهم نیست از کجای تصویر امده و بر حسب این ويژگی ها کلاسبندی رو انجام میده که در بعضی کاربردها اصلا خوب نیست و لازمه بدونیم ويژگی از کجای تصویر امده.
ولی شبکه های بازگشتی برای یادگرفتن ويژگی ها در طول زمان (یا هرمیعار ترتیبی دیگر) طراحی شده اند و این شبکه ها میتوانند ويژگیهای کوتاه مدت و بلند مدت را در طول زمان یاد بگیرند. البته از این گونه مدل ها هم میتوان در تصاویر استفاده کرد ولی کارایی کمتری دارند.