شبکه های عصبی معمولی دارای لایه ی loss با تعداد خروجی ثابت هستند, درصورتی که شما نیاز داشته باشید که خروجیتون تعداد متغییری باشد یا اصطلاحا یک sequence از خروجی ها باشد باید از شبکه های عصبی recurrent استفاده کنید مثل RNN یا LSTM ها البته با لایه های convolution. اما این نوع تشخیص شی خیلی معمول نیست و استفاده نمیشود, یکی از روش های خوب و SOA فعلی YOLO هست.در روش YOLO کل تصویر در یک لحظه به شبکه عصبی داده می شود, و خروجی شبکه احتمال حضور شی در هریک از قسمت های تصویر هست (تصویر با یک grid به چندین قسمت تقسیم شده) که با اعمال یک threshold آبجکت های موجود شناسایی می شوند که با این روش تعداد شی های موجود در تصویر ورودی که تشخیص داده می شوند نامحدود هست.