فهمیدم قضیه رو
با این حساب فرق نسخه اولیه با فست چیه ؟ هردوتاشون از الگوریتم selective search استفاده میکنند دیگه که بنظر من هم مشکل کار در معماری همین قسمت هست . چون حجم محاسباتی بالایی دارد و به اصلاح time-consuming هست .
و اینکه وقتی به نسخه فست ٍ end-to-end گفته میشود بنظرم باید این قسمت selective search حذف شود
یه سوال دیگه : اینکه به ازای هر عکس 2000 بار شبکه forward-pass انجام میشود از لحاظ ترین شبکه خوب نیست ؟ ( حالا جدا از سرعت که خیلی کند میشود )