منابع زیادی برای پادگیری این نوع معماری ها( detection object ) وجود داره که بهترین اونا همون کورس استنفورد هستش و همچنین مطالعه report هایی که در پایان این درس در سال 2017 و 2016 در سایت قرار داده شده .
پیشنها میکنم این لکچر که توسط Ross B. Girshick ارایه شد رو نیگاه کنید.
معماری هایی (R-CNN , …) جزء الگوریتم های تشخیص اشیاء دو مرحله ای هستند (این معماری ها در واقع دقیق ترین معماری های کنونی هستند اما مشکل بزرگ سرعت پایین اوناست) در حالی که معماری هایی مثل YOLO و SSD جزء الگوریتم های یک مرحله ای هستند که نسبت به معماری های دو مرحله ای از سرعت به مراتب خیلی بالاتر و معماری ساده تری برخوردار هستند.به نظر من وقت گذاشتن برای الگوریتم های دو مرحله ای مثل R-CNN زیاد منطقی به نظر نمیرسه ، پیشنهاد من اینه که یه خلاصه از این معماری ها رو یاد بگیرید و برید به سمت SSD. در لینکهای زیر خلاصه ای از تمامی معماری ها آورده شده:
1)RCNN,…
2)Single Shot detectors
3)YOLO
4)Multibox Single Shot Detector (SSD)
در پایان مقاله ای که اخیرا منتشر شده رو نیز مطالعه کنید:
Focal Loss for Dense Object Detection
این مقاله در مورد تغییر شکل تابع هزینه cross-entropy هستش.در مقاله ذکر میشه که Focal loss بر روی دیتابیس هایی که دارای کلاس های نامتوازن هستند بهتر عمل میکنه. پیشنهاد میکنم از این تابع هزینه بر روی SSD استفاده کنید.