Fast-RCNN and Faster RCNN

Question

سلام
دوستانی که object detection کار کردند لطف کنند در مورد این دو معماری توضیح دهند
در مدل فست وقتی که میاد از شبکه کانالوشن برای تولید فیچرها استفاده میکند اون لایه سیاه رنگی که تو عکس هست همان لایه آخر کانالوشن هست یا یک بلوک دیگه هست ؟
لطفا توضیح بیشتری در مورد این دو معماری بدهید

enter image description here

hamed_mohebbi · Answer 1 · 2017-08-09T11:38:26+0000

یه توضیح مختصر از R-CNN عادی:
1- یه سری ناحیه کاندید وجود شی از تصویر استخراج میشه با روشی مثل selective search (مثلا برای یه عکس ممکنه 2000 تا و برای یه عکس دیگه 500 تا ناحیه ممکنه استخراج بشه)
2- این ناحیه ها resize میشن به سایز استاندار ورودی شبکه (مثلا 400 در 400)
3- هر کدوم از این ناحیه ها مستقلا به شبکه داده میشن و شبکه در مورد هر کدوم از نایحیه ها مستقلا تصمیم میگیره
این یعنی تو فاز تست برای یه عکس مثلا 2000 بار شبکه forward pass میشه!!
حالا در مورد سواتون مربوط به نسخه fast و faster:
اون لایه سیاه خروجی آخرین لایه کانولوشن قبل از ROI pooling هستش. مثلا اگه آخرین لایه کانولوشن 512 تا فیلتر داشته باشه و مثلا سایز مکانیش (ارتفاع و پهناش) 40 در 40 باشه اون لایه feature map سایزش 40 در 40 در 512 (عمق 512) خواهد بود. توی نسخه fast ابتدا با روشی مثل selective search ناحیه هایی که کاندیدای وجود شی هستن استخراج میشن (ناحیه ها مستطیلی هستن) و محل یا مپینگ این ناحیه ها تو لایه feature map بدست میاد. سایز هر کدوم از این ناحیه ها متفاوت میتونه باشه در نتیجه خروجی هر کدوم از این ناحیه ها رو با یه لایه به نام ROI pooling به یک سایز ثابت (مثلا 7 در 7 در 512) مپ میکنند. توجه کنید که برای هر کدوم از این نهاحیه ها عمق همشون ثابت و مثلا 512 هستش و فقط سایز مکانیشون متفاوته. خروجی لایه ROI pooling هم به یه سری لایه fc وصل میشه و در نهایت به یه لایه طبقه بندی و یک لایه رگرسیون وصل میشه.
برای نسخه faster هم پروسه شبیه fast هستش. فقط به جای این که انخاب ناحیه های کاندید وجود شی با روشهای کلاسیک مثل selective search باشه با روش مبتنی بر شبکه عصبی هستش (برای استفاده از مزیت پردازش یکپارچه در gpu).
در نسخه faster برای انخاب region proposals یا همون ناحیه های کاندید وجود شی دوباره از یک شبکه کانولوشنی جدا به نام RPN استفاده میشه. پروسش هم این طوریه که توی خروجی feature map یه سری پنجره به طول ثابت انتخاب میشن (مثلا 3 در 3) و خروجی این پنجره به یک لایه fc وصله که مثلا 512 تا نورون خروجی داره و در نتیجه یه ویژگی 512 بعدی از هر پنجره بدست میاد. خروجی این 512 بعدی هم به یک لایه طبقه بند دو کلاسه (وجود یا عدم وجود شی) و یک رگرسیون (برای اصلاح bounding box) وصل میشه.
فقط نکته ای که هست برای انتخاب ناحیه از feature map از روشی به نام anchor box استفاده میکنن که در مقاله تعداد 9 anchor box استفاده شده (در 3 سایز و 3 aspect ratio). نحوه استفاده از این رویکرد رو تو مقاله توضیح داده و من اگه بخوام توضیح بدم باید تقریبا مقاله رو اینجا دوباره نویسی کنم. ولی به طور خلاصه برای هر کدوم از این 9 تا anchor box رگرسیون و طبقه بندی جدا انجام میشه (یعنی head مربوط به رگرسیون RPN تعداد 9*4 تا نورون داره).
اما این که RPN رو چه طور به fast RCNN ملحق کنن تو خود مقاله سه تا رویکرد گفته که ساده ترینیش اینه که اول RPN رو مستقل ترین کنیم و بعدش از شبکه ترین شده برای انتخاب ناحیه کاندید fast R-CNN استفاده کنیم و بعدش Fast R-CNN رو ترین کنیم.

فهمیدم قضیه رو
با این حساب فرق نسخه اولیه با فست چیه ؟ هردوتاشون از الگوریتم selective search استفاده میکنند دیگه که بنظر من هم مشکل کار در معماری همین قسمت هست . چون حجم محاسباتی بالایی دارد و به اصلاح time-consuming هست .
و اینکه وقتی به نسخه فست ٍ end-to-end گفته میشود بنظرم باید این قسمت selective search حذف شود
یه سوال دیگه : اینکه به ازای هر عکس 2000 بار شبکه forward-pass انجام میشود از لحاظ ترین شبکه خوب نیست ؟ ( حالا جدا از سرعت که خیلی کند میشود ) — DeeepNet, دی 11, 1395
تو نسخه فست به جای این که 2000 ناحیه رو جدا به کل شبکه بده میاد عکس اصلی رو به شبکه میده و ناحیه ها رو تو لایه feature map جدا میکنه در نتیجه کل محاسبات مربوط به لایه های کانولوشن (قبل از feature map) فقط یک بار انجام میشه و کلی در زمان صرفه جویی میشه.
selective search تو نسخه faster حذف شده.
ترین R-CNN یکم با تست فرق داره. تو ترین از حالت batch mode استفاده میشه (مثلا با سایز 128). همچنین برای انتخاب این 128 تا ناحیه یا سمپل نیز تمهیداتی در نظر میگیرن. مثلا ناحیه های اطراف لبه تصاویر رو ممکنه تو ترین تاثیر ندن. — hamed_mohebbi, دی 11, 1395
"تو نسخه فست به جای این که 2000 ناحیه رو جدا به کل شبکه بده میاد عکس اصلی رو به شبکه میده و ناحیه ها رو تو لایه feature map جدا میکنه در نتیجه کل محاسبات مربوط به لایه های کانولوشن (قبل از feature map) فقط یک بار انجام میشه و کلی در زمان صرفه جویی میشه. "
حالا در نسخه فست عکس اصلی رو به شبکه cnn دادند بعدش باید از selective search استفاده کنند ( برای جدا سازی نواحی ) درسته ؟ یعنی جای selective search و شبکه cnn رو عوض کردند ؟ — DeeepNet, دی 11, 1395

Mohsen Fayyaz · Answer 2 · 2017-08-08T11:50:54+0000

حالا در فستر لایه proposals ، جدا از واحد شبکه کانالوشن می باشد ؟ اگه واحد جداگونه هست این لایه پروپوزالز از چه لایه هایی تشکیل شده ؟ همون لایه های کانالوشن و پولینگ و ... ؟
و یک سوال دیگه : در r-cnn که برای پورپوزال ها از روش selective search استفاده میکنیم همان طور که این هم 2000 ناحیه پورپوزل ارائه میدهد حال همان طور که گفته میشه بصورت pipeline شبکه های کانالوشن برای این 2000 نواحی قرار داده میشود در اینجا یعنی 2000 تا شبکه کانالوشن برای هر ناحیه قرار داده می شود یا اینکه این 2000 تا ناحیه بصورت بچ به چند دسته تقسیم میشود و به تعداد این دسته ها شبکه کانالوشن برای استخراج ویژگی قرار داده میشود ؟

دارای دیدگاه دی 11, 1395 توسط DeeepNet (389 امتیاز)
ویرایش شده دی 11, 1395 توسط DeeepNet

دسته بندی ها

Fast-RCNN and Faster RCNN

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

2 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

Fast-RCNN and Faster RCNN

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

2 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید