به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

+1 امتیاز

سلام و عرض ادب
دوستانی که object detection کار کرده اند لطف کنند یک توضیح مفیدی در مورد نسخه های YOLO بدند و اینکه این چه برتری نسبت به نسخه های R-CNN داره

توسط (389 امتیاز)

1 پاسخ

+2 امتیاز
 
بهترین پاسخ

سلام
در شبکه ی YOLO تصاویر به صورت فرضی به N در N ناحیه تقسیم می شوند. به ازای هر کدام از این نواحی فرض می شود که K شی امکان حضور دارند. شبکه به صورتی طراحی شده است که در نهایت به ازای تمامی نواحی امکان وجود اشیا در آن ناحیه ها - دسته ی آن شی و همچنین مختصات کادر دور شی را پیش بینی می کند. با توجه به اینکه کادر دور هر شی ۴ مختصات دارد و همچنین دسته ی مورد نظر شی یک بردار C تایی هست و همین طور یک عدد برای احتمال وجود شی داریم پس به ازای هر شی یک تنزور (4 + 1 + C) تایی مورد نیاز است. با توجه به اینکه فرض شد در هر تصویر N در N ناحیه وجود دارد و هر ناحیه احتمال حضور K شی به صورت بیشینه وجود دارد و هر شی نیز تزوری (4 + 1 + C) نیاز دارد پس در انتهای شبکه تنزوری KNN(C+1+4) وجود دارد که به پیشبینی کادر اشیا و احتمال آنها و دسته آنها می پردازد. در نسخه نخست این شبکه پس از لایه های کانولوشن ویژگی ها خطی شده و به لایه های تمام متصل تحویل داده شده و در نهایت پیشبینی ها انجام می شوند در حالی که در نسخه های بعدی به جای ایجاد تنزوری به این ابعاد حجیم یک کرنل کانولوشن با ابعاد K(C+1+4) به نحوی بر روی ویژگی های آخرین لایه ی کانولوشن کانوالو می شود که ناحیه های ادراکی آن (Receptive Field) بر روی هر یک از N*N ناحیه از تصور ورودی قرار بگیرند و عملیات پیشبینی انجام شود.
تفاوت عمده این شبکه با شبکه ی RCNN این است که این شبکه به صورت سراسری (End-to-End) کار می کند و بحث تشخیص مکان اشیا را بدون نیاز به الگوریتم های بیرونی (Selective Search در RCNN) حل می کند و سرعت بسیار بالایی دارد و تماما با استفاده از شبکه های عصبی پیاده سازی شده و در نتیجه قابلیت موازی سازی بسیار مناسبی بر روی پردازنده هایی مثل GPU ها و FPGAها را داراست.

توسط (535 امتیاز)
انتخاب شده توسط
رو FPGA ها چگونه پیاده سازی میشوند منظورم اینکه بعد از اینکه پارامترهای بهینه بدست اومد میاییم اونارو پیاده میکنیم ؟
یه سوال دیگه : شبکه Faster رو نمیشه پیاده کرد ؟ مگه اینم END-TO-END نیست ؟
عموما شبکه های آموزش دیده شده رو منتقل می کنن
شبکه Faster-RCNN نسخه اولیه End-to-End نبوده موقع آموزش. ارتباطی بین End-to-End بودن با قابلیت پیاده سازی نیستش. بحث قابلیت موازی سازی حداکثری هست که طبق پاسخ بالا توی RCNN دشوار تر هست ولی توی YOLO و Faster-RCNN امکان موازی سازی خوبی وجود داره و به خوبی امکان انتقال به صورت بهینه وجود داره.
میشه یک بیشتر در مورد "کرنل کانولوشن با ابعاد K(C+1+4) به نحوی بر روی ویژگی های آخرین لایه ی کانولوشن کانوالو می شود " توضیح بدین

همچنین اگه امکانش هست در مورد تابع خطاشم توضیخ بدین

و سوال اخر این که ایا توی هر cell grid یا همون ناحیه هر bonding box که پیشبینی میشه مرکزش همون مرکز cell grid مورد نظره
...