object detection 2D,3D

Question

با سلام عرض ادب
دوستانی که دتکشن کار کردند لطف کنند به این سوال جواب دهند
از آنجایی که میدانیم کار در فضای 3 بعدی باعث میشه یکی از چالش های 2بعدی که هم پوشانی هست از بین بره با این حساب چرا محققین تمرکزشون رو 3 بعدی نمیزارن و بیشتر پیپرهای کنونی 2 بعدی هستند ؟ آیا به خاطر کمبود دیتای 3 بعدی ؟ دوستان لطف کنند تا حد امکان محاسن و معایب هر کدوم رو توضیح دهند - با سپاس

alireza.nrzi · Answer 1 · 2017-11-24T12:27:47+0000

سلام
اگه درست متوجه منظورتون شده باشم و بحث سر داده های 2D مثل تصاویر RGB و داده‌هایی با ابعاد بالاتر مثل 2.5D (مثلا RGB-D)و 3D (مثلا اسکن MRI)ه
اینکه اشاره کردید دیتا 3 بعدی کم هست، مسلما همینطوره و تهیه و برچسب زدنش هم خیلی سخت تره و حتی اگه باشه هم حجمشون خیلی بالاست و همین موضوعات سرعت تحقیقات توی این زمینه رو کند کرده
اما از طرف دیگه خیلی موقع ها امکان به دست اوردن اطلاعات 3 بعدی در محیط واقعی نیست. برای مثال خودروهای خودران رو در نظر بگیرید، در بهترین حالت میشه با استفاده از ترکیب اطلاعات یا sensor fusion، میشه اطلاعات 2.5D از محیط به دست اورد و تقریبی از سه بعد داشت
حتی سیستم بینایی انسان هم اطلاعات 2.5D حساب میشه و شما اطلاعات 3 بعدی رو توی تقریب می زنید.
خلاصه اینکه ما در تولید اطلاعات دقیق 3 بعدی محدودیت جدی داریم. و بیشترین داده هایی هم که در این زمینه هست یا مصنوعی یا در زمینه پزشکیه
اما درobject detection یا حتی مسائل سخت ترش مثل semantic segmentation به طور جدی روی داده های با ابعاد بیشتر از 2 خیلی کار می شه و دیتاست های خوبی هم در این زمینه ها هست.
برای مثال وقتی از RGB به RGB-D می ریم، میشه دقت رو افزایش داد توی حل مسائل مختلف، اما اینکه چه طوری اطلاعات تصویر یعنی RGB با اطلاعات عمق یعنی D ترکیب بشه(میشه همون sensor fusion مبحث معروف) خودش کلی بحث داره و اتفاقا ایده های جالبی هم براش مطرح شده

در این زمینه این survey روی semantic segmentation انجام شده اما خیلی خوب دیتاستها و روشهای مختلف رو دسته بندی کرده که یه دسته بندیش بر اساس تعداد ابعاد ورودی هاست.

https://arxiv.org/abs/1704.06857

ایده ها و دیتاستهایی که مطرح شده می تونه در زمینه object detection هم بهتون کمک کنه
به عنوان نکته آخر هم بحث کار کردن با فضای 3D و 3d object detection می تونه کاملا متفاوت باشه و در خوندن مقالات بهتره بهش توجه کنید. چون خیلی جاها منظور از 3d object detection تشخیص اشیا در فضای سه بعدیه (و مدل کردن وضعیت شی) اما ممکنه اطلاعات ورودی همون تصویر RGB معمولی باشه

عذر میخام sensor fusion در واقع سنسورهایی هستند که علاوه بر اطلاعات مکانی , بعد عمق رو هم از صحنه capture میکنند ؟ و اینکه چرا 2.5 بعدی ؟ این معنای خاصی داره ؟ — DeeepNet, دی 11, 1395
نه عملیات sensor fusion به چیزی گفته میشه که شما سنسورهای مختلفی دارید و می خواید اطلاعاتی همشون رو تجمیع کنید و یه تصمیم گیری یا عملیات های دیگه بر اساس همشون انجام بدید
مثلا یه سنسور RGB میده، مثل دوربین های معمولی، یه سنسور TOF هم دارید عمق میده
ماتریسی که از RGB بدست میاد با ماتریس عمق، دو تا مفهوم مختلف رو کد می کنن. ترکیب این اطلاعات مختلف از سنسور های مختلف رو بهش میگن sensor fusion
نمونه جایی که خیلی به کار میاد اینه که شما یه شبکه pretrain شده دارید که روی تصویر RGB آموزش داده شده اما الان می خواید با RGB-D کار کنید. شبکه ورودی 3 کاناله می گیره، حالا سوال، شما چه طوری این 4 بعد RGBD رو یه طوری می کنید 3 بعد که به ورودی شبکه pretrain شدتون بخوره؟ اینم دوباره همون sensor fusion میشه
البته اینم باید توجه کنید که توی sensor fusion حتما نباید سنسورها اطلاعات متفاوتی رو بدن، مثلا همه سنسور ها می تونن RGB تولید کنن

به اطلاعات شبیه RGB-D ، دو و نیم بعد گفته میشه، چون نه مثل عکس RGB دو بعدیه، نه مثل اسکن های سه بعدی ، به طور کامل سه بعدیه. یه جور دیگه مثل اینه که شما اطلاعاتی بیشتر از 2 بعد دارید، اما اطلاعات کامل 3 بعدی رو ندارید — alireza.nrzi, دی 11, 1395

دسته بندی ها

object detection 2D,3D

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

object detection 2D,3D

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید