به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

با سلام عرض ادب
دوستانی که دتکشن کار کردند لطف کنند به این سوال جواب دهند
از آنجایی که میدانیم کار در فضای 3 بعدی باعث میشه یکی از چالش های 2بعدی که هم پوشانی هست از بین بره با این حساب چرا محققین تمرکزشون رو 3 بعدی نمیزارن و بیشتر پیپرهای کنونی 2 بعدی هستند ؟ آیا به خاطر کمبود دیتای 3 بعدی ؟ دوستان لطف کنند تا حد امکان محاسن و معایب هر کدوم رو توضیح دهند - با سپاس

توسط (389 امتیاز)

1 پاسخ

0 امتیاز
 
بهترین پاسخ

سلام
اگه درست متوجه منظورتون شده باشم و بحث سر داده های 2D مثل تصاویر RGB و داده‌هایی با ابعاد بالاتر مثل 2.5D (مثلا RGB-D)و 3D (مثلا اسکن MRI)ه
اینکه اشاره کردید دیتا 3 بعدی کم هست، مسلما همینطوره و تهیه و برچسب زدنش هم خیلی سخت تره و حتی اگه باشه هم حجمشون خیلی بالاست و همین موضوعات سرعت تحقیقات توی این زمینه رو کند کرده
اما از طرف دیگه خیلی موقع ها امکان به دست اوردن اطلاعات 3 بعدی در محیط واقعی نیست. برای مثال خودروهای خودران رو در نظر بگیرید، در بهترین حالت میشه با استفاده از ترکیب اطلاعات یا sensor fusion، میشه اطلاعات 2.5D از محیط به دست اورد و تقریبی از سه بعد داشت
حتی سیستم بینایی انسان هم اطلاعات 2.5D حساب میشه و شما اطلاعات 3 بعدی رو توی تقریب می زنید.
خلاصه اینکه ما در تولید اطلاعات دقیق 3 بعدی محدودیت جدی داریم. و بیشترین داده هایی هم که در این زمینه هست یا مصنوعی یا در زمینه پزشکیه
اما درobject detection یا حتی مسائل سخت ترش مثل semantic segmentation به طور جدی روی داده های با ابعاد بیشتر از 2 خیلی کار می شه و دیتاست های خوبی هم در این زمینه ها هست.
برای مثال وقتی از RGB به RGB-D می ریم، میشه دقت رو افزایش داد توی حل مسائل مختلف، اما اینکه چه طوری اطلاعات تصویر یعنی RGB با اطلاعات عمق یعنی D ترکیب بشه(میشه همون sensor fusion مبحث معروف) خودش کلی بحث داره و اتفاقا ایده های جالبی هم براش مطرح شده

در این زمینه این survey روی semantic segmentation انجام شده اما خیلی خوب دیتاستها و روشهای مختلف رو دسته بندی کرده که یه دسته بندیش بر اساس تعداد ابعاد ورودی هاست.

https://arxiv.org/abs/1704.06857

ایده ها و دیتاستهایی که مطرح شده می تونه در زمینه object detection هم بهتون کمک کنه
به عنوان نکته آخر هم بحث کار کردن با فضای 3D و 3d object detection می تونه کاملا متفاوت باشه و در خوندن مقالات بهتره بهش توجه کنید. چون خیلی جاها منظور از 3d object detection تشخیص اشیا در فضای سه بعدیه (و مدل کردن وضعیت شی) اما ممکنه اطلاعات ورودی همون تصویر RGB معمولی باشه

توسط (1.6k امتیاز)
انتخاب شده توسط
عذر میخام sensor fusion در واقع سنسورهایی هستند که علاوه بر اطلاعات مکانی , بعد عمق رو هم از صحنه capture میکنند ؟ و اینکه چرا 2.5 بعدی ؟ این معنای خاصی داره ؟
نه عملیات sensor fusion به چیزی گفته میشه که شما سنسورهای مختلفی دارید و می خواید اطلاعاتی همشون رو تجمیع کنید و یه تصمیم گیری یا عملیات های دیگه بر اساس همشون انجام بدید
مثلا یه سنسور RGB میده، مثل دوربین های معمولی، یه سنسور TOF هم دارید عمق میده
ماتریسی که از RGB بدست میاد با ماتریس عمق، دو تا مفهوم مختلف رو کد می کنن. ترکیب این اطلاعات مختلف از سنسور های مختلف رو بهش میگن sensor fusion
نمونه جایی که خیلی به کار میاد اینه که شما یه شبکه pretrain شده دارید که روی تصویر RGB آموزش داده شده اما الان می خواید با RGB-D کار کنید. شبکه ورودی 3 کاناله می گیره، حالا سوال، شما چه طوری این 4 بعد RGBD رو یه طوری می کنید 3 بعد که به ورودی شبکه pretrain شدتون بخوره؟ اینم دوباره همون sensor fusion میشه
البته اینم باید توجه کنید که توی sensor fusion حتما نباید سنسورها اطلاعات متفاوتی رو بدن، مثلا همه سنسور ها می تونن RGB تولید کنن

به اطلاعات شبیه RGB-D ، دو و نیم بعد گفته میشه، چون نه مثل عکس RGB دو بعدیه، نه مثل اسکن های سه بعدی ، به طور کامل سه بعدیه. یه جور دیگه مثل اینه که شما اطلاعاتی بیشتر از 2 بعد دارید، اما اطلاعات کامل 3 بعدی رو ندارید
...