سلام
اگه درست متوجه منظورتون شده باشم و بحث سر داده های 2D مثل تصاویر RGB و دادههایی با ابعاد بالاتر مثل 2.5D (مثلا RGB-D)و 3D (مثلا اسکن MRI)ه
اینکه اشاره کردید دیتا 3 بعدی کم هست، مسلما همینطوره و تهیه و برچسب زدنش هم خیلی سخت تره و حتی اگه باشه هم حجمشون خیلی بالاست و همین موضوعات سرعت تحقیقات توی این زمینه رو کند کرده
اما از طرف دیگه خیلی موقع ها امکان به دست اوردن اطلاعات 3 بعدی در محیط واقعی نیست. برای مثال خودروهای خودران رو در نظر بگیرید، در بهترین حالت میشه با استفاده از ترکیب اطلاعات یا sensor fusion، میشه اطلاعات 2.5D از محیط به دست اورد و تقریبی از سه بعد داشت
حتی سیستم بینایی انسان هم اطلاعات 2.5D حساب میشه و شما اطلاعات 3 بعدی رو توی تقریب می زنید.
خلاصه اینکه ما در تولید اطلاعات دقیق 3 بعدی محدودیت جدی داریم. و بیشترین داده هایی هم که در این زمینه هست یا مصنوعی یا در زمینه پزشکیه
اما درobject detection یا حتی مسائل سخت ترش مثل semantic segmentation به طور جدی روی داده های با ابعاد بیشتر از 2 خیلی کار می شه و دیتاست های خوبی هم در این زمینه ها هست.
برای مثال وقتی از RGB به RGB-D می ریم، میشه دقت رو افزایش داد توی حل مسائل مختلف، اما اینکه چه طوری اطلاعات تصویر یعنی RGB با اطلاعات عمق یعنی D ترکیب بشه(میشه همون sensor fusion مبحث معروف) خودش کلی بحث داره و اتفاقا ایده های جالبی هم براش مطرح شده
در این زمینه این survey روی semantic segmentation انجام شده اما خیلی خوب دیتاستها و روشهای مختلف رو دسته بندی کرده که یه دسته بندیش بر اساس تعداد ابعاد ورودی هاست.
https://arxiv.org/abs/1704.06857
ایده ها و دیتاستهایی که مطرح شده می تونه در زمینه object detection هم بهتون کمک کنه
به عنوان نکته آخر هم بحث کار کردن با فضای 3D و 3d object detection می تونه کاملا متفاوت باشه و در خوندن مقالات بهتره بهش توجه کنید. چون خیلی جاها منظور از 3d object detection تشخیص اشیا در فضای سه بعدیه (و مدل کردن وضعیت شی) اما ممکنه اطلاعات ورودی همون تصویر RGB معمولی باشه