به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

سلام
دوستانی که سگمنتیش کار کردند لطفا یکم توضیح بدهند اصول کلی چجوری هست و مفهوم این چی هست
object localization via ConvNet-based segmentation. The
simplest approach consists in training the ConvNet to classify the central pixel (or voxel for volumetric images) of its viewing window as a boundary between regions or not. But when the
regions must be categorized, it is preferable to perform semantic segmentation. The main idea is to
train the ConvNet to classify the central pixel of the viewing window with the category of the object it belongs to, using the window as context for the decision.
The advantage of this approach is that the bounding contours need not be rectangles,
, and the regions need
not be well-circumscribed objects. The disadvantage is that it requires dense pixel-level labels for
training.
در سگمنتیشن تا جایی که میدونم بصورت pixel-level هست یعنی تک تک پیکسل ها رو طبقه بندی میکنند بعدش پیکسل های مجاور و شبیه به هم رو یک گروپ یا سگمنت در نظر میگیرند اینکه اینجا گفته فقط با یک پیکسل مرکزی برای هر پنجره صورت میگیرد یعنی چی ؟

توسط (389 امتیاز)

1 پاسخ

0 امتیاز
 
بهترین پاسخ

سلام
بحث segmentation رو میشه به روش های مختلفی حل کرد که هر کدوم مزایا و معایب خودش رو داره
توی متنی هم که گذاشتید به دو تا روشش اشاره کرده:

1 - ما یه شبکه cnn آموزش بدیم که وقتی یه تصویر(یا یه patch) بهش میدید، بتونه تشخیص بده آیا پیکسل مرکزی ورودی متعلق به مرز بین دو تا شی هست یا نه
بعد این شبکه رو روی تصویر می لغزونید و هر پیکسل رو برچسب می زنید که آیا جز مرز بین اشیا مختلفه یا نه. الان در خروجی یه تصویری دارید که مرزها رو به دست اوردید و می تونید با الگوریتم flood fill یا region growing ها داخل این مرز ها رو بر اساس شی مورد نظر برچسب گذاری کنید
خوبی این روش اینه که توی داده های training فقط باید مرزها رو مشخص کنید و بعدش مشخص کردن شی داخل هر مرز راحت انجام می شه

2- یه شبکه cnn آموزش بدید که هر تصویر (یا مثل قبل یه patch) رو بگیره و توی خروجی مشخص کنه که پیکسل مرکزی، متعلق به کدوم کلاسه(مثلا ماشین، جاده، انسان و ...)
اینطوری وقتی این شبکه رو روی تصویر بچرخونید و همه پیکسل ها رو برچسب بزنید، نتیجه segmentation تون مستقیم به دست میاد و نیازی به الگوریتم های چند مرحله یا پردازش هایی مثل flood fill نیست. اما بدی کار اینجاست که توی داده های training باید برای هر عکس، تمامی پیکسل ها رو برچسب بزنید که متعلق به کدوم کلاس هستن و کار درست کردن دیتاست در این مورد به نسبت سخت تر از اینه که فقط مرزها رو مشخص کنید(البته با ابزارهایی که الان هست، اگه مرزها مشخص بشه می تونید سریع تمامی پیکسل ها رو برچسب بزنید)

اینم که روی پنجره تاکید شده، برای اینه که در روشهایی که ذکر کرده، شما یک شبکه آموزش می دید که یه عکس بگیره و کلاسش رو مشخص کنه(مثلا فرض کنید ورودی 32x32 میگیره). اما اینجا ما تصویر بزرگتری از تصاویر آموزش خودمون داریم که می خوایم بخش بندیش کنیم(مثلا 512x512). پس میام تصویر ورودی رو به پنجره های کوچیکتر تقسیم می کنیم و هر پنجره 32x32 رو می دیم به شبکه تا مشخص بشه توی اون قسمت چی هستنش.
حالا اینجا هم 2 تا راه هست، یا وقتی شبکه میگه مثلا توی این پنجره آدم هست، کل 32x32 رو به عنوان آدم بر چسب بزنید، یا اینکه فقط پیکسل مرکزی رو برچسب بزنید. روش اول به جز توی مسائل ساده معمولا باعث خروجی بلوک بلوکی میشه و زیاد جالب نیست. اما روش دوم معمولا نویز بیشتری داره اما ترجیح داده میشه.

به عنوان یه نکته شبکه های fully convolutional اینطوری عمل می کنن که شما کل عکس ورودی رو به شبکه می دید و مستقیم نتیجه رو می گیرید. برای اطلاعات بیشتر می تونید این مقاله که باعث معروفیت این نوع شبکه ها شد رو ببینید

https://arxiv.org/abs/1411.4038

توسط (1.6k امتیاز)
انتخاب شده توسط
...