segmentation

Question

سلام
دوستانی که سگمنتیش کار کردند لطفا یکم توضیح بدهند اصول کلی چجوری هست و مفهوم این چی هست
object localization via ConvNet-based segmentation. The
simplest approach consists in training the ConvNet to classify the central pixel (or voxel for volumetric images) of its viewing window as a boundary between regions or not. But when the
regions must be categorized, it is preferable to perform semantic segmentation. The main idea is to
train the ConvNet to classify the central pixel of the viewing window with the category of the object it belongs to, using the window as context for the decision.
The advantage of this approach is that the bounding contours need not be rectangles,
, and the regions need
not be well-circumscribed objects. The disadvantage is that it requires dense pixel-level labels for
training.
در سگمنتیشن تا جایی که میدونم بصورت pixel-level هست یعنی تک تک پیکسل ها رو طبقه بندی میکنند بعدش پیکسل های مجاور و شبیه به هم رو یک گروپ یا سگمنت در نظر میگیرند اینکه اینجا گفته فقط با یک پیکسل مرکزی برای هر پنجره صورت میگیرد یعنی چی ؟

alireza.nrzi · Answer 1 · 2017-10-26T14:37:45+0000

سلام
بحث segmentation رو میشه به روش های مختلفی حل کرد که هر کدوم مزایا و معایب خودش رو داره
توی متنی هم که گذاشتید به دو تا روشش اشاره کرده:

1 - ما یه شبکه cnn آموزش بدیم که وقتی یه تصویر(یا یه patch) بهش میدید، بتونه تشخیص بده آیا پیکسل مرکزی ورودی متعلق به مرز بین دو تا شی هست یا نه
بعد این شبکه رو روی تصویر می لغزونید و هر پیکسل رو برچسب می زنید که آیا جز مرز بین اشیا مختلفه یا نه. الان در خروجی یه تصویری دارید که مرزها رو به دست اوردید و می تونید با الگوریتم flood fill یا region growing ها داخل این مرز ها رو بر اساس شی مورد نظر برچسب گذاری کنید
خوبی این روش اینه که توی داده های training فقط باید مرزها رو مشخص کنید و بعدش مشخص کردن شی داخل هر مرز راحت انجام می شه

2- یه شبکه cnn آموزش بدید که هر تصویر (یا مثل قبل یه patch) رو بگیره و توی خروجی مشخص کنه که پیکسل مرکزی، متعلق به کدوم کلاسه(مثلا ماشین، جاده، انسان و ...)
اینطوری وقتی این شبکه رو روی تصویر بچرخونید و همه پیکسل ها رو برچسب بزنید، نتیجه segmentation تون مستقیم به دست میاد و نیازی به الگوریتم های چند مرحله یا پردازش هایی مثل flood fill نیست. اما بدی کار اینجاست که توی داده های training باید برای هر عکس، تمامی پیکسل ها رو برچسب بزنید که متعلق به کدوم کلاس هستن و کار درست کردن دیتاست در این مورد به نسبت سخت تر از اینه که فقط مرزها رو مشخص کنید(البته با ابزارهایی که الان هست، اگه مرزها مشخص بشه می تونید سریع تمامی پیکسل ها رو برچسب بزنید)

اینم که روی پنجره تاکید شده، برای اینه که در روشهایی که ذکر کرده، شما یک شبکه آموزش می دید که یه عکس بگیره و کلاسش رو مشخص کنه(مثلا فرض کنید ورودی 32x32 میگیره). اما اینجا ما تصویر بزرگتری از تصاویر آموزش خودمون داریم که می خوایم بخش بندیش کنیم(مثلا 512x512). پس میام تصویر ورودی رو به پنجره های کوچیکتر تقسیم می کنیم و هر پنجره 32x32 رو می دیم به شبکه تا مشخص بشه توی اون قسمت چی هستنش.
حالا اینجا هم 2 تا راه هست، یا وقتی شبکه میگه مثلا توی این پنجره آدم هست، کل 32x32 رو به عنوان آدم بر چسب بزنید، یا اینکه فقط پیکسل مرکزی رو برچسب بزنید. روش اول به جز توی مسائل ساده معمولا باعث خروجی بلوک بلوکی میشه و زیاد جالب نیست. اما روش دوم معمولا نویز بیشتری داره اما ترجیح داده میشه.

به عنوان یه نکته شبکه های fully convolutional اینطوری عمل می کنن که شما کل عکس ورودی رو به شبکه می دید و مستقیم نتیجه رو می گیرید. برای اطلاعات بیشتر می تونید این مقاله که باعث معروفیت این نوع شبکه ها شد رو ببینید

https://arxiv.org/abs/1411.4038

دسته بندی ها

segmentation

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

segmentation

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید