سلام
بحث segmentation رو میشه به روش های مختلفی حل کرد که هر کدوم مزایا و معایب خودش رو داره
توی متنی هم که گذاشتید به دو تا روشش اشاره کرده:
1 - ما یه شبکه cnn آموزش بدیم که وقتی یه تصویر(یا یه patch) بهش میدید، بتونه تشخیص بده آیا پیکسل مرکزی ورودی متعلق به مرز بین دو تا شی هست یا نه
بعد این شبکه رو روی تصویر می لغزونید و هر پیکسل رو برچسب می زنید که آیا جز مرز بین اشیا مختلفه یا نه. الان در خروجی یه تصویری دارید که مرزها رو به دست اوردید و می تونید با الگوریتم flood fill یا region growing ها داخل این مرز ها رو بر اساس شی مورد نظر برچسب گذاری کنید
خوبی این روش اینه که توی داده های training فقط باید مرزها رو مشخص کنید و بعدش مشخص کردن شی داخل هر مرز راحت انجام می شه
2- یه شبکه cnn آموزش بدید که هر تصویر (یا مثل قبل یه patch) رو بگیره و توی خروجی مشخص کنه که پیکسل مرکزی، متعلق به کدوم کلاسه(مثلا ماشین، جاده، انسان و ...)
اینطوری وقتی این شبکه رو روی تصویر بچرخونید و همه پیکسل ها رو برچسب بزنید، نتیجه segmentation تون مستقیم به دست میاد و نیازی به الگوریتم های چند مرحله یا پردازش هایی مثل flood fill نیست. اما بدی کار اینجاست که توی داده های training باید برای هر عکس، تمامی پیکسل ها رو برچسب بزنید که متعلق به کدوم کلاس هستن و کار درست کردن دیتاست در این مورد به نسبت سخت تر از اینه که فقط مرزها رو مشخص کنید(البته با ابزارهایی که الان هست، اگه مرزها مشخص بشه می تونید سریع تمامی پیکسل ها رو برچسب بزنید)
اینم که روی پنجره تاکید شده، برای اینه که در روشهایی که ذکر کرده، شما یک شبکه آموزش می دید که یه عکس بگیره و کلاسش رو مشخص کنه(مثلا فرض کنید ورودی 32x32 میگیره). اما اینجا ما تصویر بزرگتری از تصاویر آموزش خودمون داریم که می خوایم بخش بندیش کنیم(مثلا 512x512). پس میام تصویر ورودی رو به پنجره های کوچیکتر تقسیم می کنیم و هر پنجره 32x32 رو می دیم به شبکه تا مشخص بشه توی اون قسمت چی هستنش.
حالا اینجا هم 2 تا راه هست، یا وقتی شبکه میگه مثلا توی این پنجره آدم هست، کل 32x32 رو به عنوان آدم بر چسب بزنید، یا اینکه فقط پیکسل مرکزی رو برچسب بزنید. روش اول به جز توی مسائل ساده معمولا باعث خروجی بلوک بلوکی میشه و زیاد جالب نیست. اما روش دوم معمولا نویز بیشتری داره اما ترجیح داده میشه.
به عنوان یه نکته شبکه های fully convolutional اینطوری عمل می کنن که شما کل عکس ورودی رو به شبکه می دید و مستقیم نتیجه رو می گیرید. برای اطلاعات بیشتر می تونید این مقاله که باعث معروفیت این نوع شبکه ها شد رو ببینید
https://arxiv.org/abs/1411.4038