همانطوری که قبلا اینجا هم توضیح داده بودم حذف کردن لایه های conv/pool بجای fc برای کاهش پیچیدگی شبکه کار درستی نیست و شما باید برعکس این را انجام بدید.
برای مسائل segmentation معمولا از معماری های به شکل زیر استفاده می شود:
در این معماری ابتدا لایه های conv/pool قرار گرفتند که ویژگی ها را از تصویر استخراج کرده و آن را down sample می کنند و بعد لایه های unpool/deconv که آن ها هم وظیفه استخراج ویژگی و افزایش ابعاد و dense کردن آن را انجام می دهند.
لایه های unpool/deconv در این کار بسیار مهم هستند, در segmentation استفاده از لایه های fc باعث افزایش بیهوده پارامتر ها و ایجاد همبستگی (correlation) بیهوده خواهد شد. عملکرد لایه های unpool/deconv در شکل زیر مشخص هست:
لایه های unpool ابعاد تصویر را گسترش می دهند اما تصویر تولیدی تقریبا sparse هست و غلظت مناسبی ندارد وظیفه ی لایه های deconv غلیظ (dense) کردن تصویر unpool شده هست با توجه به فیلتر هایی که یاد گرفتند.
بنابرین توصیه می کنم که شما از معماری هایی مثل SegNet استفاده کنید تا به نتیجه خوبی برسید.