سلام دوست عزیز.
لیبل به صورت یک عکس png هستش که مقادیر پیکسل همان عدد کلاس مورد نظر هستش. یعنی اگر در یک منطقه از تصویر یک صندلی هستش و در دیتاست صندلی کلاس شماره 7 هستش - آنگاه تمامی پیکسل هایی که صندلی رو تشکیل میدهند مقدارشون 7 هست.
در لایه آخر که 21 لایه داریم به این علت هستش که در دیتاست مورد نظرتون voc12 تعداد کلاس ها 21 هستش. برای تشکیل تصویر از این 21 لایه برای هر پیکسل از بین 21 مقداری که آن پیکسل را تشکیل میده ماکزیمم میگیریم - اگه ماکزیمم مربوط به مقدار لایه 7 بود این پیکسل را 7 قرار میدیم. به عبارت کلی اندیس مقدار ماکزییم در 21 لایه خروجی مقدار پیکسل رو تعیین میکنه.
بنده موضوع تزم قطعه بندی معنایی تصویر بوده - و تقریبا با تمامی شبکه های این حوزه کار کردم. اگه سوالی داشتید در خدمتم.
موفق باشید.