سلام
همینطور که ذکر کردید، در شبکههای DenseNet، بلاکهایی وجود داره که در اون هر لایه، ورودی خودش رو از تمامی لایههای قبل از خودش میگیره. و بین هر دو تا بلاک Dense هم لایههایی به اسم Transition وجود داره که عملیات Pooling و ... توش اتفاق می افته و سایز feature mapها کاهش پیدا می کنه و نرمالیزشن و ....
در عمل اگه به طور معمولی این ایده رو پیدا کنیم که هر لایه رو به تمامی لایههای قبلش وصل کنیم و این اتصالها وزن داشته باشه، یعنی مثل ResNet خروجی لایههای قبلی با هم فقط جمع نشن، و دقیقا تمامی خروجی ها رو بذاریم کنار هم بدیم به لایه فعلی، پارامترها سریعا زیاد میشه
اما ایدهای که مطرح شده اینه که به دلیل استفاده بهینه(!) از ویژگیهایی که توی هر لایه بدست اومده (feature reuse)، می تونیم تعداد feature mapهای هرلایه رو خیلی کاهش بدیم و به چیزی در حدود 12 تا برسیم. یعنی عرض شبکه رو خیلی کم می کنیم
و اینطوری پارامترهای شبکه خیلی کم میشه.
برای مقایسه ، توی شبکه VGG-16 ، اگه اشتباه نکنم تعداد feature map ها از 64 شروع میشه و به 512 هم در لایههای آخر می رسه ولی اینجا حتی به 64 تا هم نمی رسیم(فکر میکنم حداکثر تا 40 تا feature map توی مقاله مورد بحث قرار گرفته که نتایج بدست اومده هم قابل توجه هستش)، در عوض میتونیم عمق شبکه رو خیلی افزایش بدیم
و از نظر تئوری خیلی روی عمق شبکه بحث شده که مثلا شبکههایی با عمق k، به طور نمایی از شبکههایی با عمق k-1 قویتر هستن