معماری های موجود (Alex Net, VGG, LeNet , ...) هر کدام در مساله ای که برایش بهینه شدند نتیجه ی مناسب را ارائه می دهند و این ایده خوبی نیست که شما برای یک مساله دیگه به دنبال پیاده سازی عینی این ها باشید چون این ها لزوما روی هر مساله ای بهترین نیستند و البته با توجه به مساله شما باید هایپر پارامتر ها را تنظیم کنید که طبیعتا اونوقت معماری هم تغییر میکند! پس سعی کنید بجای اینکه به دنبال پیاده کردن عینی یک معماری باشید معماری خودتون را مخصوص مساله تون طراحی کنید.
برای مساله ی شما چون تعداد نمونه ها کم هست باید تعداد پارامتر هاتون کم باشد وگرنه با Over Fitting مواجه میشید. استفاده از Inception در این مساله چون دیتاست کوچک هست زیاد معقولانه نیست چون تعداد پارامتر هاتون را خیلی زیاد میکند. اما Residual Network با توجه به اینکه تعداد پارامتر های خیلی کمتر و لایه های بیشتری دارد انتخاب بهتری هست و سریع تر همگرا می شود. بخاطر کم بودن نمونه هاتون بهتر هست از لایه ی Fully Connected یا استفاده نکنید یا اگر استفاده کردید تعداد نورون ها باید مناسب باشد.
از Regularization و Normalization ها مثل Batch Normalization به خوبی استفاده کنید, در این مساله به شما کمک زیادی می کنند. و در نهایت, سعی کنید دیتاستتون را augment کنید.