سلام
راستش اصلا یادگیری عمیق به دیتای large scale نیازه داره
چون پارامتراتون زیاده با دیتای کم جواب نمیگیرید و overfit میشید البته راه حل های مثل knowledge transfer میتونه کمک کننده باشه
بارزترین نمونه هم برای یادگیری عمیق همون مدل معروف Krizhevsky که روی یه دیتاست large scale (یک میلیون تصویر) train شده با 1000 تا کلاس
در مورد کلاس های زیاد هم اگه مدل های که روی face identification نگاه کنید میبینید تعداد کلاس ها زیاد بوده مثلا نزدیک 5000 تا کلاس هم دقت هایی خیلی خوبی رو گرفتن
به نظرم اون چیزی که مهمه اینه که توی هر کلاسی دیتای زیادی برای train داشته باشید
من روی یه مسئله تشخیص عدد (ocr عدد فارسی برای یه مسئله تجاری هم بوده) یه مدل دیپ زدم و دقت نود و خورده ای گرفتم (البته دیتا خیلی چالشی بوده)که از مدل های قبلی که قبلا روی این دیتا تست شده بود بهتر جواب داده (یه شبکه 5 لایه با 60 هزار دیتا)