سلام
برای تشخیص صوت
1- از روی صوت خام : استفاده از شبکه های بازگشی مانند LSTM متداولتر هستش
2- تبدیل صوت به تصویر (تبدیل زمان-فرکانس): در این حالت بهتره از شبکه های عصبی کانولوشنی استفاده کنید
برای تشخیص ویدیو
ابتدا با استفاده از شبکه های کانولوشنی از فریمهای ویدیو ویژگی استخراج میکنید سپس با استفاده از شبکه LSTM ویژگی های زمانی را استخراج کنید.
موفق باشید majid_nasiri_ai@