شبکه های عصبی مناسب ویدئو یا صدا

Question

سلام
من یک مقاله بیس دارم که اومده و به تشخیص عکس سگ و گربه با شبکه های عصبی کانولوشنی پرداخته.من میخوام همه ی کارهایی که کرده را برای تشخیص صدای سگ و گربه یا ویدئو انجام بدم.از شبکه های عصبی RNN استفاده کنم یا گزینه ی بهتری هم وجود داره؟
و این که چقدر کارم نسبت به تشخیص تصویر سنگین تر و سخت تر میشه؟

مجید نصیری · Answer 1 · 2019-12-15T19:16:24+0000

سلام
برای تشخیص صوت
1- از روی صوت خام : استفاده از شبکه های بازگشی مانند LSTM متداولتر هستش
2- تبدیل صوت به تصویر (تبدیل زمان-فرکانس): در این حالت بهتره از شبکه های عصبی کانولوشنی استفاده کنید

برای تشخیص ویدیو
ابتدا با استفاده از شبکه های کانولوشنی از فریمهای ویدیو ویژگی استخراج میکنید سپس با استفاده از شبکه LSTM ویژگی های زمانی را استخراج کنید.

موفق باشید majid_nasiri_ai@

دسته بندی ها

شبکه های عصبی مناسب ویدئو یا صدا

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

شبکه های عصبی مناسب ویدئو یا صدا

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید