ساده ترین و ابتدایی ترین راه استفاده از یه شبکه کانولوشن هست که روی تصاویر انسان و غیر انسان (حیوان) آموزش دیده
بعد در حین اجرای فیلم شما فریم به فریم تصاویر رو به شبکه آموزش دیده ارائه کنید و خروجی رو بگیرید .
این روش خیلی ساده اس اما بهترین روش نیست.
روشهای دیگه هم هست مثل که از لایه های 3 بعدی کانولوشن استفاده میکنن (قدیمیه مربوط به 2010 و 2011اس) .
روش مناسب و خوبی که اخیرا ارائه شده Large scale video classification with convolutional neural networks
هست که سال 2014 اومده و خیلی خوبه.
به غیر از اون مقاله های دیگه ای مثل Learning spatial temporal Features with 3-D convolutional neural networks, by tran et al
هست مربوط به 2015 .
بشدت پیشنهاد میکنم لکچر 14 آموزش شبکه های کانولوشن دانشگاه استنفورد رو ببینید چون همه این مطالب به تفصیل اونجا توضیح داده میشه.