من چیزی که تو ذهنم هست اینکه وقتی یک شبکه ای که با تصویر آموزش دیده و سرعت دتکشنش به اندازه کافی باشد که میزان frames per second فیلم رو پوشش بده این قطعا باید برای این فیلم هم باید کار کند (فیلم هم بلاخره از تصاویر تشکیل شده دیگه) مگر مهم هست در دتکشن اشیا از کجا وارد صحنه میشوند چون بلاخره یک دتکشن که رو تصویر آموزش دیده و خطای تست خوبی هم دارد این قطعا باید برای هر اشیایی که در هر location ای که باشند باید دتکت کنه و یک نکته هم اینکه مگر yolo برای تصاویر cocoو imagenet آموزش ندیده ؟ پس چرا این شبکه در ویدیو هم بخوبی کار میکند ؟
و یه سوال دیگه : این ویدیو ها هم بصورت فریم به فریم برای دتکشن لیبل و bounding box دارند ؟ اگر اینجوریه هست چرا یه شبکه رو نمیایم هم از تصاویر و هم ویدیو استفاده کنیم فرضا از ویدیو برای fine-tuning استفاده بشه