نظر شما کاملا درسته. اتفاقا خیلی از object detection هایی که الان هم داریم، فقط به صورت frame based کار می کنند. اما باید بدونید که میشه به وسیله اطلاعات زمانی ویدئو بهترش کرد، حداقل از نظر سرعت.
اینکه چرا برای ویدئو هم خوب کار می کنه، چون اشیایی که توی ویدئو هست با اشیایی که مثلا در ms coco اشتراکات زیادی داره.
اما مثلا اگه فقط روی CamVid شبکه رو آموزش بدید، نتیجه خیلی ضعیفی برای تصاویر معمولی می گیرید. چون CamVid فقط تصاویری رو داره که هنگام رانندگی گرفته شده
در مورد سوال دومتون هم، دیتاست هایی که من تا حالا دیدم، همینطوری بوده که می گید، یعنی مثلا اگه فیلم هم هست، برای همه فریم ها یا قسمتی از اونها، bounding box یا نقشه segmentation گذاشتن
که همینطور که گفتید، میشه شما اول روی ms coco (برای مثال) شبکه رو آموزش بدید بعد روی این دیتاستها fine tune کنید که کار رایجی هم هست