object detection

Question

سلام عرض ادب
دوستان لطف کنید بگید که فرق بین object detection in image and video در چی میتونه باشه ؟
آیا الگوریتم های خاص خودشون رو دارند ؟ مگه یک object detection ای که در امیج کار میکند و تست میشود ، در video قابل لحاظ نیست ؟ اگر دو حوزه متفاوتی هستند مگر یه الکوریتمی که برای امیج کارو تست میشود سرعتش به اندازه ای باشد که نرخ تغییر فریم های یک فیلم رو داشته باشد میتواند به این ویدیو اعمال شود دیگه درسته ؟

alireza.nrzi · Answer 1 · 2017-10-27T23:53:07+0000

سلام
چرا در حالت کلی وقتی شما یه سیستمی داشته باشید که برای هر تصویر object detection رو انجام می ده، می تونید برای فیلم هم به ازای هر فریم اون رو اجرا کنید
اما توی فیلم اطلاعات خیلی بیشتری نسبت به تصویر هست و اون توالی فریم هاست
یعنی اینجا می تونید از اطلاعات temporal هم استفاده کنید. هم برای افزایش سرعت پردازش و هم دقت. برای مثال اگه بحث دقت رو در نظر بگیرید می شه این فرضها رو در نظر گرفت:
1- یک شی در ویدئو های معمولی به طور اتفاقی در هرجای دلخواه تصویر ظاهر و ناپدید نمیشود
2- حرکت اشیا در تصویر سرعت کمتری نسبت به فریم ریت فیلم دارد (به عبارت دیگه یه شی که توی فریم فعلی دارید، احتمالا توی فریم بعدی هم همون حوالی می تونید پیداش کنید)
3-بازگشت پذیری- یعنی اگه فیلم رو از اول به آخر پردازش کنید، همون شی هایی رو باید تشخیص بدید که وقتی فیلم رو از آخر به اول پردازش می کنید.این ایده توی تشخیص detection های اشتباه یا در نظر گرفتن context گذشته و آینده کاربرد داره

بسته به فیلم ها و داده هایی که دارید باهاش کار میکنید می تونید فرضهای جدید رو اضافه یا چیزی رو حذف کنید. به طور خلاصه بعد جدیدی که توی فیلم هست (زمان)، اطلاعات خیلی مفیدی برای بهبود کار در اختیار ما می ذاره
برای یک نمونه این مقاله رو ببینید:

https://arxiv.org/abs/1604.04053

نظر شما کاملا درسته. اتفاقا خیلی از object detection هایی که الان هم داریم، فقط به صورت frame based کار می کنند. اما باید بدونید که میشه به وسیله اطلاعات زمانی ویدئو بهترش کرد، حداقل از نظر سرعت.
اینکه چرا برای ویدئو هم خوب کار می کنه، چون اشیایی که توی ویدئو هست با اشیایی که مثلا در ms coco اشتراکات زیادی داره.
اما مثلا اگه فقط روی CamVid شبکه رو آموزش بدید، نتیجه خیلی ضعیفی برای تصاویر معمولی می گیرید. چون CamVid فقط تصاویری رو داره که هنگام رانندگی گرفته شده
در مورد سوال دومتون هم، دیتاست هایی که من تا حالا دیدم، همینطوری بوده که می گید، یعنی مثلا اگه فیلم هم هست، برای همه فریم ها یا قسمتی از اونها، bounding box یا نقشه segmentation گذاشتن
که همینطور که گفتید، میشه شما اول روی ms coco (برای مثال) شبکه رو آموزش بدید بعد روی این دیتاستها fine tune کنید که کار رایجی هم هست — alireza.nrzi, دی 11, 1395
ممنونم
قبل از اینکه کار با ویدیو برای یک شبکه دیپ رو انجام بدم میشه بصورت ضمنی بیان کنید که بنظرتون من شبکه ایی که برای تصاویر آموزش دادم با همین ترفند نیز برای ویدیو نیز قابل لحاظ هست ؟ چیزی که به ذهنم میرسه اینکه باید ابتدا فریم های ویدیو رو با b.b هاش دربیاریم که بشه یک مجموعه تصاویر و بعدش اینها به به یک دیتاستی مثله lmdb تبدیل میکنیم و بعدش مثله آموزش با تصاویر انجام میدهیم آیا اینطوری هست ؟ — DeeepNet, دی 11, 1395
خواهش می کنم
بله همینطوره، یعنی دقیقا مثل این برخورد می کنید که اصلا ویدئویی فعلا در کار نیست و یه سری عکس دارین با bounding box هاش. بعدا اگه نیاز شد می تونید از اطلاعات زمانی هم استفاده کنید. ممکنه هم بگید نه همین که روی frame ها کار می کنه به اندازه کافی خوب هست (که اتفاقا اگه هدف اولیه این باشه خیلی هم خوبه) — alireza.nrzi, دی 11, 1395

دسته بندی ها

object detection

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

2 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

object detection

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

2 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید