Deprecated: Function get_magic_quotes_gpc() is deprecated in /home/ustmbir/domains/deeplearning.ir/public_html/qa/qa-include/qa-base.php on line 1177
object detection - پرسش و پاسخ یادگیری عمیق
به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

+2 امتیاز

سلام عرض ادب
دوستان لطف کنید بگید که فرق بین object detection in image and video در چی میتونه باشه ؟
آیا الگوریتم های خاص خودشون رو دارند ؟ مگه یک object detection ای که در امیج کار میکند و تست میشود ، در video قابل لحاظ نیست ؟ اگر دو حوزه متفاوتی هستند مگر یه الکوریتمی که برای امیج کارو تست میشود سرعتش به اندازه ای باشد که نرخ تغییر فریم های یک فیلم رو داشته باشد میتواند به این ویدیو اعمال شود دیگه درسته ؟

توسط (389 امتیاز)

2 پاسخ

+1 امتیاز
 
بهترین پاسخ

سلام
چرا در حالت کلی وقتی شما یه سیستمی داشته باشید که برای هر تصویر object detection رو انجام می ده، می تونید برای فیلم هم به ازای هر فریم اون رو اجرا کنید
اما توی فیلم اطلاعات خیلی بیشتری نسبت به تصویر هست و اون توالی فریم هاست
یعنی اینجا می تونید از اطلاعات temporal هم استفاده کنید. هم برای افزایش سرعت پردازش و هم دقت. برای مثال اگه بحث دقت رو در نظر بگیرید می شه این فرضها رو در نظر گرفت:
1- یک شی در ویدئو های معمولی به طور اتفاقی در هرجای دلخواه تصویر ظاهر و ناپدید نمیشود
2- حرکت اشیا در تصویر سرعت کمتری نسبت به فریم ریت فیلم دارد (به عبارت دیگه یه شی که توی فریم فعلی دارید، احتمالا توی فریم بعدی هم همون حوالی می تونید پیداش کنید)
3-بازگشت پذیری- یعنی اگه فیلم رو از اول به آخر پردازش کنید، همون شی هایی رو باید تشخیص بدید که وقتی فیلم رو از آخر به اول پردازش می کنید.این ایده توی تشخیص detection های اشتباه یا در نظر گرفتن context گذشته و آینده کاربرد داره

بسته به فیلم ها و داده هایی که دارید باهاش کار میکنید می تونید فرضهای جدید رو اضافه یا چیزی رو حذف کنید. به طور خلاصه بعد جدیدی که توی فیلم هست (زمان)، اطلاعات خیلی مفیدی برای بهبود کار در اختیار ما می ذاره
برای یک نمونه این مقاله رو ببینید:

https://arxiv.org/abs/1604.04053

توسط (1.6k امتیاز)
انتخاب شده توسط
نظر شما کاملا درسته. اتفاقا خیلی از object detection هایی که الان هم داریم، فقط به صورت frame based کار می کنند. اما باید بدونید که میشه به وسیله اطلاعات زمانی ویدئو بهترش کرد، حداقل از نظر سرعت.
اینکه چرا برای ویدئو هم خوب کار می کنه، چون اشیایی که توی ویدئو هست با اشیایی که مثلا در ms coco اشتراکات زیادی داره.
اما مثلا اگه فقط روی CamVid شبکه رو آموزش بدید، نتیجه خیلی ضعیفی برای تصاویر معمولی می گیرید. چون CamVid فقط تصاویری رو داره که هنگام رانندگی گرفته شده
در مورد سوال دومتون هم، دیتاست هایی که من تا حالا دیدم، همینطوری بوده که می گید، یعنی مثلا اگه فیلم هم هست، برای همه فریم ها یا قسمتی از اونها، bounding box یا نقشه segmentation گذاشتن
که همینطور که گفتید، میشه شما اول روی ms coco (برای مثال) شبکه رو آموزش بدید بعد روی این دیتاستها fine tune کنید که کار رایجی هم هست
ممنونم
قبل از اینکه کار با ویدیو برای یک شبکه دیپ رو انجام بدم میشه بصورت ضمنی بیان کنید که بنظرتون من شبکه ایی که برای تصاویر آموزش دادم با همین ترفند نیز برای ویدیو نیز قابل لحاظ هست ؟ چیزی که به ذهنم میرسه اینکه باید ابتدا فریم های ویدیو رو با b.b هاش دربیاریم که بشه یک مجموعه تصاویر و بعدش اینها به به یک دیتاستی مثله lmdb تبدیل میکنیم و بعدش مثله آموزش با تصاویر انجام میدهیم آیا اینطوری هست ؟
خواهش می کنم
بله همینطوره، یعنی دقیقا مثل این برخورد می کنید که اصلا ویدئویی فعلا در کار نیست و یه سری عکس دارین با bounding box هاش. بعدا اگه نیاز شد می تونید از اطلاعات زمانی هم استفاده کنید. ممکنه هم بگید نه همین که روی frame ها کار می کنه به اندازه کافی خوب هست (که اتفاقا اگه هدف اولیه این باشه خیلی هم خوبه)
0 امتیاز

سلام
https://arxiv.org/pdf/1311.2524v5.pdf
https://arxiv.org/pdf/1504.08083.pdf
arxiv.org/pdf/1506.01497v3.pdf
این سه مقاله میتونن بهتون کمک کنن.

توسط (103 امتیاز)
میخاستم کلیت کار رو بدونم اینها که مقالات RCNN ها هستند تصویر رو میدونم چجوریه میخاستم ببینم ویدیو هم به همین ترتیبه یا نه
...