به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

در این مقاله، در قسمت آموزش شبکه از هر تصویر 64 تا ROI انتخاب میشه
حالا سوال اینکه در مرحله‌ی آموزش ما ground-truth bounding-box های هر تصویر رو داریم یعنی غیر از این‌ها بازم ROI تولید می‌کنیم و به عنوان داده‌های نسبتا درست و غلط به شبکه آموزش می‌دهیم؟

توسط (138 امتیاز)
ویرایش شده توسط

1 پاسخ

+2 امتیاز

سلام
بله فقط به تعداد G.T های تصویر ROI تولید نمیشه فرضا در نظر بگیرید Selective search برای یک تصویر 2 هزار ROI تولید میکنه این به این معنی نیست که این تعداد ما G.T آبجکت در تصویر داریم یعنی به اندازه یک G.T ممکن هست 100 تا ROI داشته باشی همون شرطی که فرضا 0.7 برای IOU قرار میدهی این هست که هر چه ROI هایی که با G.T به اندازه 0.7 هم پوشانی دارند جز نمونه های مثبت حساب میشوند و این ROI ها هم در فرآیند ترینینگ دخیل هستند.
معمولا تعداد ROI ها خیلی زیاد از G.T Box ها می باشند.
و ROI هایی که اگه درست یادم باشه بین 3.0 تا .01 با G.T هم پوشانی دارند جز نمونه های منفی یا بکگراند محسوب میشوند و نمونه های 0.1 جز نمونه هایی هستا که به اصطلاح hard negative ها هستند که برای ترین SVM استفاده میشوند.

توسط (389 امتیاز)
مطلب شما درسته که selective search  محدوده‌های احتمالی رو تولید میکنه و باید بررسی بشه ولی در مرحله‌ی آزمایش اینکار انجام میشه، در مرحله‌ی آموزش که دقیقا محدوده‌ی تصویر رو داریم چرا ROI  هایی تولید می‌کنیم که نسبتا درست هستند ( همپوشانی زیادی دارند) یا کاملا اشتباه هستند. اگر با همون ground-truth bounding-box  ها شبکه آموزش داده بشه به نتیجه بهتری نمیرسیم (ضرورت اینکار چیه؟)
برای ترین این به دیتای زیادی نیاز دارید با تعداد بسیار کمی از G.T Box ها نمیتوانید به دقت مطلوبی برسید. در واقع شما با این کار greedy به مسئله نگاه میکنید البته باید یک Trade off ایی بین سرعت و دقت داشته باشید هرچقدر تعداد این proposal ها زیاد باشه دقت بهتر و سرعت کند میشه و برعکس
...