به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

در مقاله faster rcnn اشاره شده تصاویر تغییر مقیاس داده میشه بطوری که کوچکترین سمت تصویر ۶۰۰ پیکسل باشه و هیچ کدام از دو سمت از ۱۰۰۰ پیکسل تجاوز پیدا نکنه,
در صورتی که ورودی شبکه VGG16 یک تصویر به ابعاد ۲۲۴ در ۲۲۴ هست.
چجوری این تصویر به این شبکه داده میشه؟

توسط (138 امتیاز)

2 پاسخ

+1 امتیاز
 
بهترین پاسخ

سلام.
بنده مقاله faster rcnn رو نخوندم ولی احتمالا اینجوریه که 224x224 اندازه تصویر ورودی به VGG وقتی که روی دیتاست imageNet آموزشش دادن هستش ولی موقع inference میتونه هر سایزی باشه.
شما اگه میخواید فایت تیون کنید میتونید سایز تصویر ورودی به VGG را یه چیزی غیر از 224x224 قرار بدید.

توسط (830 امتیاز)
انتخاب شده توسط
تا حالا اینطوری نگاه نکرده بودم. موضوع جالب شد. اندازه‌ی ورودی مستقل از اندازه‌ی کرنل هست. چقدر خوب. ممنون
+1 امتیاز

سلام
بله همانطور که اشاره کردید این vgg روی امیج نت با سایز 224 آموزش داده شده است منتها وقتی که از این شبکه به عنوان بخش استخراج کننده ویژگی برای تسک دتکشن استفاده میشود دیگر لایه های fc ها را حذف میکنند و حالا براحتی روی سایز غیر 224 قابل اجرا میشود

توسط (389 امتیاز)
...