مطلب شما درسته که selective search محدودههای احتمالی رو تولید میکنه و باید بررسی بشه ولی در مرحلهی آزمایش اینکار انجام میشه، در مرحلهی آموزش که دقیقا محدودهی تصویر رو داریم چرا ROI هایی تولید میکنیم که نسبتا درست هستند ( همپوشانی زیادی دارند) یا کاملا اشتباه هستند. اگر با همون ground-truth bounding-box ها شبکه آموزش داده بشه به نتیجه بهتری نمیرسیم (ضرورت اینکار چیه؟)