سلام
تصاویر استفاده شده همان تصاویر voc هستند و خط به خط که دیباگ کردم مشکلی در لود کردن تصاویر و اطلاعاتش ندیدم. در مورد پیش پردازش و پارامترهای دیگری که شما گفتید من هیچ تغییری در کد اصلی نداده ام (تنها تفاوت اینست که من بجای GPU حالت CPU را انتخاب کردم چون کارت گرافیک ندارم) . نویسنده کد هم در readme صفحه github گفته که با همین کد آموزش داده و به دقت شبیه caffe رسیده است. به خودش که ایمیل زدم هم جوابی به من نداد.
کدهای بخش آموزش و محاسبه loss هم در مورد شبکه های object detection اینقدر تودرتو و پیچیده است که نتونستم با دیباگ بفهمم کجای کار داره Nan را تولید میکنه.
در مورد کاهش نرخ یادگیری هم من آن را تست کردم و مقادیر 0.0001 و 0.00001 را نیز بکار بردم اما فرقی نکرد.