اجرای classification در Caffe

Question

با سلام و خسته نباشید
ضمن تشکر از سایت خوبتون
من مطالب سایتتونو خوندم ومی خواهم یه نمونه دسته بندی پیاده سازی کنم.باتوجه به مقاله شما و همچنین قسمت آموزش سایت Caffe مراحل زیر رو اجرا کردم ولی جاهایی مشکل دارم
دوتا فولدر درست کردم : یکی برای Train و دیگری به نام Test که هر کلاس تقریبا 200 تصویر دارم.
enter image description here

در مرحله اول دیتابیسو ساختم :

 convert_imageset.exe --resize_height=32 --resize_width=32 --shuffle
 .\models\mymodel\Train .\models\train\train.txt
 .\models\mymodel\mydataset_train_lmdb

مرحله دوم فایل باینریمو ساختم :

 compute_image_mean .\models\mymodel\mydataset_train_lmdb
 .\models\mymodel\mean_image.binaryproto

مرحله سوم که می خواهم کار TrainوTest را انجام دهم چندتا سوال داشتم :

caffe train --solver .models\mymodel\solver.prototxt

1.آیا اندازه تصویر 32 * 32 از دقت شناسایی کم نمی کند؟ چه اندازه ای مناسب می باشد؟

2.آیا می توانم از معماری bvlc_googlenet استفاده کنم؟

3.پارامتر های مناسب برای Solver من چی هست؟

net: "models/bvlc_googlenet/train_val.prototxt"
test_iter: ؟
test_interval: ؟
test_initialization: false
display: 40
average_loss: 40
base_lr: 0.01
lr_policy: "step"
stepsize: 320000
gamma: 0.96
max_iter: ؟
momentum: 0.9
weight_decay: 0.0002
snapshot: ؟
snapshot_prefix: "models/bvlc_googlenet/bvlc_googlenet"
solver_mode: GPU

4.پارامتر batch_size در train_val.prototxt برابر با تعداد دسته هایی که پردازش می شوند با توجه به اینکه من 1000 تصویر دارم عدد 200 مناسب می باشد یا خیر؟

5.با توجه به ایجاد دیتابیس وتغییر اندازه تصاویر به 32*32 آیا crop_size نیاز می باشد؟

6.در لایه "loss3/classifier" پارامتر num_output باید برابر تعداد کلاس ها باشد یعنی num_output = 5 ؟

7.آیا باید جای دیگر تغییراتی اعمال کنم؟

با تشکر فراوان از زحمات شما.

سید حسین حسن پور · Answer 1 · 2017-02-26T19:29:04+0000

سلام
اندازه تصویر ورودی شما بیشتر تابع امکانات سخت افزاری شما و معماری شماست . اگه شما اندازه تصاویرتون بزرگ باشه قطعا دقت بهتری میگیرید خصوصا اگر لایه های بیشتری رو داده های بیشتری بتونن کار کنن .
اما اگر مشکل دارید میتونید سایز رو کاهش بدید . 32 در 32 هم بد نیست (بعضی از دیتاست های استاندارد مثل CIFAR10/10,SVHN,STL اینا همه 32 در 32 هستن . و باز جالبه بدونید تصاویر ایمیج نت که اول به 256 ریسایز میشن و بعد با کراپ 227 در 227 به شبکه فرستاده میشن تو همون دو لایه اول تبدیل به سایز 56 در 56 و مثل این میشن و شبکه در ادامه با این اندازه شروع به کار میکنه و هر بار بعد چند لایه اونو کاهش میده . اینو گفتم تا یک ایده داشته باشید از بقیه دیتاها)

بله شما میتونید از هر معماری ای استفاده کنید اما بعضی معماری ها نسبت به بقیه بهتر عمل میکنن که این هم میتونه تابعی از اندازه دیتاست شما باشه (مثلا گوگل نت از وی جی جی نت و الکس نت بهتره اما وی جی جی نت معماری ساده تری داره (هرچند سنگین تر و غیربهینه تر اما تو کاربردهای مختلفی مثل دیتکشن و... تو مقالات حداقل بیشتر استفاده شده بخاطر اون معماری ساده و سر راستش)

اندازه بچ سایز شما اگه کم باشه گرادیان غیر پایدارتری درست میکنه و دیرتر به همرگایی میرسید . معمولا سایز بین 32 تا 256 و بعضا 512 سایز مناسبیه (من خودم همیشه بین 50 تا 100 رو استفاده میکنم ) . نکته دیگه اینه که اندازه بچ بیشتر باعث میشه اموزش سریعتر انجام بشه و تعداد تکرار های کمتری برای رسیدن به یک ایپاک مورد نیاز باشه .

میتونید کراپ نکنید اما اگر خواستید بکنید سعی کنید تصویر ورودی رو zero pad کنید با چند پیکسل تا وقتی کراپ میکنید با اندازه 32 کراپ کنید . (هرچند بعضی ها ممکنه با اندازه کمتر هم کراپ کنن اما من شخصا در عمل نتیجه بدتری گرفتم )

معماری رو که من ندیدم اما اگر قبل از لایه سافتمکس هست بله باید اندازه تعداد دسته های شما باشه
تست ایتر و تست اینتروال رو هم مقادیرش رو ست کنید . در این مورد تو سایت توضیح دادم چطور باید عمل کنید .

سلام . اولا تعداد تصاویر شما خیلی کمه باید بیشترش کنید . حتی اگه از فاین تونینگ هم میخوایید استفاده کنید باز این اندازه تصاویر کافی نیستند بنظر من و فکر نمیکنم نتیجه مناسب رو بتونید بگیرید.
در مورد ست کردن نرخ یادگیری و تعداد تکرارهای کلی هم این یه مساله مرتبط با دیتاسته شماس .وی جی جی نت روی ایمیج نت اموزش دیده که یک و نیم میلیون تصویر داره! و تنظیماتش با شما قطعا متفاوته و بهینه برای شما نیست.
بنظرم شما سعی کنید از معماری سبک تری مثل squeezenet استفاده کنید شاید نتیجه بهتری بگیرید (البته با فاین تون و افزایش دیتاست )
دوما حجم مدل عادی هست چون وی جی جی نت تعداد پارامترهای خیلی زیادی داره (بیش از 140 میلیون ) و این ربطی به اندازه تصویر و اندازه دیتاست شما نداره.مدل حاصل فقط وزنهای اموزش دیده اس و چون تعداد زیادی از اونها وجود داره حجم اونم زیاده .

اگرخطایی هم میگیرید میتونید در یک سوال دیگه اونو مطرح کنید. اینجا اگه جوابتون رو گرفتید لطفا جواب رو با زدن تیک مشخص کنید که تکلیف این سوال مشخصه بشه. — سید حسین حسن پور, دی 11, 1395
سلام و خسته نباشید
من بر روی یک نمونه کار کردم که معماری آن 1000CaffeNet تصویر برای train و 200 تصویر برای val در 10 دسته بندی دارد مقادیر test_iter : 4, batch_size test : 50 ست شده است که 4 * 50 برابر با 200 می شود کل دیتا تست ما را پوشش می دهد و همچنین test_interval : 1000 می باشد batch_size در مرحله train :256 می باشد یه مقدار گیج شدم.آیا این مقادیر درست می باشد؟ — mehrdad, دی 11, 1395

دسته بندی ها

اجرای classification در Caffe

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

سوالات مشابه

دسته بندی ها

اجرای classification در Caffe

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید

لطفا وارد شده یا عضو شوید تا بتوانید سوال بپرسید

1 پاسخ

لطفا وارد شده یا عضو شوید تا بتوانید دیدگاهی ارسال نمایید