سلام
1 - همینطور که دوستمون گفتن توی آموزشهای شبکه convolution این مبحث weight sharing توضیح داده شده
اما به طور خلاصه بحثش اینطوریه که مگه هر feature map در حقیقت جواب یه فیلتر نیست که مثلا سایزش 5x5 در تعداد کانالهای لایه قبل ه؟
خب پس مثل اینه که شما یه نورون دارید که به اندازه پارامترهای فیلتر وزن داره و روی خروجی لایه قبلی به صورت sliding حرکت می کنه و خروجی رو برای هر پیکسل توی feature map تولید می کنه
اما توی عمل اگه بخوایم برای هر لایه convolution فقط یه نورون در نظر بگیریم که تمامی مراحل فیلتر و کانولوشن رو انجام می ده خیلی وقت گیره پس برای هر پیکسل از feature map یه نورون در نظر می گیریم که در عین واحد تمامی نورون ها خروجی رو تولید کنن اما همشون هم قرار بود یه کار یا یه فیلتر رو اجرا کنن، پس وزنهای همشون مشترکه
2 - این سوال شما در مورد ساختار کلی واقعیتش اینه که بیشتر بحث تجربه یا هزینه فضا یا زمان آموزش یا ..... هستش
و شما می تونید بگید چرا به جا 2 تا ، 3 تا لایه نداره؟ چرا به جای 4096 ، 5678 تا نورون نداره و .....
اینکه چه ساختار شبکه عصبی برای یه مساله خوبه هنوز هم از مسائل خیلی بازه، البته گوگل یه سری ادعا روش داره
3 - اون لایه 1000 تا هم در واقع یه لایه fc هستش(چون هر نورون از تمامی نورونهای لایه قبلش ورودی می گیره)،
بعدش وارد softmax میشه(که خروجی فرم توزیع احتمال به خودش بگیره) و loss هم بعد از softmax حساب میشه
اینکه چرا 1000 تا نورون داره به خاطره اینه که دادههای ما هم که imageNet باشه 1000 تا کلاس داره