با سلام
هر چقدر میزان batch_size بزرگتر باشه حجم داده بیشتری بایستی بر روی حافظه gpu ذخیره بشه - علاوه بر داده ورودی به اندازه batch_size مقادیر گرادیان برای بروز رسانی وزن ها هم بایستی ذخیره بشه و با توجه به حجم خود شبکه معمولا نمی توان batch_size را خیلی زیاد گرفت.
بطور مفهومی استفاده از بچ های بزرگتر باعث می شود که شبکه در مسیری بهینه تر و با کمتر پرسه زدن به مینیمم همگرا بشود در حالی که با بچ های کوچکتر شبکه با پرسه زدن در جهات غیر بهینه به مینیمم همگرا می شود.
در مواقعی که بچ سایز را کوچک انتخاب می کنیم بایستی نرخ آموزش learning_rate را کوچکتر و تعداد epoch های کمتر از مواقعی بگیریم که بچ سایز بزرگتری داریم.
با توجه به این مقاله دیده شده است که بچ سایز بزرگتر ممکن است منجر به مشکل در بحث تعممیم پذیری شود.