با سلام
softmax برروی نورون های لایه آخر اعمال شده و خروجی آنها را به فضای احتمالاتی (مجموع برابر یک) می برد. این لایه به نسبت عددهای بزرگ را کوچیک و عدد های کوچیک رو بزرگتر می کند و این عمل باعث بدست آمدن loss بزرگتر در صورت استفاده از cross-entropy شده و خطای بزرگتری را به شبکه backpropagete خواهد کرد. و در نتیجه برگشت خطای بزرگتر یعنی همگرایی سریعتر.