با سلام و احترام
در MSE اختلاف فاصله تمامی نمونه های خروجی شبکه رو با نمونه برچسب سنجیده و به توان میرساند و به عنوان loss قرار میدهیم ولی در Cross-E مجموع لگاریتم نمونه های خروجی که میبایستی یک می بودند را بعنوان loss قرار می هیم.
در رگرسیون خروجی مطلوب به صورت یک عدد یا یک بردار پیوسته میباشد که بایستی خروجی شبکه را بازای تمامی مقادیر به این مقدار مطلوب نزدیک کنیم - پس بایستی از روابط ای برای loss استفاده کنیم که تمامی مقادیر خروجی را با تمامی مقادیر برچسب مقایسه کند - که MSE این کار را انجام می دهد.
در کلاسیفیکیشن (single-label classification) خروجی مورد انتظار یک بردار one-hot می باشد که فقط کافیست یک مقداری از خروجی (مقدار ماکزیمم) که متناظر آن در برچسب یک است را در نظر بگیریم و مقدار بقیه خروجی ها اهمیتی ندارد. برای این منظور بهتر است از Cross-E استفاده کنیم.
در کلاسیفیکیشن (multi-label classification) از logistic regression loss استفاده می شود. که همون cross-E هستش که هم مقادیر صفر و هم مقادیر یک را در نظر میگیرد.
البته از MSE در کلاسیفیکیشن میتوان استفاده کرد ولی Cross-E سرعت همگرایی بالاتری داره (تابع log شیب بیشتری نسبت به 2^x دارد).
همچنین توجه داشته باشید در کلاسیفیکیشن بایستی مقادیر خرجی شبکه را با softmax یا توابع دیگر به حالت احتمالاتی برده سپس از cross-E استفاده شود.