سلام
یکی از پست های خیلی خوب در زمینه attention توی تصویر، این لینکه که اومده انواع attention از جمله گوسی و شبکه های transformer رو خیلی ساده با کدش توضیح داده
http://akosiorek.github.io/ml/2017/10/14/visual-attention.html
از نظر اینکه آیا جواب بهتری میده یا نه، تحلیل های خیلی زیادی در موردش هست اما جواب سطح بالاش به طور کلی بله اس
توی مباحث nlp و شبکههای recurrent که تقریبا جزو استانداردها شده.
از نظر تجربه شخصی، من توی semantic segmentation ازش استفاده کردم و نتیجه خیلی خوبی هم گرفتم
حالا اینکه از چه تکنینی استفاده کنید بسته به مساله و دید خودتون داره، و حتی می تونید کلی روشهای خلاقانه استفاده کنید
در مورد اینکه پرسیدید آیا میشه برای هر دیتاستی به کار برد، یکم سوال عجیبیه و به نظرم موردی باید بررسی بشه
اما شاید برای اول کار می تونید اینطوری بهش فکر کنید که مثلا dropout یا residual connection می تونه برای هر دیتاستی استفاده بشه؟ جوابش اینه که بهتره بپرسیم آیا این ابزارها کارایی مدل رو بهتر می کنن یا نه وگرنه استفاده کردنش توی مسائل مختلف امکان پذیره. attention هم همینطوره
بازم بسته به مساله خودتون داره اما فعلا attention به خاطر تاثیراتی که داشته خیلی مورد توجه و داره استفاده میشه و چون وارد کردنش به اکثر مدلها کار پیچیده ای هم نیس بهتره حتما تستش کنید
این پست رو هم ببینید خیلی جزئی تر از پست بالایی در مورد یه سری از مسائل مرتبط با attention توضیح داده
https://towardsdatascience.com/visual-attention-model-in-deep-learning-708813c2912c