سلام
ما پیاده سازی های خیلی متنوعی از attention توی ساختارهای مختلف داریم و بهتره منظورتون از شباهت به res connection رو دقیق تر بیان کنید تا بهتر بشه در مورد سوال اولتون توضیح داد.
در مورد سوال دومتون هم اگه مقالات مرتبط با NLP به خصوص بحثهای داغی مثل machine translation یا question answering رو ببینید، تقریبا اکثریت از یه نوعی از attention استفاده کردن
برای نمونه این مقاله از گوگل رو ببینید:
Google's Neural Machine Translation System
> https://arxiv.org/abs/1609.08144
توی ویژن هم مدلهایی visual question answering یا visual world resoning و captioning که از attention خیلی استفاده می کنن. یه نمونه به نسبت قدیمی توی image captioning این مقاله اس
Show, Attend and Tell
> https://arxiv.org/abs/1502.03044
توی مدلهای generative مثل variational autoencoder ها هم بحث attention و تاثیرش بررسی شده. برای نمونه DRAW که ساختار vae داره رو می تونید ببینید
DRAW: A Recurrent Neural Network For Image Generation
> https://arxiv.org/abs/1502.04623
این چندتا مثالی که زدم فقط برای نشون دادن گستردگی استفاده از attention توی مسائل مختلف و تاثیریه که گذاشته. الان توی خیلی از مسائل نظیر همین هایی که مثال زدم، استفاده از attention دیگه یه جور best practice شده
توی کلی از مسائل دیگه هم بگردید و مقالات کنفرانسهایی مثل CVPR برای ویژن یا ACL برای NLP رو ببینید، متوجه میشید که چقدر استفاده از attention در انواع شکلهاش محبوبیت پیدا کرده
حتی مدلهایی که از memory استفاده می کنن به نحوی، مثل neural differential computers یا dynamic memory networks رو هم میشه به دید attention تحلیلشون کرد یا به عبارتی دیگه این مدلها هم یه نوعی از attention رو پیاده می کنن
برای بحث آموزش و توضیح attention توی ساختارهای مختلف هم این پستها می تونه مفید باشه که توی سوالات دیگه هم مطرح شدن
http://akosiorek.github.io/ml/2017/10/14/visual-attention.html
==========
https://towardsdatascience.com/visual-attention-model-in-deep-learning-708813c2912c
==========
https://distill.pub/2016/augmented-rnns
==========
http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp