سلام
برای این ایده اگه این 3 تا کانال جدا وارد می شن می تونید3 تا input برای شبکه در نظر بگیرید و هر input یه سری کار روش انجام بشه بعدا یه جایی با هم concat بشن
این ایده همون چیزیه که توی کراس بهش می گه مدلهای multi input و توی مثالهاش هم هست
البته میشه کلا به همون صورت RGB بدیم به شبکه و توی خوده شبکه هر کانال رو جدا کنیم و مسیرهاشون رو جدا کنیم که از نظر پیاده سازی خیلی سختتر از روش اول نیس
1 - روش بالا رو پیاده کنید همه چیز کار می کنه و نیاز به ساختار ویژه ای نیست(از نظر تکنیکال). اما مثلا می تونید بگید هر مسیر از بلوکهای resnet استفاده می کنه یا مثلا از ایده های ساختار VGGish استفاده کنید و ..... خلاصه که دستتون حسابی بازه
2 - در صورتی که از این ایده استفاده کنید که اول شبکه 3 تا مسیر متفاوت برای هر کانال طی بشه، این تصمیم هم مثل بقیه شبکه ها میشه. یعنی مثلا شاید براتون زمان و حجم پارامترها هم مهم باشه بگید من از depthwise استفاده میکنم، یا اینکه اصلا مهم نباشه و همون convolution معمولی هم کارتون رو راه بندازه. خلاصه که باز اینم چیزی نیس که مثلا از قبل بشه 100 درصدی گفت حتما خوبه یا نه. البته اگه بحث سرعت یا تعداد پارامترها باشه یه بحث دیگس
3 - کلا اینجا هم مجبوریم بگیم که بستگی به مساله داره D: .
انتخابها هم خیلی زیاده، مثلا اینطوری برید جلو که کلا فعلا بی خیاله تایم سری بودن بشید و مثل ایده استفاده از CNN برای پردازش متن برخورد کنید
یا اینکه یه تیکه شبکه convolution باشه (مثلا همون اول که داره هر کانال رو پردازش می کنه)، بعد همه ترکیب بشن و یه تیکه شبکه تون RNN باشه یا اینکه کلا این 3 تا برن توی 3 تا RNN و بعد نتایج اونا ترکیب بشن و ...
اما نظر شخصی رو بخوای، بهتره تا میشه اول کار ساختار یه چیزه ساده و قابل فهم باشه. مثلا میگیم VGGish برای صدا خوب بوده. پس بیایم پایه کار رو بر اساس اون بذاریم و اگه میشه همونو مستقیم تست کرد ببینیم چه نتیجه ای میده
بعد مثلا این ایده 3 تا کانال رو پیدا کنیم و برای VGGish سه تا ورودی و 3 تا مسیر ابتدایی در نظر بگیریم که وسط شبکه ترکیب می شن و ....
نکته دیگشم اینجاس که خیلی وقتا این انتخابا، مثل اینکه لایه کانولوشن pointwise باشه یا depthwise باشه یا اصلا deformable باشه و ...، واقعا تاثیر چشم گیری نداره و همون کانولوشن معمولی هم اگه خوب tune بشه خیلی خوب جواب بده. برای همین ایده خوبیه که با یه ساختار کلی که می دونیم توی مسائل شبیه کاره ما خوب جواب دادن شروع کرد و کم کم تغییرش داد