نقاط sift هر کدوم یک بردار ویژگی دارن که یک آرایه 128 تایی هست و فکر کنم که بتونید در مدلی که میخواهید آموزش بدید، به جای خروجی کانوولوشنها، این بردارهای sfit رو بگیرید (با دستورات مربوطه ش محاسبه کنید) و به عنوان ورودی تابع activation استفاده کنید. این ویژگی ها (اگر از تصویر در بیاد) اثر خیلی خوبی دارن ولی مشکلش اینه که در تصاویر با بافتهای ضعیف، ممکنه اصلا ویژگی ای پیدا نشه (ولی کانوولوشن به هر حال یه چیزی پیدا میکنه تو تصویر).
فریم ورک مد نظرتون رو من نمیدونم ولی هر چی که هست کافیه sift رو توی تصویر پیدا کنید (با opencv) و آرایه ویژگی ها رو به آرایه خروجی های مدل کانوولوشنی رو append یا concatenate کنید و به لایه بعدی (مثلا فولی کانکتد) بدید.