سلام.
نسخه R-CNN اوایه برای طبقه بندی از SVM استفاده میکرد. در واقع به این صورت بود که شبکه کانولوشنی رو که روی imagenet قبلا pretrain شده بود دوباره روی دیتای detection (مثلا VOC که 20 کلاسه) با head نوع softmax ترین میکردن و بعدش از شبکه ترین شده به عنوان feature extractor برای SVM استفاده میکردن و تسک نهایی رو SVM انجام میداد.
تو نسخه Fast یه سری اصلاحات ایجاد کردن و کلا SVM رو حذف کردن. و در واقع از همون softmax استفاده کردن. در واقه ترین R-CNN عادی که چند مرحله ای بود (ترین با softmax به علاوه طبقه بندی با SVM) رو یک مرحله ای کردن و کل پروسه (به جز انتخاب region proposals) رو در یک شبکه یکپارچه کردن. (البته کماکان انتخاب ناحیه های پیشنهادی با روشهای قبلی انجام میشد ولی فرقش این بود که هر ناحیه رو جداگانه به شبکه forward نمیکرد و کل عکس رو یک بار فوروارد میکرد و در لایه آخرین کانولوشن(feature map) ناحیه ها رو جدا میداد به ادامه شبکه و با این کار در محاسبات لایه های کانولوشن صرفه جویی میکرد).
نسخه fast رو از این جهت که عملیات آموزش کلیه وزنهای شبکه به صورت یکپارچه انجام میشه (چون مرحله طبقه بندی جدا با SVM حذف شده) میشه end-to-end بهش گفت. ولی واقعیت اینه که همون طور که گفتید region proposals ها توسط شبکه انجام نمیشه و قبل ترین شبکه این نواحی با روشهای دیگه استخراج میشه در نتیجه اگه مرحله region proposals رو هم در نظر بگیرید و بخواهید این مرحله رو هم شبکه انجام بده خب در این صورت نمیشه به نسخه fast گفت end-to-end
نسخه faster بخش region proposals رو هم با یه شبکه RPN انجام میده و این نسخه رو میشه end-to-end تلقی کرد چون کل فرآیند یادگیری با backpropagation و شبکه عصبی صورت میگیره.