منظور از cardinality دامنه ی ویژگی های غیر عددیتونه... به عنوان مثال ویژگی جنسیت درجه اش ۲ (زن و مرد) ببینید اگر درجه ی ویژگی هاتون زیاد نیست(مثلا ۲ یا ۳ ) بهترین گزینه one-hotهستش چون جمعا ۹ ویژگی به مجموعه ۴۱ ویژگیتون اضافه میشه، اما اگر بیشتر از اینه و همچنین اگر از tensorflow استفاده میکنید از hashing استفاده کنید و یا مکانیزم embedding ...
البته چو شما کار اولیه دارید انجام میدید، استفاده از transformation هم مناسبه ... مسئله رو پیچیده نکنید.
با توجه به نوع مسئله تون الگوریتم یادگیری انتخاب میشه چون من دیدی از مسئله تون ندارم نمی تونم نظری بدم در این باره