به بخش پرسش و پاسخ یادگیری عمیق خوش آمدید,
این نسخه آزمایشی سایت است.
لطفا به نکات زیر توجه کنید:
  • برای ارتباط با مدیران میتوانید از صفحه مدیران اقدام کنید.
  • سوال و جواب ها باید به زبان فارسی باشند. استفاده از زبان انگلیسی یا فینگلیش برای پاسخ دادن مجاز نیست.
  • لطفا بعد از پرسش سوال لینک سوال خود را در گرو تلگرام (Iran Deep Learning Group) معرفی کنید تا سریعتر به جواب برسید. برای دسترسی به آخرین لینک از منابع یادگیری استفاده کنید
  • لطفا بجای عکس از متن استفاده کنید. اگر متون طولانی هستند از سایت pastebin.com برای اپلود استفاده کرده و لینک حاصل را در سوال خود قرار دهید. برای قرار دادن تصویر ، از بخش ارسال تصویر ادیتور سایت استفاده کنید.
  • بعد از دریافت پاسخ، بهترین پاسخ را از طریق کلیک بر روی علامت تیک انتخاب کنید
  • اگر با خطا و یا مشکلی مواجه شدید از بخش تماس با ما در انتهای صفحه و یا ایمیل Coderx7@gmail.com موضوع را اطلاع دهید.

با تشکر

دسته بندی ها

0 امتیاز

سلام
دوستان، کسی از lable-encoder ها در پایتون استفاده کرده و میتونه یک توضیح مختصر در این باره بده
دیتا ست من شامل چند ستون غیر عددی هست و بقیه ستون ها عدد هست ایا با lable-encoder میتونم تمام ان ستون از ویژگی ها را به صورت کد شده در بیارم؟

توسط (105 امتیاز)

1 پاسخ

+1 امتیاز

با سلام
بله با این تابع می تونید البته باید توجه کنید که :
روش های متعددی جهت encodکردن مقادیر ویژگی های از نوع categorical وجود داره. که بسته به نوع داده و الگوریتم یادگیریتون داره.
روش های زیر میشه معرفی کرد:
۱- one-hot encoding اگر ویژگی های غیر عددیتون high cardinality دارن این روش چندان توصیه نمیشه مگر اینکه کاهش ابعاد بدید.همچنین اگر دامنه ی مقادیر ویژگی هاتون هم با مرور زمان زیاد و کم بشه مدیریت ابعاد ویژگی ها سخت خواهد بود. ولی اگر تو محیط آزمایشگاهی کار میکنین این مشکل ساز نیست و البته اینم بگم که روش هایی برای حل این مسائل وجود داره.
2- label encoding به دلیل نداشتن توزیع آماری داده ها ممکنه نتایج یادگیریتون رو تحت تاثیر بذاره
4- transforming function این روش ها از توزیع داده ی آموزشیتون استفاده میکنن بنابراین اگر نیاز به update مدل دارید و داده هاتون stream هستن کمی مشکل زا خواهد بود.
اگر از tensorflowلستفاده می کنید روش های زیر پیشنهاد میشه :
۱- embedding layer
2- hashing code

موفق باشید...

توسط (105 امتیاز)
ویرایش شده توسط
منظور از cardinality دامنه ی ویژگی های غیر عددیتونه... به عنوان مثال ویژگی جنسیت درجه اش ۲ (زن و مرد) ببینید اگر درجه ی ویژگی هاتون زیاد نیست(مثلا ۲ یا ۳ ) بهترین گزینه one-hotهستش چون جمعا ۹ ویژگی به مجموعه ۴۱ ویژگیتون اضافه میشه،  اما اگر بیشتر از اینه و همچنین اگر از  tensorflow استفاده میکنید  از hashing استفاده کنید و یا مکانیزم  embedding ...
البته چو شما کار اولیه دارید انجام میدید، استفاده از transformation هم مناسبه ... مسئله رو پیچیده نکنید.
با توجه به نوع مسئله تون الگوریتم یادگیری انتخاب میشه چون من دیدی از مسئله تون ندارم نمی تونم نظری بدم در این باره
ممنونم از راهنمایی تون
https://github.com/siddharth-agrawal/Stacked-Autoencoder
https://github.com/cmgreen۲۱۰/TensorFlowDeepAutoencoder
این دو لینک میتونه بهتون کمک کنه .
خواهش میکنم موفق باشید....
...