Tanya Jawab dan Diskusi Minggu ke-9

Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by TAUFIK HIDAYATULLOH -
Number of replies: 11

- Mengapa proses reduksi dimensi penting dilakukan dalam analisis dataset yang kompleks seperti House Price?
- Dan pada tahap modeling, jika dataset House Price memiliki 80 fitur dan direduksi menjadi 28 fitur, bagaimana cara mengevaluasi apakah reduksi tersebut berhasil mempertahankan informasi penting?

In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by PUTRI AULIA LESTARI -
1. Pentingnya Reduksi Dimensi :
1. Mengurangi overfitting.
2. Meningkatkan efisiensi komputasi.
3. Fokus pada fitur penting, meningkatkan kinerja model.
2. Evaluasi Keberhasilan :
1. Pastikan >90% varians terwakili.
2. Verifikasi fitur yang dipilih logis secara domain.
3. Cek konsistensi performa pada subset data.
4. Analisis fitur paling berpengaruh pada model.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by ZULFA RIZQI SAPUTRI -
1. Proses reduksi dimensi ini penting dilakukan untuk memahami dataset yang kompleks, seperti dataset House Price. Karena Reduksi Dimensi ini merupakan proses mengubah data dari ruang berdimensi tinggi menjadi ruang berdimensi rendah, dengan tujuan untuk mempertahankan informasi penting dari data asli.

2. Untuk mengevaluasi keberhasilan reduksi dapat dilakukan dengan membandingkan nilai metrik pada model sebelum dan sesudah reduksi, lalu melalui visualisasi scatter plot antara harga prediksi dan harga aktual, kita dapat mengamati apakah pola linearitas masih jelas terlihat, serta menilai apakah komponen-komponen tersebut masih relevan dengan karakteristik pada dataset House Price.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by FAUZIAH FITRIANI -
1. Proses reduksi dimensi penting dilakukan untuk menganalisis data harga rumah. Dengan menggunakan teknik ini, kita bisa mendapatkan hasil analisis yang lebih baik, lebih cepat, dan lebih mudah dipahami. Reduksi dimensi itu seperti menyederhanakan data yang rumit menjadi data yang lebih mudah dipahami. Bayangkan kita punya banyak sekali informasi tentang rumah, seperti luas, jumlah kamar, lokasi, dan sebagainya. Informasi yang terlalu banyak ini bisa membuat kita bingung. Nah, reduksi dimensi ini seperti menyaring informasi tersebut, sehingga kita hanya fokus pada informasi yang paling penting dan relevan.
2. keberhasilan reduksi dimensi dapat dievaluasi dengan membandingkan kinerja model, visualisasi data, dan analisis fitur sebelum dan sesudah reduksi.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by RAHMADINI RAHMADINI -
1. Pentingnya Reduksi dimensi:
a. Mengurangi Komputasi => Mengurangi fitur mempercepat proses
pelatihan model dan pengolahan data, sehingga efisiensi komputasi
meningkat, terutama pada dataset yang sangat besar.
b. Mengatasi Curse of Dimensionality => Dengan banyaknya fitur, data
dapat menjadi terlalu jarang (sparse), sehingga sulit untuk
menemukan pola yang bermakna. Reduksi dimensi mengurangi
jumlah fitur, membuat data lebih padat dan analisis lebih akurat.
c. Memperbaiki Visualisasi Data => Dengan dimensi lebih rendah, data
lebih mudah divisualisasikan untuk analisis eksplorasi,terutama
menggunakan grafik 2D atau 3D.
d. Menghilangkan Noise => Menghapus fitur yang tidak relevan atau
berisi noise membantu meningkatkan kualitas data dan fokus pada
informasi penting.
e. Mengatasi Overfitting =>Fitur yang terlalu banyak dapat membuat
model menangkap noise alih-alih pola yang relevan, sehingga
mengurangi generalisasi model terhadap data baru. Reduksi dimensi
membantu model fokus pada fitur yang benar-benar berpengaruh.
2. Keberhasilan evaluasi reduksi:
a. Bandingkan Performa Model => Evaluasi kinerja model sebelum dan
sesudah reduksi menggunakan metrik seperti RMSE, MAE, atau R².
b. Proporsi Varians yang Dijelaskan => Periksa berapa banyak varians
yang dijelaskan oleh fitur yang direduksi (misalnya, dalam PCA).
c. Visualisasi Korelasi => Analisis korelasi fitur terhadap target dengan
heatmap atau scatterplot.
d. Feature Importance => Bandingkan daftar feature importance
sebelum dan sesudah reduksi.
e. Cross-Validation => Gunakan cross-validation untuk memastikan
performa model stabil.
f. Rekonstruksi Data => Hitung Mean Squared Reconstruction Error
(MSRE) jika metode seperti PCA digunakan.
g. Uji Statistik => Gunakan uji seperti ANOVA atau Chi-Square untuk
memastikan fitur yang dipilih relevan dengan target.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by RESTI JAMILAH -
Proses reduksi dimensi penting dilakukan karena beberapa alasan, terutama ketika menangani dataset yang besar dan kompleks seperti dataset House Price:

1. Mengurangi Redundansi dan Kolinearitas
Banyak fitur dalam dataset bisa saja saling berkorelasi (misalnya, TotalArea dan LivingArea). Reduksi dimensi membantu menghilangkan fitur yang tidak memberikan informasi baru.

2. Meningkatkan Efisiensi Komputasi
Dengan mengurangi jumlah fitur, model memerlukan waktu lebih sedikit untuk dilatih dan diuji, sehingga efisiensi komputasi meningkat.

3. Mencegah Overfitting
Dataset berdimensi tinggi sering kali meningkatkan risiko overfitting, di mana model menjadi terlalu "spesifik" terhadap data pelatihan. Dengan reduksi dimensi, kompleksitas model berkurang, sehingga performa pada data baru lebih baik.

Mempermudah Interpretasi
Mengelola 80 fitur untuk analisis bisa menjadi tantangan, sedangkan mengelola 28 fitur lebih praktis dan memudahkan interpretasi hasil.

Untuk memastikan bahwa informasi penting tetap dipertahankan setelah reduksi dimensi, ada beberapa metode evaluasi yang dapat dilakukan:

1. Variance Explained Ratio
Jika menggunakan metode seperti PCA (Principal Component Analysis), periksa explained variance ratio pada komponen yang dipilih. Pastikan komponen baru (28 fitur) tetap mencakup proporsi varians yang tinggi, misalnya 90-95%.

2. Kinerja Model

Latih model dengan data sebelum dan setelah reduksi dimensi.
Bandingkan metrik performa model (misalnya, mean squared error untuk regresi atau akurasi untuk klasifikasi). Jika performa tetap sama atau membaik, reduksi berhasil.
3. Korelasi dengan Target
Periksa korelasi antara fitur baru (setelah reduksi) dengan target variabel (house price). Fitur-fitur yang dihasilkan harus tetap relevan terhadap variabel target.

4. Visualisasi Data
Jika dimensi dataset cukup kecil (misalnya, setelah direduksi menjadi 2 atau 3 fitur menggunakan PCA atau t-SNE), gunakan visualisasi seperti scatter plot untuk memverifikasi pola-pola signifikan dalam data tetap terlihat.

5. Rekonstruksi Data
Untuk metode seperti PCA, coba rekonstruksi data asli dari data yang telah direduksi. Hitung error rekonstruksi (reconstruction error), misalnya dengan metrik seperti mean squared error. Jika error rendah, berarti informasi penting tidak banyak hilang.

Dengan pendekatan ini, Anda dapat memastikan bahwa meskipun jumlah fitur berkurang, informasi inti tetap dipertahankan untuk analisis dan prediksi yang akurat.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by GITA YULITASARI -
1. Karena proses reduksi dimensi dapat membantu mengurangi waktu komputasi dan kebutuhan memori, serta mengatasi curse of dimensionality dengan membuat data lebih mudah untuk dianalisis. Selain itu, dengan menggunakan proses reduksi dimensi juga dapat memudahkan visualisasi data dalam 2D atau 3D, membantu menghilangkan fitur yang tidak relevan atau redundant, serta mengurangi risiko overfitting dengan menyederhanakan model.

2. Cara mengevaluasi apakah reduksi dimensi dari 80 fitur menjadi 28 fitur pada dataset House Price dapat dilakukan dengan memeriksa persentase variansi yang dijelaskan oleh fitur-fitur yang dipertahankan terlebih dahulu, kemudian bandingkan kinerja model sebelum dan sesudah reduksi, lakukan cross validation untuk diuji konsistensinya, dan visualisasikan data untuk memastikan bahwa pola penting yang dipertahankan masih ada kemudian analisis pentingnya fitur dalam model dengan menggunakan teknik seperti gradient boosting atau random forest. Dengan digunakannya metode ini, dapat membantu untuk memastikan bahwa proses reduksi tidak menghilangkan informasi penting yang nantinya diperlukan untuk analisis maupun pemodelan.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by DAIRAH DAIRAH -
Cara yang untuk mengevaluasi apakah informasi penting masih terjaga:
1.Visualisasi Explained Variance Ratio
Tujuan: Melihat seberapa besar variabilitas data asli yang dapat dijelaskan oleh masing-masing komponen utama baru.
dengan Cara: Buat plot scree plot atau plot elbow. Plot ini akan menunjukkan penurunan proporsi varians yang dijelaskan oleh setiap komponen utama secara berurutan.
2.Perbandingan Kinerja Model
Tujuan: Membandingkan kinerja model yang dibangun dengan data asli (80 fitur) dan data yang sudah direduksi (28 fitur).
Cara:membangun beberapa model yang sama (misalnya, regresi linear, random forest) dengan kedua dataset.
Bandingkan metrik evaluasi seperti RMSE, MAE, atau R-squared.
Harapan: Model dengan data yang direduksi seharusnya memiliki kinerja yang tidak jauh berbeda secara signifikan dengan model dengan data asli. Jika terjadi penurunan kinerja yang signifikan, maka mungkin ada informasi penting yang hilang dalam proses reduksi.
3.Analisis Residual:
Tujuan: Mengetahui apakah terdapat pola tertentu pada residual (selisih antara nilai prediksi dan nilai aktual) yang mengindikasikan adanya informasi penting yang hilang.
Cara: Membuat plot residual terhadap nilai prediksi atau terhadap fitur-fitur penting.
Harapan: Residual seharusnya terdistribusi secara acak dan tidak menunjukkan pola yang jelas. Jika ada pola, maka mungkin ada informasi yang belum tertangkap oleh model.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by NAISYA PUTRI LESMANA -
1. Proses reduksi dalam analasis dataset kompleks misalnya house price perlu dilakukan karena:
a. Dapat meningkatkan Kinerja Model,
b. Dapat mengurangi overfitting,
c. Mampu menyederhanakan interpretasi dataset,
d. Mampu meningkatka akurasi model.
2. Berikut cara untuk mengetahui keberhasilan proses reduksi dalam mempertahankan informasi penting pada dataset House Price:
a. Mengevaluasi Kinerja Model,
b. Analisis Varians yang Dijelaskan,
c. Feature Importance,
d. Visualisasi.
In reply to TAUFIK HIDAYATULLOH

Re: Tahap Data Understanding (CRIPS-DM) & Modeling (PCA)

by FEBIYANTI FEBIYANTI -
Mengapa Proses Reduksi Dimensi Penting Dilakukan dalam Analisis Dataset yang Kompleks seperti House Price?
Proses reduksi dimensi penting dilakukan dalam analisis dataset yang kompleks, seperti :
1. Mengurangi Kompleksitas Model
2. Mengurangi Overfitting
3. Meningkatkan Kecepatan Pelatihan
4. Memudahkan Visualisasi
5. Mengatasi Masalah Multikolinearitas

Cara Mengevaluasi Apakah Reduksi Dimensi Berhasil Mempertahankan Informasi Penting
1. Persentase Varians yang Dijelaskan
2. Analisis Scree Plot
3. Evaluasi Kinerja Model
4. Cross-Validation
5. Visualisasi Komponen Utama
6. Analisis Fitur Penting