Materi 8.3-Data Science


Pengenalan Tipe Data pada Big Data (Science)

Tipe Data dapat dibedakan berdasarkan:

  1. Sumber Data
  2. Waktu (Time Series/Runtun Waktu)
  3. Geo Spasial Data
  4. Struktur Data
  5. Graph Data, dan
  6. Tipe Data (Kategorik/Numerik)

Metode/Algoritma dalam Sains Data

Mahasiswa mengetahui dan dapat menjelaskan tentang berbagai algoritma dalam sains data.

  1. Variabel target (dependent) dan prediktor (independent).
  2. Metode Interdependence (~unsupervised learning) dan Dependence (Supervised Learning).
  3. Univariate/Bivariate Data – Interdependence.
  4. Clustering Analysis (Unsupervised Learning).
  5. Classification Models (Supervised Learning)
  6. Regression Models
  7. Semi-Supervised Learning
  8. Association Rule/Market Basket Analysis
  9. Bayesian, Ensemble, Fuzzy
  10. Dimensionality Reduction/Feature Selection

Teknologi pada Sains Data dan Big Data

Perkembangan teknologi terkait dengan pengolahan data tidak akan luput dari peran komputer yang kemudian membantu melakukan berbagai perhitungan dari data, baik dalam membentuk model terbaik (optimal), maupun dalam melakukan prediksi atau peramalan dari model tersebut. Berdasarkan bagaimana data masuk dan diolah, CPU (central Processing Unit) komputer terbagi menjadi 4 macam (Gambar 6): sebuah proses dan sumber data (SISD), Sebuah proses dan beberapa data (SIMD), beberapa proses dan sebuah sumber data (MISD), dan beberapa proses komputasi dan data (MIMD) seperti kebanyakan komputer modern saat ini.


Seiring dengan berkembangnya ukuran data, teknologi database-pun semakin berkembang (sebut saja data warehouse dan Data Lake). Data tidak lagi dapat disimpan dalam sebuah node komputer, melainkan harus disimpan dalam sebuah cluster database dimana data disebar ke beberapa mesin komputer yang saling terhubung. Salah satu analisa data sederhana dari database ini adalah berbagai statistik dasar (misal rata-rata dan keseragaman data) maupun visualisasi trend perubahan data seiring berjalannya waktu. Dengan kata lain, berbanding terbalik dengan arsitektur sebelumnya (CDDC), DDCC (Distributed Data-Centralized Computing) ini mengolah data yang besar, namun model yang digunakan cenderung lebih sederhana.

Big Data (Science): Peluang, Tantangan dan Trend

Indonesia memiliki bonus demografi, pengguna internet yang berlimpah, serta pengguna media sosial yang sangat tinggi. Ke-3 hal ini berpotensi untuk digunakan sebagai salah satu fondasi dasar suksesnya sebuah bisnis digital berbasis data science atau AI (Gambar1. Sumber data Hootsuite Indonesia 2020). Pengguna mobile phone di Indonesia hingga bulan januari 2020 berjumlah sekitar 338 juta, jumlah ini melebihi jumlah penduduk Indonesia di sekitar 272 juta orang. Sekitar 160 juta penduduk Indonesia aktif menggunakan internet, bahkan sebagiannya (sekitar 66%) merupakan usia produktif (16-64 tahun) dan telah menggunakan berbagai piranti digital modern. Peluang lain yang nampak dari data HootSuite ini adalah besarnya dana yang beredar di bisnis online yang totalnya melebihi $33 milyar. Berbagai statistik ini memberikan gambaran jelas betapa besarnya peluang digital di Indonesia.

Sumber: https://datareportal.com/reports/digital-2021-july-global-statshot


Last modified: Monday, 8 November 2021, 4:54 PM