Advertisement

Top online courses in IT & Software

Proses Analisis Data (The Data Analysis Process)

Proses Analisis Data

        Proses analisis data terdiri dari beberapa langkah di mana data mentah diubah dan diproses untuk menghasilkan visualisasi data dan membuat prediksi berkat model matematika berdasarkan data yang dikumpulkan. Kemudian, proses analisis data tidak lebih dari urutan langkah-langkah, yang masing-masing memainkan peran kunci dalam langkah-langkah berikutnya. Jadi, analisis data digambarkan sebagai rantai proses yang terdiri dari urutan tahapan berikut:

  1. Mendefinisikan Masalah
  2. Data Extraction
  3. Data Preparation
  4. Data Exploration And Visualization 
  5. Predicitive Modelling
  6. Model Validation
  7. Deployment 

Mendefinisikan Masalah

Menemukan masalah

        Proses analisis data sebenarnya dimulai jauh sebelum pengumpulan data mentah. Faktanya, analisis data selalu dimulai dengan masalah yang harus dipecahkan, yang perlu didefinisikan. Masalahnya ditentukan hanya setelah kita berfokus pada sistem yang ingin dipelajari. Secara umum, sebuah penelitian dilakukan untuk memahami alur sebuah sistem dan menemukan masalah-masalah yang akan timbul dan mengganggu alur tersebut.


         Langkah definisi dan dokumentasi masalah ilmiah atau bisnis keduanya sangat penting untuk memfokuskan seluruh kegiatan analisis agar mendapatkan hasil yang sesuai. Faktanya, studi sistem yang komprehensif atau menyeluruh terkadang rumit dan kita tidak selalu memiliki informasi yang cukup untuk memulai. Oleh karena itu, definisi masalah dan khususnya perencanaannya dapat menentukan pedoman yang harus diikuti untuk keseluruhan proyek. 

Baca juga : 11 Rekomendasi Website Untuk Mencari Data Sekunder

        Setelah masalah didefinisikan dan didokumentasikan, kita dapat pindah ke tahap perencanaan proyek analisis data. Perencanaan diperlukan untuk memahami proses dan sumber daya mana yang diperlukan untuk pelaksanaan proyek yang seefisien mungkin. Jadi, kita akan mempertimbangkan masalah di area yang melibatkan penyelesaian masalah. Kita akan mencari spesialis di berbagai minat bidang dan menginstal perangkat lunak yang diperlukan untuk melakukan analisis data.

        Juga selama fase perencanaan, kita membentuk dan memilih tim yang efektif. Umumnya, tim ini harus berasal dari berbagai disiplin ilmu untuk memecahkan masalah dengan melihat data dari perspektif yang berbeda. Jadi, membangun tim yang baik tentu menjadi salah satu faktor kuncinya
mengarah pada keberhasilan dalam analisis data.


Data Extraction

Ekstraksi Data

        Setelah masalah didefinisikan, langkah pertama adalah mendapatkan data untuk melakukan analisis. Data harus dipilih dengan tujuan dasar membangun model prediktif, dan pemilihan data sangat penting untuk keberhasilan analisis juga. Sampel data yang dikumpulkan harus mencerminkan sebanyak mungkin dunia nyata, yaitu bagaimana sistem merespon rangsangan dari dunia nyata. Misalnya, jika kita menggunakan kumpulan data dari data mentah dan tidak dikumpulkan secara kompeten, hal ini dapat menggambarkan kesalahan atau situasi yang tidak seimbang.

        Pencarian dan pengambilan data seringkali membutuhkan bentuk intuisi yang lebih dari sekedar penelitian teknis dan ekstraksi data. Proses ini juga membutuhkan ketelitian pemahaman tentang sifat dan bentuk data. Terlepas dari kualitas dan kuantitas data yang dibutuhkan, masalah lain yang perlu diperhatikan adalah menggunakan yang sumber data yang baik dan terpercaya. 

        Banyak bidang yang memerlukan pencarian data dari dunia sekitar, seringkali mengandalkan data eksperimen eksternal, atau bahkan lebih sering mengumpulkannya melalui wawancara atau survei. Jadi dalam kasus ini, menemukan sumber data yang baik yang mampu memberikan semua informasi yang kita butuhkan untuk analisis data bisa sangat menantang. Seringkali perlu untuk mengambil data dari berbagai sumber data untuk melengkapi kekurangan, untuk mengidentifikasi perbedaan, dan untuk membuat dataset seumum mungkin.

Data Analysis Course

        Bila kita ingin mendapatkan data, tempat yang baik untuk memulai adalah Web. Tapi kebanyakan
data di Web bisa sulit diambil; pada kenyataannya, tidak semua data tersedia dalam file atau database, tetapi mungkin konten yang ada di dalam halaman HTML dalam berbagai format. Untuk tujuan ini, metodologi yang disebut Web Scraping memungkinkan pengumpulan data melalui pengenalan kemunculan tag HTML tertentu di dalam halaman web. Ada perangkat lunak yang dirancang khusus untuk tujuan ini, dan setelah kejadian ditemukan, ia mengekstrak data yang diinginkan. Setelah pencarian selesai, kita akan mendapatkan daftar data yang siap untuk dianalisis.

 Baca juga : 10 Python Lybrary Untuk Data Science

Data Preparation

Persiapan Data

        Di antara semua langkah yang terlibat dalam analisis data, persiapan data, meskipun tampaknya tidak terlalu bermasalah, pada kenyataannya membutuhkan lebih banyak sumber daya dan lebih banyak waktu untuk diselesaikan. Data sering dikumpulkan dari sumber data yang berbeda, yang masing-masing akan memiliki data di dalamnya dengan representasi dan format yang berbeda. Jadi, semua data ini harus disiapkan untuk proses analisis data.
        Persiapan data berkaitan dengan perolehan, pembersihan, normalisasi, dan mengubah data menjadi kumpulan data yang dioptimalkan, yaitu dalam format yang biasanya disiapkan dalam bentuk tabel dan cocok untuk metode analisis yang telah dijadwalkan selama fase desain.
        Banyak potensi masalah dapat muncul, termasuk nilai yang tidak valid, ambigu, atau hilang, bidang yang direplikasi, dan data di luar jangkauan. 


Data Exploration And Visualization

Eksplorasi dan Visualisasi Data

      Menjelajahi data pada dasarnya melibatkan pencarian data dalam presentasi grafis atau statistik untuk menemukan pola, koneksi, dan hubungan. Visualisasi data adalah alat terbaik untuk menyoroti pola yang mungkin.
        Faktanya, banyak teknologi digunakan secara eksklusif untuk menampilkan data dan banyak jenis tampilan atau bentuk grafik diterapkan untuk mengekstrak informasi terbaik dari kumpulan data.
      Eksplorasi data terdiri dari pemeriksaan mendasar terhadap data, yaitu: penting untuk memahami jenis informasi yang telah dikumpulkan dan apa yang diceritakan oleh data tersebut. Dalam kombinasi dengan informasi yang diperoleh selama masalah definisi, kategorisasi ini akan menentukan metode analisis data mana yang paling sesuai untuk sampai pada definisi model.
        Umumnya, fase ini, selain studi rinci tentang grafik melalui data visualisasi, dapat terdiri dari satu atau lebih aktivitas berikut:
• Meringkas data
• Mengelompokkan data
• Menjelajahi hubungan antara berbagai atribut
• Mengidentifikasi pola dan tren
• Membangun model regresi
• Membangun model klasifikasi

        Umumnya, analisis data memerlukan pernyataan-pernyataan ringkas mengenai data yang akan dipelajari. Peringkasan data adalah proses dimana data direduksi menjadi interpretasi kecil tanpa mengorbankan informasi penting.
        Langkah penting lain dari analisis berfokus pada identifikasi hubungan, tren, dan anomali dalam data. Untuk menemukan informasi semacam ini, kita sering kali harus menggunakan alat serta melakukan proses analisis data lainnya.
        Metode lain dari data mining, seperti pohon keputusan dan aturan asosiasi, berfungsi secara otomatis mengekstrak fakta atau aturan penting dari data. Pendekatan ini dapat digunakan secara paralel dengan visualisasi data untuk mengungkap hubungan antar data.


Predictive Modelling

Membangun model untuk prediksi data

    Proses ini digunakan dalam analisis data untuk membuat atau memilih model statistik yang cocok untuk memprediksi probabilitas hasil.

    Setelah menjelajahi data, kita memiliki semua informasi yang diperlukan untuk mengembangkan model matematika untuk menunjukkan hubungan antara data. Model-model ini berguna untuk memahami sistem yang sedang dipelajari, dan dengan cara tertentu bisa digunakan untuk dua tujuan utama. Yang pertama adalah membuat prediksi tentang nilai data yang dihasilkan oleh sistem; dalam hal ini, kita akan berurusan dengan model regresi. Tujuan kedua adalah untuk mengklasifikasikan produk data baru, dan dalam hal ini, kita akan menggunakan model klasifikasi atau model clustering. Bahkan, dimungkinkan untuk membagi model menurut jenis hasil yang didapatkan:

Model klasifikasi: Jika hasil yang diperoleh tipe model adalah kategorikal.

Model regresi: Jika hasil yang diperoleh tipe model adalah numerik.

Model Clustering: Jika hasil yang diperoleh tipe model bersifat deskriptif.

Metode sederhana untuk menghasilkan model ini termasuk teknik seperti regresi linier, regresi logistik, klasifikasi, dan KNN. Tetapi yang perlu diperhatikan, metode analisis sangat banyak dan masing-masing memiliki karakteristik khusus yang membuatnya sangat baik untuk beberapa jenis data dan analisis. Masing-masing metode ini akan menghasilkan model tertentu dan kemudian pilihannya relevan dengan sifat model produk.

Beberapa model ini akan memberikan nilai yang sesuai dengan sistem nyata dan sesuai dengan strukturnya. Mereka akan menjelaskan beberapa karakteristik dari sistem yang diteliti dengan cara yang sederhana dan jelas. Model lain akan terus memberikan prediksi yang baik, tetapi strukturnya tidak lebih dari "kotak hitam" dengan kemampuan terbatas untuk menjelaskan karakteristik sistem.


Model Validation

Validasi model

    Tahap ini juga sering disebut fase pengujian dan merupakan fase penting yang memungkinkan kita memvalidasi model yang dibangun berdasarkan data awal. Fase ini penting karena memungkinkan kita untuk menilai validitas data yang dihasilkan oleh model dengan membandingkannya secara langsung dengan sistem yang sebenarnya. Tapi kali ini, kita keluar dari kumpulan data awal yang telah ditetapkan sebelumnya.

    Umumnya, kita akan mengacu pada data sebagai training set saat kita menggunakannya untuk membangun model, dan sebagai validation set saat kita menggunakannya untuk memvalidasi model. Jadi, dengan membandingkan data yang dihasilkan oleh model dengan yang dihasilkan oleh sistem, kita bisa mengevaluasi kesalahan, menggunakan kumpulan data pengujian yang berbeda, dan memperkirakan batas validitas model yang dihasilkan. Bahkan nilai yang diprediksi dengan benar hanya bisa valid dalam rentang tertentu, atau memiliki tingkat kecocokan yang berbeda tergantung pada kisaran nilai yang diperhitungkan.

        Proses ini memungkinkan kita tidak hanya mengevaluasi keefektifan model secara numerik tetapi juga membandingkannya dengan model lain yang ada. Ada beberapa teknik dalam hal ini; yang paling terkenal adalah cross-validation. Teknik ini didasarkan pada pembagian training set menjadi bagian-bagian yang berbeda. Masing-masing bagian ini, pada gilirannya, akan digunakan sebagai validation set dan yang lainnya sebagai training set


Deployment 

Penyajian hasil

Fase ini adalah langkah terakhir dari proses analisis, yang bertujuan untuk menyajikan hasil, yaitu kesimpulan dari analisis. Dalam proses penyebaran lingkungan bisnis, analisis diterjemahkan menjadi manfaat bagi klien yang membutuhkan hasil analisis. Dalam lingkungan teknis atau ilmiah, hasil diterjemahkan ke dalam solusi desain atau publikasi ilmiah. Artinya, fase ini pada dasarnya terdiri dari mempraktekkan hasil yang diperoleh dari analisis data.

Ada beberapa cara untuk menyebarkan hasil analisis data atau data mining. Biasanya, terdiri dari penulisan laporan untuk manajemen atau untuk pelanggan yang meminta analisis. Dokumen ini secara konseptual akan menggambarkan hasil yang diperoleh dari analisis data. Laporan harus diarahkan kepada manajer, yang kemudian dapat membuat keputusan. Kemudian, mereka akan mempraktekkan kesimpulan dari analisis tersebut.

Sekian artikel kali ini tentang proses analisis data. Jangan lupa share dan comment artikel ini agar kita bisa sambil diskusi tentang ilmu data lainnya. Sampai jumpa di artikel selanjutnya. See ya!

Posting Komentar

0 Komentar