Data Analyst Project: Business Decision Research

SHELLA THERESYA PANDIANGAN
5 min readNov 1, 2020
transaksi dari tahun 2013 sampai dengan 2019 dalam bentuk csv

Klomom/Field yang terdapat pada gambar diatas adalah :

  1. No
  2. Row_Num
  3. Customer_ID
  4. Product
  5. First_Transaction
  6. Last_Transaction
  7. Average_Transaction_Amount
  8. Count_Transaction

Data preparation test

Pada data preparation test ada 2 hal yang dapat dilakukan:

1.Importing data: ialah import data_retail.csv ke python environment.

2.Cleansing data: ialah pembersihan dan modifikasi data sehingga siap digunakan untuk analisis lebih lanjut.

Data visualization test: tampilan secara visualization

Basic stats method test: insight dari model dan evaluasi model yang sudah dibuat dan diuji.

Hal yang dapat kita lakukan ialah :

Melakukan Importing Data dan Inspection

Sehingga diperoleh hasil sebagai berikut ini sesuai dengan perintah pada koding di atas:

Melakukan Cleansing

Untuk melakukan Cleansing dapat dilakuka dengan koding seperti gambar diatas sehingga menghasilkan output:

Melakukan Churn Customer

Langkah untuk melakukan churn customers sesuai definisi yang telah diberikan dapat dilakukan dengan mencari :

  1. data transanksi terakhir
  2. mengelompokkan customer yang melakukan churn ataupun tidak melakuakn churn

Setelah itu cetak lima data teratas dan informasi dataset, dengan input koding sebagai berikut ini :

Hapuslah kolom yang tidak diperlukan

Pada koding ini sudah terlijat jelas saya menghapus kolom no dan Row_Num

Customer Acquisition by year

Setelah melakukan perintah-perintah di atas, maka kamu dapat membuat visualisasi data berupa trend of customer acquisition by year dengan meggunakan fitur bar chart. Untuk itu buatlah kolom tambahan yang merupakan tahun dari First_Transaction dan Last_Transaction masing-masingnya dengan nama Year_First_Transaction dan Year_Last_Transaction sebelum melakukan visualisasi data.

Transaction by year

Visualisasikanlah trend jumlah transaksi per tahunnya dengan menggunakan bar chart.

Melakukan Rata-rata transaksi setiap tahunnya

menggunakan seaborn pointplot, visualisasikanlah tren dari tahun ke tahun rata-rata jumlah transaksi untuk tiap-tiap produknya. Dari hasil ini akan tampak bagimana hasil penjualan rata-rata setiap tahunnya.

Melakukan penetuan proporsi churned Customer setiap tahunnya.

Dari sisi churned customer, kita dapat melihan perbandingan churned customer ini dari setiap produk yang ingin diketahui melaui pie chart dengan koding sebagai berikut ini :

Melakukan Distribusi kategorisasi count transaction

Lalu lakukan visualisasi dari distribusi kategorisasi count transaction, dengan rentang berikut ini:

Rentang jumlah transaksiKategori

s/d 1 =1. 1

2 s/d 3 =2. 2 — 3

4 s/d 6= 3. 4 – 6

7 s/d 10 =4. 7- 10

> 10 = 5. > 10

lalu dapat dilakuakn dengan penambahan kolom dengan nama : Count_Transaction_Group, maka visualisasikanlah dengan bar chart.

Melakukan Distribusi kategorisasi average transaction amount

dengan mengelompokkannya sebagai berikut ini:

Menetukan Feature Columns dan Target

Dipilih Kolom Average_Transaction_Amount, Count_Transaction, dan Year_Diff. Namun kolom yang paling terakhir belum tersedia. dapat di bentuk dahulu kolm Year_Diff danassign dataset dengan feature columns ini sebagai variabel independent X.Untuk targetnya mengenai tcostumer churn atau tidak, assign dataset untuk target ini ke dalam variabe dependent y.

Melakukan Split X dan y ke dalam bagian training dan testing

Pecahlah X dan y ke dalam bagian training dan testing. Bagian testing ini adalah 25 persen dari bagian data.

Melakukan Train, Evaluate dan Predict

Dengan cara model menggunakan Linear Regression, inisialisasilah model, fit, dan kemudian evaluasi model dengan menggunakan confusion matrix.

Melakukan Visualisasi Confusion Matrix

onfusion matrix yang telah dihitung sebelumnya dapat divisualisasikan dengan menggunakan heatmap dari seaborn.

Melakukan Accuracy, Precision, dan Recall

Dalam Track ini kita dapat belajar:

  • Dapat menerapkan bahasa pemograman Python untuk menyelesaikan persoalan untuk analisis data
  • Menerapkan SQL dan sistem database relational dalam mengolah data pada perusahaan yang telah menerapkan IT
  • Dapat mengolah dataset skala kecil hingga besar
  • Menerapkan exploratory data analysis (EDA) untuk persoalan bisnis
  • Menghasilkan visualisasi data yang tepat sebagai representasi persoalan bisnis
  • Membuat dan menghasilkan model prediktif hingga menguji tingkat akurasi untuk memilih model yang tepat
  • Menerapkan teknik investigasi data-data yang memiliki anomali.

--

--