Survei Ilmu Data Kaggle

SHELLA THERESYA PANDIANGAN
5 min readMar 13, 2021

1. Selamat datang di dunia ilmu data
Di seluruh dunia ilmu data, ada banyak bahasa dan alat yang dapat digunakan untuk menyelesaikan tugas yang diberikan. Meskipun Anda sering dapat menggunakan alat apa pun yang Anda sukai, sering kali penting bagi analis untuk bekerja dengan platform serupa sehingga mereka dapat berbagi kode satu sama lain. Mempelajari apa yang digunakan oleh para profesional di industri ilmu data saat bekerja dapat membantu Anda mendapatkan pemahaman yang lebih baik tentang hal-hal yang mungkin akan diminta untuk Anda lakukan di masa mendatang.

Dalam proyek ini, kita akan mencari tahu alat dan bahasa apa yang digunakan para profesional dalam pekerjaan mereka sehari-hari. Data berasal dari Survei Ilmu Data Kaggle yang mencakup tanggapan dari lebih dari 10.000 orang yang menulis kode untuk menganalisis data dalam pekerjaan sehari-hari mereka.

# Load necessary packages
library(tidyverse)

# Load the data
responses <- read_csv(‘datasets/kagglesurvey.csv’)

# Print the first 10 rows
head(responses, n = 10)

output

2. Menggunakan berbagai alat
Sekarang setelah memuat hasil survei, fokus pada alat dan bahasa yang digunakan responden survei di tempat kerja.

Untuk mendapatkan gambaran yang lebih baik tentang bagaimana data diformat, kita akan melihat penggunaan alat responden pertama dan melihat bahwa pengambil survei ini membuat daftar beberapa alat yang masing-masing dipisahkan oleh koma. Untuk mempelajari berapa banyak orang yang menggunakan setiap alat, kita perlu memisahkan semua alat yang digunakan oleh masing-masing individu. Ada beberapa cara untuk menyelesaikan tugas ini, tetapi kita akan menggunakan str_split () dari stringr untuk memisahkan alat di setiap koma. Karena itu akan membuat daftar di dalam bingkai data, kita bisa menggunakan fungsi tidyr unest () untuk memisahkan setiap item daftar ke baris baru.

# Printing the first respondent’s tools and languages
responses[1, 2]

# Add a new column, and unnest the new column
tools <- responses %>%
mutate(work_tools = str_split(WorkToolsSelect, “,”)) %>%
unnest(work_tools)

# View the first 6 rows of tools
head(tools)

output

3. Menghitung pengguna tiap alat
Sekarang setelah memisahkan semua alat yang digunakan oleh setiap responden, kita dapat mengetahui alat mana yang paling populer.

# Creating a new data frame
tool_count <- tools

# Grouping the data by work_tools, calculate the number of responses in each group
tool_count <- tool_count %>%
group_by(work_tools) %>%
summarise(tool_distinct = n()) %>%
arrange(desc(tool_distinct))

# Printing the first 6 results
head(tool_count, 6)

output

4. Merencanakan alat yang paling populer
Mari kita lihat bagaimana alat yang paling populer dibandingkan dengan yang lainnya.

# Creating a bar chart of the work_tools column.
# Arranging the bars so that the tallest are on the far right
ggplot(tool_count, aes(x = reorder(work_tools, tool_distinct), y = tool_distinct)) +
geom_bar(stat = “identity”) +
theme(axis.text.x = element_text(angle = 90, vjust = .5, hjust = 1))

output

5. Perdebatan R vs Python
Dalam bidang ilmu data, ada banyak perdebatan di antara para profesional tentang apakah R atau Python harus menjadi yang tertinggi. Anda dapat melihat dari gambar terakhir kami bahwa R dan Python adalah dua bahasa yang paling umum digunakan, tetapi mungkin saja banyak responden yang menggunakan R dan Python. Mari kita lihat berapa banyak orang yang menggunakan R, Python, dan keduanya.

# Creating a new data frame called debate_tools
debate_tools <- responses

# Creating a new column called language preference, based on the conditions specified in the Instructions
debate_tools <- debate_tools %>%
mutate(language_preference =
case_when(grepl(“R”, WorkToolsSelect) & ! grepl(“Python”,WorkToolsSelect) ~ “R”,
grepl(“Python”, WorkToolsSelect) & ! grepl(“R”, WorkToolsSelect) ~ “Python”, grepl(“R”, WorkToolsSelect) & grepl(“Python”, WorkToolsSelect) ~ “both”,
! grepl(“R”, WorkToolsSelect) & ! grepl(“Python”, WorkToolsSelect) ~ “neither”))

# Printing the first 6 rows
head(debate_tools, 6)

output

6. Merencanakan pengguna R vs Python
Sekarang kita hanya perlu melihat lebih dekat berapa banyak responden yang menggunakan R, Python, dan keduanya!

# Creating a new data frame
debate_plot <- debate_tools

# Grouping by language preference and calculate number of responses
debate_plot <- debate_plot %>%
group_by(language_preference) %>%
summarise(n = n()) %>%

# Removing the row for users of “neither”
filter(language_preference != “neither”)

# Creating a bar chart
ggplot(debate_plot, aes(x = language_preference, y = n))+
geom_bar(stat = “identity”)

output

7. Rekomendasi bahasa
Sepertinya grup program profesional terbesar di Python dan R. Tapi apa yang terjadi ketika mereka ditanya bahasa mana yang mereka rekomendasikan untuk pelajar baru? Apakah pecinta R selalu merekomendasikan R?

# Creating a new data frame
recommendations <- debate_tools

# Grouping by language_preference and then LanguageRecommendationSelect
recommendations <- recommendations %>%
group_by(language_preference, LanguageRecommendationSelect) %>%
summarise(n = n()) %>%

# Removing empty responses and include the top recommendations
filter(LanguageRecommendationSelect != 0) %>%
arrange(desc(LanguageRecommendationSelect)) %>%
mutate(count = row_number()) %>%
filter(count <= 4)

8. Bahasa yang paling direkomendasikan menurut bahasa yang digunakan

Tinggal satu hal lagi. Mari kita tentukan secara grafis bahasa mana yang paling direkomendasikan berdasarkan bahasa yang digunakan seseorang.

# Creating a faceted bar plot
ggplot(recommendations, aes(x = LanguageRecommendationSelect, y = n)) +
geom_bar(stat = “identity”)+
facet_wrap(~language_preference)

output

9. Moral cerita
Jadi kami telah berhasil sampai akhir. Kami telah menemukan bahwa Python adalah bahasa paling populer yang digunakan di antara data scientist Kaggle, tetapi pengguna R juga tidak ketinggalan. Dan sementara pengguna Python mungkin sangat menyarankan agar pelajar baru mempelajari Python, akankah pengguna R menemukan pernyataan berikut BENAR atau SALAH?

# Would R users find this statement TRUE or FALSE?
R_is_number_one = TRUE

--

--