Tampilkan postingan dengan label Marchine Learning. Tampilkan semua postingan
Tampilkan postingan dengan label Marchine Learning. Tampilkan semua postingan


 

Python merupakan bahasa pemograman paling populer yang digunakan oleh para Data Scientist dan Marchine Learning Developer. Kenapa Python bisa populer? Salah satu alasannya yang menarik adalah beberapa perusahaan teknologi raksasa seperti Google dan Facebook memilih Python sebagai bahasa utama untuk pengembangan teknologi Marchine Learning, mereka menggunakan framework seperti Tensorflow dan Pytorch.

 

Keunggulan lain yang dimiliki Python adalah ia merupakan salah satu bahasa pemograman yang sangat mudah dipelajari oleh pemula baik dikalangan IT atau bahkan non IT sekalipun. Ini dikarenakan sintaks dari bahasa pemograman Python ini yang pendek dibandingkan bahasa pemograman lain.

 

Selain digunakan oleh perusahaan raksasa dan mudah untuk dipelajari, Python memiliki library yang lengkap untuk menunjang pengembangan proyek Marchine Learning.

 

Terdapat beberapa library yang memudahkan kita dalam membangun proyek ML yaitu sebagai berikut.

 

Numpy

Numpy sangat terkenal sebagai library untuk memproses larik. Fungsi-fungsi kompleks dibaliknya membuat Numpy sangat tangguh dalam memproses larik multimensi dan matriks berukuran besar. Library ML seperti Tensorflow juga menggunakan Numpy untuk memproses tensor atau sebuah larik N dimensi.

 

Pandas

Pandas menjadi salah satu library favorit yang dipakai untuk analisis dan manipulasi data. Kenapa analisis dan manipulasi data penting? Sebelum masuk ke tahap pengembangan model, data perlu di proses dan dibersihkan. Proses ini bahkan merupakan proses yang paling banyak memakan waktu dalam pengembangan proyek ML. Pandas membuat pemrosesan dan pembersihan data menjadi mudah.

 

Matplotlib

Matplotlib adalah sebuah library untuk membuat plot atau visualisasi data dalam 2 dimensi. Matplotlib mampu menghasilkan grafik dengan kualitas tinggi. Matplotlib dapat dipakai untuk membuat plot seperti histagram, scatter plot, grafik batang, pie chart, hanya dengan beberapa baris kode. Library ini sangat user friendly.

 

Scikit Learn

Scikit Learn merupakan salah satu library ML yang sangat populer. Scikit Learn menyediakan banyak pilihan algoritma ML yang dapat lansung dipakai seperti klasifikasi, regresi, clustering, dimensionality reduction, dan pemrosesan data. Selain itu Scikit Learn juga dapat dipakai untuk analisis data.

 

Tensorflow

Tensorflow adalah framework open source untuk ML yang dikembangkan dan digunakan oleh Google. Tensorflow memudahkan pembuatan model ML bagi pemula maupun ahli. Tensorflow dapat dipakai untuk Deep Learning, Computer Vision, Face Recognition, serta Reinforcement Learning.

 

PyTorch

Dikembangkan oleh Facebook, PyTorch adalah library yang dapat dipakai untuk masalah ML, Computer Vision, dll. Bersaing dengan Tensorflow khususnya sebagai framework ML, PyTorch lebih populer dikalangan akademisi dibandingkan Tensorflow. Namun dalam industri Tensorflow lebih populer karena skalabilitasnya lebih baik dibandingkan PyTorch.

 

Keras

Keras adalah library Deep Learning yang luar biasa. Salah satu factor yang membuat keras sangat populer adalah penggunaannya yang minimalis dan tidak kompleks dalam mengembangkan Deep Learning. Keras dibangun di atas Tensorflow yang menjadikan Keras sebagai API dengan lebih tinggi (Hight Level API) dari Tensorflow sehingga interface-nya lebih mudah dari Tensorflow. Keras sangat cocok untuk mengembangkan model Deep Learning dengan waktu yang lebih singkat atau untuk pembuatan Prototipe. 


 

Data Processing

Data processing adalah tahap awal dalam pengembangan setiap proyek ML. Pada tahap ini data akan diambil dari sumber tertentu, kemudian dimasukkan pada suatu environment, dan selanjutnya diproses agar bisa diolah oleh model Marchine Learning yang telah dibuat.

 

Marchine Learning itu sama seperti mengajari anak kecil. Ketika mengajari anak kecil membedakan antara suatu benda dengan benda lain itu tinggal kita perlihatkan saja bendanya dan memberi tahu benda ini namanya apa dan benda yang lain namanya apa. Namun demikian, komputer itu bukan benda yang tau segalanya melainkan hanya benda yang tidak bisa melakukan apa-apa tanpa kita ajari. Untuk mengajari komputer kita perlu data dan algoritma untuk di proses agar dapat dimengerti oleh komputer, ini disebut dengan Data Processing.

 

Pandas Library

Pandas adalah library open source yang dipakai untuk menganalisis dan memanipulasi data. Pandas dibangun menggunakan bahasa pemograman Python yang menawarkan struktur data dan operasi untuk manipulasi tabel numerik dan time series. 

 

Tabel Numerik adalah tabel yang berisi bilangan numerik, dan Tabel Time Series adalah tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.

 

Jenis data yang umum dipakai dalam ML seperti CSV dan SQL dapat diubah menjadi dataframe pandas terlebih dahulu. Dataframe itu adalah sebuah tabel yang terdiri dari kolom dan baris dengan banyak tipe data di dalamnya. Pandas juga terintegrasi dengan library ML lain seperti Scikit Learn dan Numpy.

 

Berikut adalah beberapa jenis data yang dapat diolah oleh pandas menjadi dataframe untuk dipakai pada proyek Marchine Learning.

  

CSV 

CSV (Comma Separated Value) adalah sebuah format data dimana elemen dari setiap baris dipisahkan dengan koma. 

 

SQL 

SQL (Structured Query Language) adalah sebuah format data yang digunakan pada sebuah relational database. Umum digunakan untuk pengembangan aplikasi web dan mobile. 

 

EXCEL 

Excel adalah berkas yang didapat dari software spreadsheet seperti Microsoft Excel, Google Spreadsheet dll. 

 

SPSS 

SPSS (Statistical Package for the Social Science) adalah sebuah berkas dari software yang biasa digunakan untuk pengolahan data dan statistik. Berkas ini memiliki ekstensi .sav. 

 

JSON 

JSON (Javascript Object Notation) adalah salah satu format data yang menggunakan sistem Key - Value dimana sebuah nilai disimpan dengan key tertentu untuk memudahkan pencarian dan pengaksesan data. Dan format ini cukup populer dan mudah digunakan. Data dengan format ini memiliki ekstensi .json.