Tampilkan postingan dengan label Data Processing. Tampilkan semua postingan
Tampilkan postingan dengan label Data Processing. Tampilkan semua postingan


 

Data Processing

Data processing adalah tahap awal dalam pengembangan setiap proyek ML. Pada tahap ini data akan diambil dari sumber tertentu, kemudian dimasukkan pada suatu environment, dan selanjutnya diproses agar bisa diolah oleh model Marchine Learning yang telah dibuat.

 

Marchine Learning itu sama seperti mengajari anak kecil. Ketika mengajari anak kecil membedakan antara suatu benda dengan benda lain itu tinggal kita perlihatkan saja bendanya dan memberi tahu benda ini namanya apa dan benda yang lain namanya apa. Namun demikian, komputer itu bukan benda yang tau segalanya melainkan hanya benda yang tidak bisa melakukan apa-apa tanpa kita ajari. Untuk mengajari komputer kita perlu data dan algoritma untuk di proses agar dapat dimengerti oleh komputer, ini disebut dengan Data Processing.

 

Pandas Library

Pandas adalah library open source yang dipakai untuk menganalisis dan memanipulasi data. Pandas dibangun menggunakan bahasa pemograman Python yang menawarkan struktur data dan operasi untuk manipulasi tabel numerik dan time series. 

 

Tabel Numerik adalah tabel yang berisi bilangan numerik, dan Tabel Time Series adalah tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.

 

Jenis data yang umum dipakai dalam ML seperti CSV dan SQL dapat diubah menjadi dataframe pandas terlebih dahulu. Dataframe itu adalah sebuah tabel yang terdiri dari kolom dan baris dengan banyak tipe data di dalamnya. Pandas juga terintegrasi dengan library ML lain seperti Scikit Learn dan Numpy.

 

Berikut adalah beberapa jenis data yang dapat diolah oleh pandas menjadi dataframe untuk dipakai pada proyek Marchine Learning.

  

CSV 

CSV (Comma Separated Value) adalah sebuah format data dimana elemen dari setiap baris dipisahkan dengan koma. 

 

SQL 

SQL (Structured Query Language) adalah sebuah format data yang digunakan pada sebuah relational database. Umum digunakan untuk pengembangan aplikasi web dan mobile. 

 

EXCEL 

Excel adalah berkas yang didapat dari software spreadsheet seperti Microsoft Excel, Google Spreadsheet dll. 

 

SPSS 

SPSS (Statistical Package for the Social Science) adalah sebuah berkas dari software yang biasa digunakan untuk pengolahan data dan statistik. Berkas ini memiliki ekstensi .sav. 

 

JSON 

JSON (Javascript Object Notation) adalah salah satu format data yang menggunakan sistem Key - Value dimana sebuah nilai disimpan dengan key tertentu untuk memudahkan pencarian dan pengaksesan data. Dan format ini cukup populer dan mudah digunakan. Data dengan format ini memiliki ekstensi .json.