Pandas Library
Pandas adalah library open source yang dipakai untuk menganalisis dan memanipulasi data. Pandas dibangun menggunakan bahasa pemograman Python yang menawarkan struktur data dan operasi untuk manipulasi tabel numerik dan time series.
Tabel Numerik adalah tabel yang berisi bilangan numerik, dan Tabel Time Series adalah tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.
Jenis data yang umum dipakai dalam ML seperti CSV dan SQL dapat diubah menjadi dataframe pandas terlebih dahulu. Dataframe itu adalah sebuah tabel yang terdiri dari kolom dan baris dengan banyak tipe data di dalamnya. Pandas juga terintegrasi dengan library ML lain seperti Scikit Learn dan Numpy.
Berikut adalah beberapa jenis data yang dapat diolah oleh pandas menjadi dataframe untuk dipakai pada proyek Marchine Learning.
CSV
CSV (Comma Separated Value) adalah sebuah format data dimana elemen dari setiap baris dipisahkan dengan koma.
SQL
SQL (Structured Query Language) adalah sebuah format data yang digunakan pada sebuah relational database. Umum digunakan untuk pengembangan aplikasi web dan mobile.
EXCEL
Excel adalah berkas yang didapat dari software spreadsheet seperti Microsoft Excel, Google Spreadsheet dll.
SPSS
SPSS (Statistical Package for the Social Science) adalah sebuah berkas dari software yang biasa digunakan untuk pengolahan data dan statistik. Berkas ini memiliki ekstensi .sav.
JSON
JSON (Javascript Object Notation) adalah salah satu format data yang menggunakan sistem Key - Value dimana sebuah nilai disimpan dengan key tertentu untuk memudahkan pencarian dan pengaksesan data. Dan format ini cukup populer dan mudah digunakan. Data dengan format ini memiliki ekstensi .json.