Pandas Library - Tool Untuk Data Processing

 

Pandas Library

Pandas adalah library open source yang dipakai untuk menganalisis dan memanipulasi data. Pandas dibangun menggunakan bahasa pemograman Python yang menawarkan struktur data dan operasi untuk manipulasi tabel numerik dan time series. 

 

Tabel Numerik adalah tabel yang berisi bilangan numerik, dan Tabel Time Series adalah tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.

 

Jenis data yang umum dipakai dalam ML seperti CSV dan SQL dapat diubah menjadi dataframe pandas terlebih dahulu. Dataframe itu adalah sebuah tabel yang terdiri dari kolom dan baris dengan banyak tipe data di dalamnya. Pandas juga terintegrasi dengan library ML lain seperti Scikit Learn dan Numpy.

 

Berikut adalah beberapa jenis data yang dapat diolah oleh pandas menjadi dataframe untuk dipakai pada proyek Marchine Learning.

  

CSV 

CSV (Comma Separated Value) adalah sebuah format data dimana elemen dari setiap baris dipisahkan dengan koma. 

 

SQL 

SQL (Structured Query Language) adalah sebuah format data yang digunakan pada sebuah relational database. Umum digunakan untuk pengembangan aplikasi web dan mobile. 

 

EXCEL 

Excel adalah berkas yang didapat dari software spreadsheet seperti Microsoft Excel, Google Spreadsheet dll. 

 

SPSS 

SPSS (Statistical Package for the Social Science) adalah sebuah berkas dari software yang biasa digunakan untuk pengolahan data dan statistik. Berkas ini memiliki ekstensi .sav. 

 

JSON 

JSON (Javascript Object Notation) adalah salah satu format data yang menggunakan sistem Key - Value dimana sebuah nilai disimpan dengan key tertentu untuk memudahkan pencarian dan pengaksesan data. Dan format ini cukup populer dan mudah digunakan. Data dengan format ini memiliki ekstensi .json.


0 Comments:

Posting Komentar