Data adalah Minyak Mentah, Perlu Proses untuk Berguna

Data is the new oil. "Data adalah minyak baru" merupakan kutipan populer yang menunjukkan dengan tepat peningkatan nilai data dan secara akurat mencirikan data sebagai bahan mentah. Data harus dilihat sebagai masukan atau sumber daya dasar yang perlu diproses lebih lanjut sebelum benar-benar digunakan. 

Perhatikan perbedaan halus namun signifikan antara kata data dan informasi dalam kalimat di atas. Sedangkan data pada dasarnya dapat didefinisikan sebagai urutan nol dan satu, informasi pada dasarnya sama tetapi menyiratkan tambahan utilitas atau nilai tertentu bagi pengguna akhir atau penerima. 

Jadi, apakah data adalah informasi tergantung pada apakah data tersebut memiliki kegunaan bagi penerimanya. Biasanya, agar data mentah menjadi informasi, data terlebih dahulu perlu diproses, digabungkan, diringkas, dan dibandingkan. Singkatnya, data biasanya perlu dianalisis, dan wawasan, pemahaman, atau pengetahuan harus ditambahkan agar data menjadi berguna.

Menerapkan operasi dasar pada kumpulan data mungkin sudah memberikan wawasan yang berguna dan mendukung pengguna akhir atau penerima dalam pengambilan keputusan. Operasi dasar ini terutama melibatkan seleksi dan agregasi. Baik pemilihan maupun agregasi dapat dilakukan dengan berbagai cara, yang mengarah ke banyak indikator atau statistik yang dapat disaring dari data mentah.


Pada 2017, The Economist menerbitkan sebuah cerita berjudul, "The world's most valuable resource is no longer oil, but data" atau "Sumber daya paling berharga di dunia bukan lagi minyak, tetapi data." Sejak dipublikasikan, topik tersebut telah menghasilkan banyak diskusi, dan "Data adalah minyak baru" telah menjadi refrein yang umum. Masalahnya, diskusi biasanya berfokus pada mengapa hal ini menjadi hal yang buruk.

Tentu, ada kekhawatiran yang sah tentang bagaimana raksasa teknologi mengeksploitasi apa yang mereka ketahui tentang kita. Tetapi pada saat yang sama, ada banyak cara di mana semua data ini dapat (dan memang) memperbaiki dunia. Mari kita periksa beberapa contoh saja:

Mata-mata Di Langit

Sekilas, gagasan tentang pesawat terbang dengan teknologi pencitraan canggih yang terbang di atas rumah-rumah pendduduk tidak terdengar seperti hal yang baik, tetapi bisa jadi. Bayangkan sebuah pesawat dengan segala macam peralatan pencitraan terbang pada ketinggian yang relatif rendah mengumpulkan terabyte data setiap hari dari gambar visual, gambar milimeter dan panjang gelombang inframerah, radar penembus awan, dan sebagainya.

Untuk tujuan apa? 

Banyak tujuan yang bisa dicapai dengan alat seperti itu, memperkirakan panen dengan lebih akurat, perencanaan pembangunan transmisi puluhan mil, mencegah kebkaran hutan, evakuasi, penanganan bencana, mitigasi, dan banyak lagi. Tetapi semua ini tidak mungkin terjadi tanpa data dalam jumlah besar - ratusan terabyte per hari dari rekaman udara mentah.

Menyelamatkan Nyawa

Harvard Medical School menerbitkan penelitian yang membandingkan keakuratan sistem pembelajaran mesin dengan ahli patologi manusia dalam mendeteksi kanker payudara. Pembelajaran mesin akurat 92%, dan itu bagus. Tapi manusia 96% akurat. Kasus ditutup, bukan?

Harvard kemudian menggabungkan penemuan para ahli patologi dengan pemindaian sistem pembelajaran mesin. Akurasinya melonjak hingga 99,5%. Itu mengurangi kesalahan hampir satu urutan besarnya (dari 40 per seribu menjadi hanya 5 per seribu) dan mewakili 56.000 lebih sedikit pemindaian payudara yang salah dibaca per tahun di AS saja.

Untuk mencapai hal ini, peneliti harus mengumpulkan data dalam jumlah besar yang dapat digunakan untuk melatih model pembelajaran mesin mereka.

Ini bukan hanya radiologi; bidang yang muncul dari terapi gen memetakan patologi terhadap mutasi genetik tertentu. Ini berarti bahwa pasien kanker yang baru didiagnosis sekarang secara rutin memiliki urutan gen mereka sehingga ahli onkologi dapat meresepkan pengobatan yang paling efektif.

Terapi gen telah berkembang sebagian melalui pengurutan genetik ratusan ribu manusia, dan sebagian dari penurunan dramatis dalam biaya pengurutan gen.

Kunci dari kedua kemajuan penyelamatan hidup ini? Petabyte dan petabyte data.

Hukum Moore

Pada tahun 1965, insinyur Gordon Moore meramalkan bahwa jumlah transistor pada sirkuit terintegrasi akan berlipat ganda setiap tahun selama dekade berikutnya. Dia kemudian merevisi itu menjadi dua kali lipat setiap dua tahun. Lebih dari setengah abad kemudian, tren ini terus berlanjut meskipun ada prediksi bahwa Hukum Moore tidak dapat bertahan lebih lama.

Untuk mencapai kemajuan ini, geometri chip menyusut secara agresif seiring waktu. Karena geometri menyusut, volume data yang dihasilkan sebagai bagian dari proses desain chip telah bertambah secara geometris. Data, artefak desain, dan hasil simulasi ini secara harfiah merupakan aset inti dari produsen chip.

Membersihkan Udara

Kendaraan otonom (AV) akan datang. Manfaatnya sudah diketahui secara luas: jalan yang lebih aman, peningkatan ekonomi, dan berkurangnya kepadatan saat jam sibuk. Tapi mungkin manfaat terbesar adalah pengurangan gas rumah kaca (GRK) yang berasal dari mobil. Penelitian yang dilakukan oleh profesor Universitas Poznan memperkirakan bahwa kendaraan otonom pada akhirnya dapat mengurangi GRK sebesar 40% hingga 60%. Menurut Badan Perlindungan Lingkungan, transportasi saat ini menyumbang 29% GRK di Amerika Serikat, jadi ini akan menjadi kemajuan yang penting.

Bagaimana kita menuju masa depan AV? Anda dapat menebaknya: data. Dalam hal ini, diperlukan ratusan petabyte data yang membentuk data lake tempat solusi pembelajaran mesin lanjutan AV self-driving akan datang. Tidak berhenti sampai di situ. Masing-masing "platform komputasi modern yang bersifat seluler" ini akan menghasilkan terabyte data per minggu per kendaraan. Bahkan dengan asumsi pengurangan 75% dalam jumlah kendaraan di jalan raya, itu banyak exabyte data per tahun.

Semua ini adalah data yang Anda simpan. Ini minyak baru. Jika terjadi kecelakaan kendaraan, Anda dapat memanggil gambar yang direkam kendaraan tersebut untuk memutuskan apa yang menyebabkan kecelakaan dan algoritma AV mana yang perlu diperbaiki.

Komentar