Bagaimana Cara Scrape Definisi Hari Buruh dari Gambar PNG dengan R?

Bagaimana Cara Scrape Definisi Hari Buruh dari Gambar PNG dengan R?


Scrape Definisi Buruh dari Gambar PNG

Hari buruh merupakan salah satu hari libur nasional dan bahkan menjadi hari libur internasional. Hari buruh yang biasa diperingati pada 1 Mei ini mengandung simbol kemerdekaan para buruh atau serikat buruh dalam berkontribusi pada perekonomian dunia.

Di Indonesia, sudah menjadi budaya bahwa pada tanggal 1 Mei, sejumlah demonstrasi oleh para buruh dan serikat buruh biasa dilakukan. Demonstrasi tersebut selain menyalakan alarm bagi pemerintah mengenai kebijakan yang menyangkut kesejahteraan buruh juga disisipi pula dengan orasi-orasi kebangsaan dan kenegaraan agar seluruh buruh memiliki jiwa persatuan dan kesatuan untuk ikut andil dalam menuntut hak-haknya.

Menyoal mengenai buruh, sebenarnya apa itu buruh? seperti apa definisi buruh? dan bagaimana kita bekerja dengan bahasa pemrograman R untuk melakukan scrape serta ekstraksi data teks mengenai pengertian dari buruh.

Pada unggahan kali ini, saya memang sedikit unik dalam membawa kita belajar mengenai teknik scrape dan ekstraksi data teks dari sebuah gambar berekstensi *PNG. Tetapi, esensinya adalah unggahan ini dapat menjadi bahan pembelajaran mengenai teknik lain bagi pembaca untuk mampu mengumpulkan data-data yang kebetulan bersumber dari gambar. Berikut tahapan dalam melakukan scrape definisi buruh pada gambar PNG:


# aktivasi package
library(tesseract)
library(magick)
# import data gambar dari komputer
imageku <- image_read("C:\\Users\\Joko Ade\\Documents\\hariburuh.png")
imageku

plot of chunk unnamed-chunk-24

ocrku <- tesseract()

gambarocr <- ocr(imageku, engine = ocrku)
gambarocr
## [1] "BADAN PUSAT STATISTIK 5\nGi PROVINSI JAWA TIMUR CER AS\nCERITA DATA STATISTIK\n— 2\nMe\n/ —_ ’ oa\nSi aa é av\nAi\\KA/\nSSS REX vj A\nSef he y\nrg a,\nnS) at AN AN . Mej\nHARI _. 7 +\nBURUH __ i 2024\nsv |\n[_— ae\n‘dt : | D\nA\n> b\nlate lefe|\nBerAKH LAK *Buruh yang dimaksud yakni pekerja berstatus buruh/karyawan/pegawai Zz melayani\nfearaogle evel Aeapif Rolcecr vin) ae bangsa\nbpsjatim BPS Provinsi Jawa Timur jatim.bps.go.id\n"
# ekstraksi teks
dataku <- unlist(strsplit(gambarocr, "\n"))
dataku
##  [1] "BADAN PUSAT STATISTIK 5"                                                                   
##  [2] "Gi PROVINSI JAWA TIMUR CER AS"                                                             
##  [3] "CERITA DATA STATISTIK"                                                                     
##  [4] "— 2"                                                                                       
##  [5] "Me"                                                                                        
##  [6] "/ —_ ’ oa"                                                                                 
##  [7] "Si aa é av"                                                                                
##  [8] "Ai\\KA/"                                                                                   
##  [9] "SSS REX vj A"                                                                              
## [10] "Sef he y"                                                                                  
## [11] "rg a,"                                                                                     
## [12] "nS) at AN AN . Mej"                                                                        
## [13] "HARI _. 7 +"                                                                               
## [14] "BURUH __ i 2024"                                                                           
## [15] "sv |"                                                                                      
## [16] "[_— ae"                                                                                    
## [17] "‘dt : | D"                                                                                 
## [18] "A"                                                                                         
## [19] "> b"                                                                                       
## [20] "late lefe|"                                                                                
## [21] "BerAKH LAK *Buruh yang dimaksud yakni pekerja berstatus buruh/karyawan/pegawai Zz melayani"
## [22] "fearaogle evel Aeapif Rolcecr vin) ae bangsa"                                              
## [23] "bpsjatim BPS Provinsi Jawa Timur jatim.bps.go.id"
# ekstraksi teks lagi
dataku <- dataku[c(21,23)]
dataku
## [1] "BerAKH LAK *Buruh yang dimaksud yakni pekerja berstatus buruh/karyawan/pegawai Zz melayani"
## [2] "bpsjatim BPS Provinsi Jawa Timur jatim.bps.go.id"
# Fungsi untuk mengubah teks
library(stringr)
dataku[1] <- paste0("Jadi definisi ",str_extract(dataku[1], "(?<=\\*).*?(?= Zz melayani)"))
dataku[2] <- paste0("Info lebih lanjut, kunjungi website ", str_extract(dataku[2], "BPS .*jatim.bps.go.id"))

# Melihat Definisi Hari Buruh
dataku
## [1] "Jadi definisi Buruh yang dimaksud yakni pekerja berstatus buruh/karyawan/pegawai"
## [2] "Info lebih lanjut, kunjungi website BPS Provinsi Jawa Timur jatim.bps.go.id"

Demikian sedikit sharing kita kali ini, semoga bermanfaat. Selamat memahami dan mempraktikkan!