BENCHMARKING VISION TRANSFORMER KLASIFIKASI VISUAL MASAKAN PADANG DENGAN ROBUSTNESS MELALUI AUGMENTASI DATA

Akmal Hisyam Pradhana; Erna Daniati

doi:10.33005/sitasi.v5i1.2527

Akmal Hisyam Pradhana Universitas Nusantara PGRI Kediri https://orcid.org/0009-0002-0320-2292
Erna Daniati Universitas Nusantara PGRI Kediri https://orcid.org/0009-0008-9471-4421

DOI: https://doi.org/10.33005/sitasi.v5i1.2527

Keywords: Augmentasi Data, Klasifikasi Visual, Masakan Padang, Robustness, Vision Transformer

Abstract

Masakan Padang merupakan kuliner Indonesia dengan variasi visual yang kompleks. Penelitian ini mengembangkan sistem klasifikasi citra masakan Padang menggunakan Vision Transformer (ViT) dengan penguatan robustness melalui data augmentation. Dataset berjumlah 993 citra mencakup sembilan kelas populer. Lima varian ViT diuji, dan ViT-B/16 menghasilkan akurasi tertinggi 95 persen, diikuti ViT-L/16 (91 persen) dan ViT-H/14 (90 persen), sedangkan patch size besar menunjukkan akurasi lebih rendah. Augmentasi data terbukti meningkatkan generalisasi model, meski dataset terbatas. Evaluasi menunjukkan precision, recall, dan F1-score di atas 0.90 pada sebagian besar kelas. Hasil ini membuktikan ViT efektif dalam mengenali detail visual masakan Padang serta berpotensi untuk sistem klasifikasi makanan berbasis deep learning sekaligus mendukung pelestarian kuliner tradisional Indonesia.

Downloads

Download data is not yet available.

BENCHMARKING VISION TRANSFORMER KLASIFIKASI VISUAL MASAKAN PADANG DENGAN ROBUSTNESS MELALUI AUGMENTASI DATA

Abstract

Downloads

Most read articles by the same author(s)