BENCHMARKING VISION TRANSFORMER KLASIFIKASI VISUAL MASAKAN PADANG DENGAN ROBUSTNESS MELALUI AUGMENTASI DATA
Abstract
Masakan Padang merupakan kuliner Indonesia dengan variasi visual yang kompleks. Penelitian ini mengembangkan sistem klasifikasi citra masakan Padang menggunakan Vision Transformer (ViT) dengan penguatan robustness melalui data augmentation. Dataset berjumlah 993 citra mencakup sembilan kelas populer. Lima varian ViT diuji, dan ViT-B/16 menghasilkan akurasi tertinggi 95 persen, diikuti ViT-L/16 (91 persen) dan ViT-H/14 (90 persen), sedangkan patch size besar menunjukkan akurasi lebih rendah. Augmentasi data terbukti meningkatkan generalisasi model, meski dataset terbatas. Evaluasi menunjukkan precision, recall, dan F1-score di atas 0.90 pada sebagian besar kelas. Hasil ini membuktikan ViT efektif dalam mengenali detail visual masakan Padang serta berpotensi untuk sistem klasifikasi makanan berbasis deep learning sekaligus mendukung pelestarian kuliner tradisional Indonesia.