Kenapa model bahasa modern bisa membaca konteks panjang dengan lebih efektif daripada arsitektur sekuens lama? Salah satu jawabannya adalah attention: mekanisme yang membuat setiap token dapat menimbang hubungan dengan token lain.
Masalah pada RNN
RNN membaca token secara berurutan. Pendekatan ini intuitif, tetapi sulit diparalelkan dan rentan kehilangan sinyal dari konteks jauh. Transformer mengubah pendekatan: semua token dapat diproses bersama, lalu attention menentukan hubungan mana yang paling penting.
Q, K, V dengan analogi perpustakaan
Bayangkan query sebagai pertanyaan pencari buku, key sebagai label katalog, dan value sebagai isi buku. Query dibandingkan dengan key untuk mencari kecocokan. Setelah bobot kecocokan dihitung, value digabungkan sesuai bobot tersebut.
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) VQK^T menghasilkan skor hubungan token, pembagian sqrt(d_k) menjaga skala, softmax mengubah skor menjadi bobot, lalu bobot menggabungkan V.Self-attention step-by-step
- Setiap token diubah menjadi embedding.
- Embedding diproyeksikan menjadi query, key, dan value.
- Query tiap token dibandingkan dengan key semua token.
- Softmax membuat distribusi attention.
- Value digabungkan untuk membentuk representasi baru.
Multi-head attention
Satu head attention hanya satu sudut pandang. Multi-head attention memberi beberapa perspektif sekaligus: satu head bisa fokus ke subjek, head lain ke objek, head lain ke relasi jarak jauh. Hasil beberapa head kemudian digabungkan.
Urutan kata tetap penting
Karena attention tidak membaca secara berurutan seperti RNN, transformer membutuhkan positional encoding. Informasi posisi ini membantu model membedakan kalimat dengan kata sama tetapi urutan berbeda.
Coba dengan kalimat sendiri
Di lab Transformer, masukkan kalimat pendek, pilih token fokus, lalu lihat Q, K, V dan attention matrix dihitung. Cara ini membuat attention tidak lagi terasa seperti rumus jauh di paper.
Untuk konteks lebih luas, bandingkan dengan Neural Network dan CNN. Ketiganya belajar representasi, tetapi cara membaca struktur datanya berbeda.
Ringkasan praktis
- Pahami cara kerja Transformer dan Attention Mechanism secara visual dengan input kalimat, Q, K, V, dan attention matrix real-time.
- Mulai dari intuisi visual, lalu cocokkan dengan rumus, contoh, dan batasan penggunaannya.
- Gunakan lab interaktif untuk menguji konsep setelah membaca, terutama jika artikel membahas metode atau evaluasi model.
Pertanyaan yang sering muncul
Siapa yang cocok membaca artikel ini?
Pembaca yang ingin memahami deep learning dengan bahasa Indonesia yang praktis, tanpa kehilangan konteks teknis penting.
Apa langkah berikutnya setelah membaca?
Coba ulang konsep dengan data kecil, bandingkan hasilnya, lalu buka artikel terkait atau eksperimen interaktifnya agar pemahaman tidak berhenti di teori.
Attention Is All You Need dan The Illustrated Transformer
Lanjutkan membaca pada sumber penerbit untuk mendapatkan konteks lengkap.
Buka sumber asli →