Summary
Paper ini mengusulkan Transformer, arsitektur encoder-decoder yang mengandalkan attention. Evaluasi utamanya dilakukan pada machine translation dan menunjukkan kualitas tinggi dengan pelatihan yang lebih mudah diparalelkan.
Strengths
- Ide arsitektur disampaikan dengan jelas dan modular.
- Eksperimen translation membandingkan kualitas sekaligus biaya pelatihan.
- Desainnya membuka jalur bagi pemrosesan sekuens yang lebih paralel.
Limitations
- Eksperimen awal berfokus pada translation dan constituency parsing.
- Biaya attention meningkat terhadap panjang sekuens.
- Paper awal belum membahas skala model generatif modern.
Conclusion
Nilai terbesar paper ini adalah perubahan paradigma: hubungan antar-token dapat dimodelkan secara efektif dengan attention sebagai komponen utama.
Reading guide
Mulai dari Figure 1, pahami scaled dot-product attention, lalu lanjutkan ke multi-head attention dan hasil eksperimen.