Attention Is All You Need: Review Paper

Summary

Paper ini mengusulkan Transformer, arsitektur encoder-decoder yang mengandalkan attention. Evaluasi utamanya dilakukan pada machine translation dan menunjukkan kualitas tinggi dengan pelatihan yang lebih mudah diparalelkan.

Strengths

Ide arsitektur disampaikan dengan jelas dan modular.
Eksperimen translation membandingkan kualitas sekaligus biaya pelatihan.
Desainnya membuka jalur bagi pemrosesan sekuens yang lebih paralel.

Limitations

Eksperimen awal berfokus pada translation dan constituency parsing.
Biaya attention meningkat terhadap panjang sekuens.
Paper awal belum membahas skala model generatif modern.

Conclusion

Nilai terbesar paper ini adalah perubahan paradigma: hubungan antar-token dapat dimodelkan secara efektif dengan attention sebagai komponen utama.

Reading guide

Mulai dari Figure 1, pahami scaled dot-product attention, lalu lanjutkan ke multi-head attention dan hasil eksperimen.