Attention-is-all-you-need

Implementation of "Attention is all you need" paper by Vaswani et al, 2017

This is the architecture I implemented in PyTorch 👇

The model has more than 7 Million Parameters and the hyperparameters of the model are listed below:
embedding size = 256
vocab size = 1000
sequence length = 64
batch size = 64
head size = 4
Total Blocks in Encoder = 4
Total Blocks in Decoder = 4

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Attention-is-all-you-need

About

Uh oh!

Releases

Packages

Languages

yashghogre/Attention-is-all-you-need

Folders and files

Latest commit

History

Repository files navigation

Attention-is-all-you-need

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages