Attention

Base class for all multi-head self attentions.

Attention(dim=768, num_heads=8, head_dim=64, plugins=[])

Parameters

(x: jaxtyping.Float[Tensor, '... n d']) -> jaxtyping.Float[Tensor, '... n d']