Tensor attention training: Provably efficient learning of higher-order transformers (arXiv 2024)

Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou

January 2024