dmm | "Умножение матриц так же неисчепаемо, как и атом"

You're viewing

Reload page in style: site light

dmm

Take this:

And multiply its transposition by it, the result is:

From:

dmm

Да, конечно, в convolutional neural nets используются слои таких "локальных свёрток"...

Но теперь уже новая эпоха вовсю наступает, где доминируют Transformers, в которых нет больше явного locality prior, а только умножения матриц, из которых сделаны "слои внимания", соединённые простыми нейронными коннекторами. Собственно, эта моя деятельность по умножению картинок, как матриц, она как раз мотивирована желанием создать небольшие гибкие машины, использующие, среди прочего, архитектурные компоненты, из которых сделаны Transformers.

Я довольно много с этим вожусь в последние месяцы:

Section 11 of https://www.cs.brandeis.edu/~bukatin/dmm-collaborative-research-agenda.pdf

https://github.com/anhinga/2020-notes/tree/master/attention-based-models

https://github.com/anhinga/2020-notes/blob/master/attention-based-models/matrix-mult-machines.md

https://github.com/anhinga/julia-notebooks/blob/main/images-as-matrices/presentation/talk-proposal.md

https://anhinga-anhinga.livejournal.com/84392.html