dmm | Эффекты ментальной инерции в науке

Ментальная инерция особенно хорошо видна в области искусственных нейронных сетей. Это не обязательно значит, что её там больше, чем в других областях. Просто лучше видно (математика там, как правило, простая, а компьютер известно как работает, так что скрытых загадок природы нет).

Что касается других областей, то, например, лет 10 назад Алик Шнайдер опубликовал детальную статью "Mental inertia in the biological sciences", www.researchgate.net/publication/41111141_Mental_inertia_in_the_biological_sciences

В искусственных нейронных сетях типичное явление состоит в том, что совсем, совсем простые вещи открываются на десятки лет позже, чем должны были бы по "здравому смыслу", и после первого открытия проходит не меньше 10-ти лет, пока их ещё один или несколько раз переоткроют, заметят, и уж только тогда начнут пользоваться.

У меня длинная коллекция таких примеров (она, кстати, включает и знаменитый backpropagation), а здесь я поделюсь двумя любимыми примерами, очень простыми.

Один из них состоит в том, что ступеньчатую функцию внутри нейронов (использовавшуюся в изначальном "персептроне"), конечно, использовать не надо - уж очень у неё неудобная производная, но, может быть, в ряде случаев лучше использовать не сигмоидные гладкие функции с насыщением (которые одно время были самыми популярными), а нечто промежуточное:

en.wikipedia.org/wiki/Rectifier_(neural_networks)

Эта штука пропускает положительные сигналы без изменения, а отрицательные - зануляет. Что может быть проще? Вот, первая известная нам статья, которая объясняла, почему это может быть правильными решением, была опубликована не в каком-нибудь 1970-ом году, а аж в 2000-м, то есть, лет на 30 позже, чем естественно. И опубликована она была не где-нибудь в никому неизвестном месте, а в Nature, что не помешало её полностью проигнорировать. И только после того, как другие люди написали статью в 2011-ом году, это, наконец, заметили, и к 2015-му году, этот вариант стал наиболее популярным в feedforward neural nets (более популярным, чем стандартные до того сигмоидные функции).

Другой из моих любимых примеров - это проблема "исчезающих градиентов" в рекуррентных и глубоких сетях, которую заметили в начале 90-х, и первые решения появились в 1997-ом. Вот, пару лет назад была обнародована работа, которая, по сути, говорила (не вполне явным образом), что всё дело в неправильной регуляризации - надо, чтобы регуляризация прижимала бы матрицу сети к единичной матрице, а не к нулевой, и всё будет отлично работать. То есть, опять предельно простая (и, в некотором смысле, очевидная) штука. Я тогда же написал маленькую "рецензию" на эту статью:

www.cs.brandeis.edu/~bukatin/recurrent-identity-networks.html

Судьба этой статьи тоже очень так себе - первую версию вообще не заметили, и отказались опубликовать на конференции, куда она была подана (там open review, можно посмотреть, как была устроена дискуссия). Вот теперь её начинают хоть чуть-чуть цитировать...

Это - не исключение. Это - правило в этой науке. "Так оно всё обычно и происходит."

Flat | Top-Level Comments Only

From:

dmm

Что касается этой новой швейцарской работы, "Overcoming the vanishing gradient problem in plain recurrent networks", https://arxiv.org/abs/1801.06105 , которая является моим вторым примером, то Гугл знает на неё в данный момент 10 ссылок, и вот эти привлекли моё внимание:

Shapley Interpretation and Activation in Neural Networks

https://arxiv.org/abs/1909.06143

High-performance RNNs with spiking neurons

https://arxiv.org/abs/1905.10692

("Recurrent Auto-Encoding Drift Diffusion Model" might also be of interest)

juan_gandhi

Меня поражает это практически художественное отношение к производным да интегралам да софтмаксам.

Да, это всё, пока что, в состоянии алхимии (есть работы, которые об этом в таких терминах и говорят - вот, у нас тут наука алхимия, "преднаучное состояние дел", что-то смешиваем, без большого понимания, или с неправильным совсем пониманием, опираясь на некоторый опыт, и смотрим, как оно; есть также работы, пытающиеся это изменить и двигаться в сторону большего понимания, этого всё больше, что хорошо).

С ректифайером, понятное дело, удобно, что производная либо 1, либо 0 - считать долго не надо :-) Но, конечно, надо осознать, что простой разрыв в производной не мешает градиентным методам; отсутствие этого осознания, видимо, и было большим психологическим барьером, из-за которого всё так задержалось...

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Dataflow matrix machines (by Anhinga anhinga)

Эффекты ментальной инерции в науке

Эффекты ментальной инерции в науке

no subject

no subject

no subject

Profile

May 2025

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags