dmm: (Default)
[personal profile] dmm
В какой-то момент несколько лет назад преимущества многослойных сетей (Deep Nets) стали настолько яркими, что люди, занимающиеся другими подходами, стали делать гибриды с многослойными системами.

Появилось deep this, deep that (Deep Probabilistic Programming, Deep Neuroevolution, etc, etc). Без этого трудно было получать яркие результаты на современном уровне.

Сейчас начался новый период, когда доминирует новый класс лингвистических моделей "Transformer", основанных на наличии многих слоёв, состоящих из "устройств внимания" (attention heads). Их придумали всего три года назад, но результаты "зашкаливают" - это новый качественный скачок.

Видимо, неизбежен следующий период гибридизации - разнообразных привнесений мотивов иерархического внимания во всевозможные ситуации и модели, с которыми работают люди. (Вообще говоря, даже необязательно, чтобы они были уж всегда такими огромными, я думаю, есть место и для маленьких изящных модификаций идеи иерархического внимания.)

***

Одно из странных соображений, которое недавно пришло мне в голову по этому поводу, это что есть много общего по духу между структурами иерархического внимания в этих моделях, и регуляцией экспрессии генов в клетках:

https://twitter.com/ComputingByArts/status/1280989217150156806

Да, кстати, группа из Salesforce Research показала, что "the Transformer's attention mechanism recovers high-level structural (folding) and functional properties of proteins", в дополнение к всякой другой магии, достижимой с использованием этого класса моделей:

https://twitter.com/RichardSocher/status/1278058096481333253


Date: 2020-07-13 03:53 pm (UTC)
timelets: (Default)
From: [personal profile] timelets
Это интересное развитие ML — спасибо за ссылки и идеи. Есть такие попытки анализировать RNA? Это может быть важным, потому что одна из функций RNA — передавать сообщения.

Date: 2020-07-13 07:51 pm (UTC)
timelets: (Default)
From: [personal profile] timelets
The whole are is quite hot and everybody's looking for an edge. Language is redundant and inherently self-referential; therefore, the idea of attending to related content sounds productive.

Profile

dmm: (Default)
Dataflow matrix machines (by Anhinga anhinga)

September 2025

S M T W T F S
 1 23456
78910111213
14151617181920
21222324252627
282930    

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 01:58 am
Powered by Dreamwidth Studios