В какой-то момент несколько лет назад преимущества многослойных сетей (Deep Nets) стали настолько яркими, что люди, занимающиеся другими подходами, стали делать гибриды с многослойными системами.
Появилось deep this, deep that (Deep Probabilistic Programming, Deep Neuroevolution, etc, etc). Без этого трудно было получать яркие результаты на современном уровне.
Сейчас начался новый период, когда доминирует новый класс лингвистических моделей "Transformer", основанных на наличии многих слоёв, состоящих из "устройств внимания" (attention heads). Их придумали всего три года назад, но результаты "зашкаливают" - это новый качественный скачок.
Видимо, неизбежен следующий период гибридизации - разнообразных привнесений мотивов иерархического внимания во всевозможные ситуации и модели, с которыми работают люди. (Вообще говоря, даже необязательно, чтобы они были уж всегда такими огромными, я думаю, есть место и для маленьких изящных модификаций идеи иерархического внимания.)
***
Одно из странных соображений, которое недавно пришло мне в голову по этому поводу, это что есть много общего по духу между структурами иерархического внимания в этих моделях, и регуляцией экспрессии генов в клетках:
https://twitter.com/ComputingByArts/status/1280989217150156806
Да, кстати, группа из Salesforce Research показала, что "the Transformer's attention mechanism recovers high-level structural (folding) and functional properties of proteins", в дополнение к всякой другой магии, достижимой с использованием этого класса моделей:
https://twitter.com/RichardSocher/status/1278058096481333253
Появилось deep this, deep that (Deep Probabilistic Programming, Deep Neuroevolution, etc, etc). Без этого трудно было получать яркие результаты на современном уровне.
Сейчас начался новый период, когда доминирует новый класс лингвистических моделей "Transformer", основанных на наличии многих слоёв, состоящих из "устройств внимания" (attention heads). Их придумали всего три года назад, но результаты "зашкаливают" - это новый качественный скачок.
Видимо, неизбежен следующий период гибридизации - разнообразных привнесений мотивов иерархического внимания во всевозможные ситуации и модели, с которыми работают люди. (Вообще говоря, даже необязательно, чтобы они были уж всегда такими огромными, я думаю, есть место и для маленьких изящных модификаций идеи иерархического внимания.)
***
Одно из странных соображений, которое недавно пришло мне в голову по этому поводу, это что есть много общего по духу между структурами иерархического внимания в этих моделях, и регуляцией экспрессии генов в клетках:
https://twitter.com/ComputingByArts/status/1280989217150156806
Да, кстати, группа из Salesforce Research показала, что "the Transformer's attention mechanism recovers high-level structural (folding) and functional properties of proteins", в дополнение к всякой другой магии, достижимой с использованием этого класса моделей:
https://twitter.com/RichardSocher/status/1278058096481333253
no subject
Date: 2020-07-13 05:01 pm (UTC)Я вижу, что их пытаются использовать всевозможными способами, в том числе, такими, которые на первый взгляд вообще не кажутся лингвистическими, а также смотрят на то, какие структуры образуются в этих "слоях внимания" (там, похоже, прямо деревья грамматического разбора возникают сами собой, и всякое такое).