Entry tags:
"Functional Collection Programming with Semi-Ring Dictionaries"
arxiv.org/abs/2103.06376
page 2: "Semi-ring dictionaries realize the well-known connection between relations and tensors" (from "In-Database Learning with Sparse Tensors" 2016-2018 paper)
page 2: "Semi-ring dictionaries realize the well-known connection between relations and tensors" (from "In-Database Learning with Sparse Tensors" 2016-2018 paper)
no subject
no subject
Ну, так или иначе, я, в своё время, сделал конспект, который может быть удобен:
https://github.com/anhinga/2022-notes/tree/main/Generative-autoregressive-models-are-similators
Кроме того, группа "Янус" сделала парочку более ранних работ, одна из которых вполне знаменитая (https://arxiv.org/abs/2102.07350), а другая - малоизвестная, но сильная (https://arxiv.org/abs/2102.06391), а недавно они были со-авторами некоторого обзора в Nature (который, впрочем является компромиссом между взглядами первого автора и взглядами группы "Янус"): https://www.nature.com/articles/s41586-023-06647-8
no subject
https://arxiv.org/abs/2102.07350
Using GPT-3 as a case study, we show that 0-shot prompts can significantly outperform few-shot prompts. We suggest that the function of few-shot examples in these cases is better described as locating an already learned task rather than meta-learning.
Ну вотъ это какъ разъ то размахiванiе руками, о которомъ я говорилъ. "Мы попробовали это, попробовали то, ну а потомъ Джимми пнулъ ногой одинъ изъ ленточныхъ барабановъ и тогда оно, кажется, получше заработало."
Я знаю техническое опредѣленiе того, что такое "learning" въ данномъ контекстѣ. Это значитъ опредѣленный процентъ правильныхъ отвѣтовъ на test set, validation set и т.д. Дѣйствительно, это похоже на обычный смыслъ слова "обученiе" въ примѣненiи къ людямъ, потому что "обученные" люди тоже иногда ошибаются и даютъ лишь нѣкую долю правильныхъ отвѣтовъ. Но мы не знаемъ, почему это происходитъ. Мы не знаемъ ни того, почему "обученные" люди умѣютъ что-то дѣлать, ни того, почему они иногда ошибаются. Т.е. мы не знаемъ, какъ работаетъ человѣческое "пониманiе", не можемъ имъ эффективно управлять. Точно также мы не знаемъ, почему модели даютъ иногда правильный отвѣтъ, а иногда неправильный, особенно если давать задачи, выходящiя за рамки обучающаго набора данныхъ.
no subject
Да, хотя они стараются быть аккуратными и подчёркивать отличия от человека, особенно в этом последнем обзоре в Nature: "As dialogue agents become increasingly human-like in their performance, we must develop effective ways to describe their behaviour in high-level terms without falling into the trap of anthropomorphism. Here we foreground the concept of role play. Casting dialogue-agent behaviour in terms of role play allows us to draw on familiar folk psychological terms, without ascribing human characteristics to language models that they in fact lack. Two important cases of dialogue-agent behaviour are addressed this way, namely, (apparent) deception and (apparent) self-awareness."
И, действительно, они там где-то показывают пример, когда она точно не ведёт себя, как человек (когда играет в словесную игру, что она загадает слово, а юзер отгадывает это слово за двадцать вопросов; без специальных мер, чтобы это починить, она никакого слова не загадывает, хотя выглядит так, как будто загадывает; это как раз частный случай того обстоятельства, что она, в стандартной конфигурации, вообще умеет думать только вслух).
> но это не научная теорiя, я не вижу, какъ можно было бы тамъ устроить критерiй истинности и математически строго провѣрить, что "сущности" или "личности" существуютъ и обладаютъ такими-то свойствами. По-моему, безнадежно пытаться понять миллiарды коэффицiентовъ нейронной сѣти въ терминахъ "личности".
Ну так и мы с вами воспринимаем друг друга, как личности. И нам кажется, что это, скорее всего, правильно, но это не помогает нам понять, детали того, как работают мозги. Тем ни менее, нельзя сказать, чтобы восприятие друг друга, как личностей было бы неразумно.
Но исследования того, как работает сама эта сеть, тоже есть, и в большом количестве, просто (как и с мозгами у людей), понимание в более наивных "высокоуровневых" терминах "псевдо-личностей", как у Януса, гораздо более полезно при ежедневном общении с людьми, чем мысли про синапсы. Я тут недавно делал обзорный доклад, и там в слайдах 7-19 есть кое-какая подборка ссылок на разные исследования внутренностей этих моделей (конечно, таких исследований гораздо больше):
https://github.com/anhinga/2023-notes/tree/main/transformer-math
Но, как и в случае с людьми, есть разрыв между исследованием внутреннего устройства, и практическими навыками "межличностного общения" (с точки зрения текущего ежедневного общения, практические навыки важнее).
> Но мы не знаемъ, почему это происходитъ. Мы не знаемъ ни того, почему "обученные" люди умѣютъ что-то дѣлать, ни того, почему они иногда ошибаются. Т.е. мы не знаемъ, какъ работаетъ человѣческое "пониманiе", не можемъ имъ эффективно управлять. Точно также мы не знаемъ, почему модели даютъ иногда правильный отвѣтъ, а иногда неправильный, особенно если давать задачи, выходящiя за рамки обучающаго набора данныхъ.
Ну правильно. Тем ни менее, мы нанимаем людей делать работу, даём им доказывать теоремы и вести исследования, и в курсе, что они могут делать разнообразные ошибки, и что нужны протоколы для (частичной) защиты от этих ошибок.
В некотором смысле, хоть LLMs и не надо слишком антропоморфизировать, по многим характеристикам их проявления весьма похожи на людей. Впрочем то, что внутри, видимо уже гораздо более мощное по своему потенциалу, чем человек (разнообразие феноменов, которые такая штука может генерировать, очень велико, особенно если это не укрощенный и стреноженный для удобства юзера и корпорации ChatGPT, а неукрощённая "базовая модель", неудивительно, что базовую GPT-4 почти никому не дают (но кому-то, всё же, иногда дают, в виде исключения, так что, какая-то информация про её свойства доходит до тех, кому сильно интересно)).
no subject
no subject
Но с этим тоже успехи посредственные; кроме того, мы, на самом деле, не понимаем и как работают достаточно запутанные небольшие системы - есть очень красивые системы всего с несколькими сотнями или даже десятками параметров, но это не значит, что мы понимаем их динамику (иногда большие системы, наоборот, в некотором смысле, более регулярны и интерпретируемы, поскольку фрагменты более узко специализированы)...