Entry tags:
"Functional Collection Programming with Semi-Ring Dictionaries"
arxiv.org/abs/2103.06376
page 2: "Semi-ring dictionaries realize the well-known connection between relations and tensors" (from "In-Database Learning with Sparse Tensors" 2016-2018 paper)
page 2: "Semi-ring dictionaries realize the well-known connection between relations and tensors" (from "In-Database Learning with Sparse Tensors" 2016-2018 paper)
no subject
no subject
no subject
There will be a continuation on Feb 10: https://www.meetup.com/sf-types-theorems-and-programming-languages/events/298827123/ (I might attend or skip, since I had to adjust my expectations of usefulness down based on yesterday's experience, but it is likely that the URL of the recording will be posted in the comments there.)
no subject
https://www.cs.ox.ac.uk/dan.olteanu/papers/nnos-pvldb17.pdf
or
https://ora.ox.ac.uk/objects/uuid:2d852e0d-889d-46fe-890e-b1ac5687c798/download_file?file_format=application%2Fpdf&safe_filename=main.pdf&type_of_work=Conference+item
(the second version got a new first author! wow)
no subject
Чудесненько обобщили. Но изложено варварским языком. Вообще, это должна быть не статья, а книга, в Спрингере. Не 38 страниц, а страниц триста.
no subject
Ну, правда, нынче можно посоветоваться "с умным человеком" (в GPT-4 теперь можно загрузить PDF, и обсудить с ней)...
no subject
Кстати, недавно на линкед-ин начали задавать идiотскiе "вопросы экспертамъ". ("Объясните, какъ квантовые компьютеры повысятъ быстродѣйствiе интернетъ-бизнесъ-программъ.") Похоже, что обучаютъ новую гопоту.
no subject
no subject
Гопота не въ состоянiи непротиворѣчиво развивать логическую связь. На каждомъ шагу можетъ дѣлать ошибки любой грубости или тонкости. Я видѣлъ нѣсколько примѣровъ. Скажемъ, пишутъ интегралъ отъ 0 до Т, потомъ предѣлы интегрированiя пропадаютъ, а потомъ интервалъ интегрированiя опять появляется неявно, но уже другой. Или говоритъ: "слѣдовательно, x = 120, а поскольку 120 примѣрно равно 67.5, получаемъ отвѣтъ 67.5".
Я бы не сталъ вѣрить гопотѣ ни на грошъ ни въ чемъ. Политически она подкована на 200%, стиль прекрасный и гладкiй, но мозговъ нѣтъ и не будетъ.
no subject
Невежественные люди, не выучившие теорию симуляторов, не понимающие, что такое генеративные модели, любят говорить про это всякую чушь. Мозги у них, вроде бы, и есть, но с использованием этих мозгов у них не очень...
no subject
Я вижу происходящее такъ: Сдѣлали машинку-чатгопота, но никто не знаетъ, что именно она умѣетъ, изслѣдуютъ это лишь методомъ пробъ и ошибокъ. Потому что это машинка новаго типа - безъ какой-либо заранѣе запрограммированной цѣли. Да, это реальная революцiя въ ИИ, но мы не знаемъ, куда это ведетъ и что съ этимъ дѣлать. Поэтому обычно люди реагируютъ такъ: Если машинка дала правильный отвѣтъ - хвалятъ прекрасный новый ИИ. А если отвѣтъ явно неправильный, то вѣдь все равно никто не знаетъ, почему это произошло и какъ можно было бы этого избѣжать, поэтому говорятъ "вы дали неправильный промптъ, пробуйте дальше".
no subject
"мы довольно неплохо понимаем" - в том смысле, что есть люди, которые хорошо и глубоко понимают, а есть те, которые просто тыкаются... Новая область, быстро развивается, популярная, так что многим хочется в это играть, как тем, кто имеет глубокое понимание, так и людям, более поверхностно подходящим к делу.
Всерьёз надёжные вещи будут гибридные. Как только ей разрешили в середине лета гонять ей же сгенерированный питоновский код, сразу качество очень сильно возрасло, она смогла решать без ошибок задачи, которые были далеко за пределами её способности не делать мелкие ошибки до того.. Я думаю, что мы скоро будем больше видеть, как она гоняет theorem provers, чтобы уж точно знать, что и как (ошибки в формализации, естественно, всё равно возможны).
no subject
no subject
Ну, так или иначе, я, в своё время, сделал конспект, который может быть удобен:
https://github.com/anhinga/2022-notes/tree/main/Generative-autoregressive-models-are-similators
Кроме того, группа "Янус" сделала парочку более ранних работ, одна из которых вполне знаменитая (https://arxiv.org/abs/2102.07350), а другая - малоизвестная, но сильная (https://arxiv.org/abs/2102.06391), а недавно они были со-авторами некоторого обзора в Nature (который, впрочем является компромиссом между взглядами первого автора и взглядами группы "Янус"): https://www.nature.com/articles/s41586-023-06647-8
no subject
https://arxiv.org/abs/2102.07350
Using GPT-3 as a case study, we show that 0-shot prompts can significantly outperform few-shot prompts. We suggest that the function of few-shot examples in these cases is better described as locating an already learned task rather than meta-learning.
Ну вотъ это какъ разъ то размахiванiе руками, о которомъ я говорилъ. "Мы попробовали это, попробовали то, ну а потомъ Джимми пнулъ ногой одинъ изъ ленточныхъ барабановъ и тогда оно, кажется, получше заработало."
Я знаю техническое опредѣленiе того, что такое "learning" въ данномъ контекстѣ. Это значитъ опредѣленный процентъ правильныхъ отвѣтовъ на test set, validation set и т.д. Дѣйствительно, это похоже на обычный смыслъ слова "обученiе" въ примѣненiи къ людямъ, потому что "обученные" люди тоже иногда ошибаются и даютъ лишь нѣкую долю правильныхъ отвѣтовъ. Но мы не знаемъ, почему это происходитъ. Мы не знаемъ ни того, почему "обученные" люди умѣютъ что-то дѣлать, ни того, почему они иногда ошибаются. Т.е. мы не знаемъ, какъ работаетъ человѣческое "пониманiе", не можемъ имъ эффективно управлять. Точно также мы не знаемъ, почему модели даютъ иногда правильный отвѣтъ, а иногда неправильный, особенно если давать задачи, выходящiя за рамки обучающаго набора данныхъ.
no subject
Да, хотя они стараются быть аккуратными и подчёркивать отличия от человека, особенно в этом последнем обзоре в Nature: "As dialogue agents become increasingly human-like in their performance, we must develop effective ways to describe their behaviour in high-level terms without falling into the trap of anthropomorphism. Here we foreground the concept of role play. Casting dialogue-agent behaviour in terms of role play allows us to draw on familiar folk psychological terms, without ascribing human characteristics to language models that they in fact lack. Two important cases of dialogue-agent behaviour are addressed this way, namely, (apparent) deception and (apparent) self-awareness."
И, действительно, они там где-то показывают пример, когда она точно не ведёт себя, как человек (когда играет в словесную игру, что она загадает слово, а юзер отгадывает это слово за двадцать вопросов; без специальных мер, чтобы это починить, она никакого слова не загадывает, хотя выглядит так, как будто загадывает; это как раз частный случай того обстоятельства, что она, в стандартной конфигурации, вообще умеет думать только вслух).
> но это не научная теорiя, я не вижу, какъ можно было бы тамъ устроить критерiй истинности и математически строго провѣрить, что "сущности" или "личности" существуютъ и обладаютъ такими-то свойствами. По-моему, безнадежно пытаться понять миллiарды коэффицiентовъ нейронной сѣти въ терминахъ "личности".
Ну так и мы с вами воспринимаем друг друга, как личности. И нам кажется, что это, скорее всего, правильно, но это не помогает нам понять, детали того, как работают мозги. Тем ни менее, нельзя сказать, чтобы восприятие друг друга, как личностей было бы неразумно.
Но исследования того, как работает сама эта сеть, тоже есть, и в большом количестве, просто (как и с мозгами у людей), понимание в более наивных "высокоуровневых" терминах "псевдо-личностей", как у Януса, гораздо более полезно при ежедневном общении с людьми, чем мысли про синапсы. Я тут недавно делал обзорный доклад, и там в слайдах 7-19 есть кое-какая подборка ссылок на разные исследования внутренностей этих моделей (конечно, таких исследований гораздо больше):
https://github.com/anhinga/2023-notes/tree/main/transformer-math
Но, как и в случае с людьми, есть разрыв между исследованием внутреннего устройства, и практическими навыками "межличностного общения" (с точки зрения текущего ежедневного общения, практические навыки важнее).
> Но мы не знаемъ, почему это происходитъ. Мы не знаемъ ни того, почему "обученные" люди умѣютъ что-то дѣлать, ни того, почему они иногда ошибаются. Т.е. мы не знаемъ, какъ работаетъ человѣческое "пониманiе", не можемъ имъ эффективно управлять. Точно также мы не знаемъ, почему модели даютъ иногда правильный отвѣтъ, а иногда неправильный, особенно если давать задачи, выходящiя за рамки обучающаго набора данныхъ.
Ну правильно. Тем ни менее, мы нанимаем людей делать работу, даём им доказывать теоремы и вести исследования, и в курсе, что они могут делать разнообразные ошибки, и что нужны протоколы для (частичной) защиты от этих ошибок.
В некотором смысле, хоть LLMs и не надо слишком антропоморфизировать, по многим характеристикам их проявления весьма похожи на людей. Впрочем то, что внутри, видимо уже гораздо более мощное по своему потенциалу, чем человек (разнообразие феноменов, которые такая штука может генерировать, очень велико, особенно если это не укрощенный и стреноженный для удобства юзера и корпорации ChatGPT, а неукрощённая "базовая модель", неудивительно, что базовую GPT-4 почти никому не дают (но кому-то, всё же, иногда дают, в виде исключения, так что, какая-то информация про её свойства доходит до тех, кому сильно интересно)).
no subject
no subject
Но с этим тоже успехи посредственные; кроме того, мы, на самом деле, не понимаем и как работают достаточно запутанные небольшие системы - есть очень красивые системы всего с несколькими сотнями или даже десятками параметров, но это не значит, что мы понимаем их динамику (иногда большие системы, наоборот, в некотором смысле, более регулярны и интерпретируемы, поскольку фрагменты более узко специализированы)...
no subject
Не похоже, что дело только в проблемах с изложением; эта работа соблазнительная, но не то, чтобы даже недоделанная, а так, чуть начатая... Её, пока что, надо не доделывать, а, скорее, всё же, сделать, пользуясь этой "затравкой", как мотивацией и исходной точкой...
no subject
no subject
В частности, то, что они рассматривают отношения, это интересно (а с моей точки зрения, можно рассматривать "нечёткие" отношения, которые оказываются дифференцируемыми, что часто удобно в разных контекстах).
Но у них есть всякие "оптимизационные преобразования" с доказательствами корректности, но непонятно, какие преобразования когда надо и не надо применять. Ну и у них sparse-dense trade-off очень ad hoc, а это - глубокая центральная тема, я сначала думал, что, может быть, они что-то там совсем здорово сделали, но сейчас у меня нет такого ощущения...
no subject
In this sense, a conversation with GPT-4 does give a good quick preliminary impression:
https://chat.openai.com/share/513a5ee8-6b9c-41e1-afd8-dc4f81c90bb0
* Yes, this is closely related, and they do all kinds of cute things with these structures
* No, they don't seem to optimize for GPUs
* Yes, there is a variety of potentially very useful optimization techniques there
* No, it seems that there is no publicly available implementation
So it makes sense to try to attend that Jan 13 meetup, see what people have to say about this.
no subject
That seems incorrect to me. Multiplication by scalars is obviously commutative.
Since I'm not familiar with technical details of any of this stuff, it's really useless for me to read what chatgpt said. I can spot an error only in a domain where I already know the technical details. In domains where I am just trying to learn new stuff, chatgpt's output will mislead without me noticing.
For example, it says "Yes, this is closely related" and actually it could be unrelated, how do we know? Chatgpt didn't say why they were closely related other than superficially (dictionaries with numeric leaves vs. nested dictionaries with semiring-valued leaves).
no subject
In this case, I can double check their definition and note that they indeed do consider the generality of non-commutative rings (section 2.1, page 3). So her remark is correct.
(This is, actually, very good, because doing this with rings of matrices might be quite interesting to try.)
The point is, I want to make progress without diving deeply. Later, if diving deeply turns out to be warranted, I would do that.
***
Other than that, I know my paper really well, I am trying to get a quick feel whether the techniques from this one are likely to help me make progress with some open problems with my approach. If one does not know either paper, I don't quite see why one would be interested in comparing these two papers. But I have some very particular needs in mind (the main reason why my neural machines are not very practical compared to Transformers is that my machines are not GPU-friendly and not highly optimized in their full generality, so rectifying that is fairly central to me).
no subject
Multiplication is defined in a way that is not commutative by default, where multiplying a dictionary with a scalar results in each value of the dictionary being multiplied by the scalar
This phrase is confusing: it says that multiplication is not commutative by default (what does "default" mean here?) and then it talks about multiplying dictionaries by scalars as if to illustrate the non-commutativity.
To understand what this means, you need to actually look into the paper and find what is commutative and what is non-commutative.
A reasonable rewrite would be: "Multiplication by scalars is in general non-commutative. (full stop, it's going to be a different topic now!) Multiplying a dictionary with a scalar results in ..."
no subject
(Как и в том, что я пишу, особенно, если я решаю не исправлять, а оставляю, как получилось (это - некоторая особенность текущей парадигмы, что она может думать только вслух, а не про себя; это можно чинить, но до какой степени надо торопиться это чинить, это не очень понятно).)