dmm | CodeGeeX, Riffusion, etc.

CodeGeeX seems to be a reasonably competitive free and open source alternative to GitHub Copilot. It might be a good thing to be aware of (although we do have ChatGPT these days).

Riffusion is a free and open source app which generates spectrograms via stable diffusion and converts them to music.

Links are in the comments.

Flat | Top-Level Comments Only

From:

dmm

https://blog.logrocket.com/using-codegeex-github-copilot-alternative/

https://models.aminer.cn/codegeex/playground

https://github.com/THUDM/CodeGeeX

(From a group in China led by Jie Tang: https://github.com/THUDM)

From:

dmm

Meanwhile, here is a new benchmark: "MultiPL-E: A Scalable and Extensible Approach to Benchmarking Neural Code Generation", https://arxiv.org/abs/2208.08227

https://github.com/nuprl/MultiPL-E

https://nuprl.github.io/MultiPL-E/

This is under https://github.com/nuprl - Northeastern University Programming Research Lab

From:

dmm

https://www.riffusion.com/about

https://github.com/riffusion/riffusion-inference

https://www.riffusion.com/

Via https://ailev.livejournal.com/1663180.html

From:

dmm

By Hayk Martiros and Seth Forsgren: https://github.com/riffusion

From:

dmm

"ailev" is often a good resource (if one quickly filters out the parts which are not interesting).

E.g. https://ailev.livejournal.com/1663867.html

"Мои текущие тезисы по поводу нынешних "страстей по ChatGPT":

-- с эмерджентными эффектами в нейросетях ещё не разобрались, гуглевское деревцо на больших размерах непонятно, что вытворит. Там могут подозреваться чёртова туча алгоритмов, которые эмулирует эта "вычислительная машина на нейросетке", поэтому продолжаем ждать сюрпризов. Например, вот тут утверждается, что нейросетка внутри себя реализует градиентный спуск, и это открывает новые горизонты: https://arxiv.org/abs/2212.07677. Кто-то обнаружит, что сетка реализует эволюционную машину. Кто-то обнаружит, что ещё что-то. Сетка всё-таки универсальный аппроксиматор, поэтому внутри неё может вполне сформироваться какой-то стек моделей, как вычислительный стек в обычных компьютерах, куча языков, написанных друг на друге, работают в весьма причудливом взаимодействии, только тут как в живой природе с генами: всё сильно перепутано, как интеллект кодируется в куче генов и не поймёшь, какие за что отвечают, так и в нейросетке, всё размазано. В любом случае, текущая гипотеза высказана в горьком уроке Sutton: размер имеет значение. Sam Altman добавлял к этому, что архитектура нейросеток или даже не нейросеток (есть варианты) по большому счёту не имеет значения (та самая неустроенность/неустаканенность/frustrations когнитивных архитектур работает и тут). Так что с ужасом и благоговением ждём GPT-4 и новое поколение LaMDA, которые будут лучше даже просто потому, что они больше (и поэтому дороже). И новых поколений аппаратуры, они уже за углом (и там будут не только GPU, а "вычислители с хитрой физикой", необязательно квантовые).

-- главных проблем две, и они связаны: 1. управление конфигурацией знаний, то есть версионирование, включая версионирование теорий (типа как "опирающиеся на теорию флогистона теории считать фальсифицированными", "тексты по астрологии из выдачи исключать"). Увы, исследования по тому, чтобы выдача была политкорректной, помогут только чуть. Это сетку надо научить быть попперианским эпистемологом (сейчас идут дальние подступы к этому, просто имеют огромные выборки не по всему времени, а по периодам времени, и считают всё в рамках периода "консистентной версией", но нам не это "не путать английский девятнадцатого века с американским двадцать первого" надо!). Но похоже, что это можно решать только, когда появится 2. какая-то возможность для вывода, совершенно не факт, что "мат.логического", а просто вывода на базе рационализма -- то есть основанного на теории решений, то есть внутри там не "логические онтологии" должны быть, а квантовоподобный (в силу скорости) вывод и какая-то квантованность представления информации. Что касается "объяснений", то они какие-то есть уже и у ChatGPT, но без 1 и 2 они бесполезны.

-- уже сейчас начали появляться аналоги ChatGPT в количестве, в той же notion.so, you.com, везде. Скоро будет до чёртиков разных сервисов, среди исследовательских институтов, среди чего угодно, нейрохудожники с их разнообразием отдыхают. Вот для науки: https://elicit.org/, https://beta.omnilabs.ai/, https://typeset.io/, это всё по линии быстро уволенной Galactica, то есть про научные статьи, ибо тут много открытых данных и легко что-то натренировать, а надёжность результата мало волнует (учОные разберутся, это не для необразованной публики, для которой такие сервисы опасны, ибо "в газете написано, в телевизоре говорят -- значит так оно и есть"). Но ровно вот такие сервисы должны появиться по корпоративным данным, и доступа снаружи к ним не будет. Но для этого появятся "сервисы по созданию интеллектуальных корпоративных ассистентов", и для этого развивается куча технологий типа https://www.anthropic.com/constitutional.pdf.

-- я сам по плану сижу где-то до мая 2023 тихо и наблюдаю, мой прогноз про выход к маю коммерческих сервисов для аналогов ChatGPT, в которых будут учитываться корпоративные данные. Тогда мы скормим наши учебные курсы и литературу к этим курсам таким сеткам и прикрутим их в Aisystant, и все поймут, почему мы уже давно дали такое имя нашему сервису. Я всё время повторяю, что жду дешёвый искусственный интеллект, и что он таки будет со всеми его сверчеловеческими возможностями дешевле грибов, хотя и на сразу. Но в мае 2023 мне кажется, уже можно будет что-то делать и таким мелким лавкам, как наша Школа."