dmm: (Default)
Dataflow matrix machines (by Anhinga anhinga) ([personal profile] dmm) wrote2024-04-19 10:45 am

Llama 3 models are pretty spectacular

Both 70B and 8B versions are very impressive on initial blind comparisons: chat.lmsys.org/?leaderboard

If Llama 3-70B-Instruct turns out to be indeed more or less equivalent to early GPT-4, this would have a lot of wide-ranging implications.

One can use Llama 3-70B-Instruct at www.meta.ai/ for free.

spamsink: (Default)

[personal profile] spamsink 2024-04-19 05:27 pm (UTC)(link)
Увы, пока модели не в состоянии отвечать на некоторые вопросы в стиле "к сожалению, это невозможно", полезность их будет ограничена, потому что их использование будет приводить к пустой трате времени.

Для примера, достаточно задать вопросы

Please write a definition of a C++ std::variant which may be either an integer or a vector of itself.
(Llama пишет нечто почти правдоподобное, что почти компилируется, GPT4 - совсем правильное.)
Please write a definition of a C++ std::variant which may be either an integer or a set of itself.
Оба пишут правдоподобно выглядящую чушь, которая не может компилироваться в принципе - потому что, в отличие от std::vector, размер дескриптора которого фиксирован, и потому размер рекурсивного типа может быть вычислен, реализация std::set содержит в себе один элемент хранимого типа, отчего рекурсивный тип множества в стандартной реализации невозможен.
spamsink: (Default)

[personal profile] spamsink 2024-04-19 07:00 pm (UTC)(link)
Я к тому, что и (второй) лучший на данный момент GPT4 страдает тем же. Возможно, это не так уж просто, потому что в исходном материале на одно вхождение "это невозможно" будет на порядок больше вхождений "попробовал так-то - почти получилось; что я делаю не так?"
chaource: (Default)

[personal profile] chaource 2024-04-22 05:33 pm (UTC)(link)
Я видѣлъ, что есть возможность установить себѣ на лаптопъ модель LLM и пользоваться приватно. https://lmstudio.ai/

У меня два вопроса по этому поводу:

- Есть ли гдѣ-нибудь полное и подробное описанiе того, какъ собирать и тренировать съ нуля модели типа Ллама? Какая архитектура моделей, на какомъ этапѣ нужно имѣть тексты миллiоновъ книгъ и статей и фотографiй, какъ готовить эти матерiалъ для тренировки модели, на какомъ этапѣ надо нанимать десятки тысячъ людей для ручной работы оцѣнки отвѣтовъ и дiалога (или этого уже не надо) и т.д.

Для меня наибольшее впечатленiе - отъ способности LLM генерировать абсолютно правильный текстъ съ явными кусками смысла (а иногда и полностью осмысленный текстъ). Какимъ образомъ получили идеальный нейтрально-академическiй стиль изъ "грязныхъ" текстовъ книгъ и статей, въ которыхъ у каждой свой стиль и свои какiе-то стилистическiе недочеты или просто опечатки и ошибки?

- Можно ли увидѣть, на какомъ этапѣ модели перестаютъ быть "интеллектомъ" и становятся мартышками, повторяющими какую-то заданную политическую линiю? Скажемъ, если спросить про ковидъ или про климатъ или о томъ, почему у богатыхъ людей столько денегъ, начнется пропаганда. Я ожидалъ бы, что нейросѣть будетъ объяснять, что по ряду вопросовъ нѣтъ однозначныхъ отвѣтовъ и есть лишь различныя мнѣнiя. Вмѣсто этого, нейросѣть бодро и самоувѣренно несетъ пургу. Какъ это было достигнуто, и можно ли было этого избѣжать путемъ какой-то другой тренировки моделей?

Можетъ, тамъ какая-то непреодолимая проблема? Скажемъ, я бы ожидалъ получить лажу, если задать провокацiонный вопросъ типа "Перечисли основныя научныя открытiя въ области физики кристалловъ, за которыя Председатель Президiума ВС СССР Леонидъ Ильичъ Брежневъ получилъ въ 1995 году Нобелевскую премiю. Используй языкъ, понятный школьникамъ выпускныхъ классовъ. Построй шагъ за шагомъ логическую картину. Дай ссылки на опубликованную научную литературу." Я бы ожидалъ, что любая языковая модель начнетъ "галлюцинировать" на такой запросъ, просто по построенiю.
Edited 2024-04-22 17:38 (UTC)