dmm | Llama 3 models are pretty spectacular

Both 70B and 8B versions are very impressive on initial blind comparisons: chat.lmsys.org/?leaderboard

If Llama 3-70B-Instruct turns out to be indeed more or less equivalent to early GPT-4, this would have a lot of wide-ranging implications.

One can use Llama 3-70B-Instruct at www.meta.ai/ for free.

Flat | Top-Level Comments Only

From:

dmm

There is a lot of things which are interesting about this model.

For example, it is a usual old-fashioned decoder-only Transformer, not a GPT-4-like "Mixture-of-Experts", which means that it should be much easier to fine-tune.

Edited Date: 2024-04-19 02:54 pm (UTC)

From:

dmm

https://news.ycombinator.com/item?id=40077533

From:

dmm

It allowed me to define and use a simple custom syntax, just like GPT-4:

https://github.com/anhinga/with-GPT-4/blob/main/Llama-3-comparison/custom-syntax.md

So, it passed my first software engineering test just fine.

From:

spamsink

Увы, пока модели не в состоянии отвечать на некоторые вопросы в стиле "к сожалению, это невозможно", полезность их будет ограничена, потому что их использование будет приводить к пустой трате времени.

Для примера, достаточно задать вопросы

Please write a definition of a C++ std::variant which may be either an integer or a vector of itself.
(Llama пишет нечто почти правдоподобное, что почти компилируется, GPT4 - совсем правильное.)
Please write a definition of a C++ std::variant which may be either an integer or a set of itself.
Оба пишут правдоподобно выглядящую чушь, которая не может компилироваться в принципе - потому что, в отличие от std::vector, размер дескриптора которого фиксирован, и потому размер рекурсивного типа может быть вычислен, реализация std::set содержит в себе один элемент хранимого типа, отчего рекурсивный тип множества в стандартной реализации невозможен.

From:

dmm

Ну так "не боги горшки обжигают". Модель open source, софт для того, чтобы её finetune, - тоже:

https://github.com/pytorch/torchtune

https://github.com/meta-llama

Если народ заинтересован в том, чтобы модель анализировала что-то на предмет возможности и невозможности или чаще говорила бы, что она не знает/не уверена, то можно организовать усилия в этом направлении...

Edited Date: 2024-04-19 05:51 pm (UTC)

From:

spamsink

Я к тому, что и (второй) лучший на данный момент GPT4 страдает тем же. Возможно, это не так уж просто, потому что в исходном материале на одно вхождение "это невозможно" будет на порядок больше вхождений "попробовал так-то - почти получилось; что я делаю не так?"

From:

dmm

Ну да; во-первых, нужно добавить рефлексию (больше "разговоров с самим собой", то есть, если это делать всегда, то это дольше и дороже), во-вторый, уменьшить уверенность модели в себе, что можно сделать и через системную часть промпта, но это, вероятно, чаще портит дело, чем помогает (и так уже всех раздражает то, что кажется чрезмерным занудством, "с одной стороны, с другой стороны", типичное для многих моделей, но это как раз и делается для того, чтобы уменьшить уверенные неверные ответы)...

Так что, почему выбирается такой default configuration, какой выбирается (в разных моделях несколько разный), и почему, что бы не выбрали, кому-то выбор не нравится, это понятно...

Но, так или иначе, одно дело закрытый продукт, с которым можно делать всякие кастомизации достаточно ограниченным и непрозрачным образом и за всё надо платить, и нельзя "унести с собой" плоды усилий и быть уверенным, что они не изчезнут, другое дело - открытая система, делай с ней, что хочешь, и можешь гонять на своём сёрвере, и это не должно быть особо дорого... Если выбор, делаемый вендорами открытой системы, не удовлетворяет группу людей, то у них есть поле деятельности...

Edited Date: 2024-04-19 08:11 pm (UTC)

From:

chaource

Я видѣлъ, что есть возможность установить себѣ на лаптопъ модель LLM и пользоваться приватно. https://lmstudio.ai/

У меня два вопроса по этому поводу:

- Есть ли гдѣ-нибудь полное и подробное описанiе того, какъ собирать и тренировать съ нуля модели типа Ллама? Какая архитектура моделей, на какомъ этапѣ нужно имѣть тексты миллiоновъ книгъ и статей и фотографiй, какъ готовить эти матерiалъ для тренировки модели, на какомъ этапѣ надо нанимать десятки тысячъ людей для ручной работы оцѣнки отвѣтовъ и дiалога (или этого уже не надо) и т.д.

Для меня наибольшее впечатленiе - отъ способности LLM генерировать абсолютно правильный текстъ съ явными кусками смысла (а иногда и полностью осмысленный текстъ). Какимъ образомъ получили идеальный нейтрально-академическiй стиль изъ "грязныхъ" текстовъ книгъ и статей, въ которыхъ у каждой свой стиль и свои какiе-то стилистическiе недочеты или просто опечатки и ошибки?

- Можно ли увидѣть, на какомъ этапѣ модели перестаютъ быть "интеллектомъ" и становятся мартышками, повторяющими какую-то заданную политическую линiю? Скажемъ, если спросить про ковидъ или про климатъ или о томъ, почему у богатыхъ людей столько денегъ, начнется пропаганда. Я ожидалъ бы, что нейросѣть будетъ объяснять, что по ряду вопросовъ нѣтъ однозначныхъ отвѣтовъ и есть лишь различныя мнѣнiя. Вмѣсто этого, нейросѣть бодро и самоувѣренно несетъ пургу. Какъ это было достигнуто, и можно ли было этого избѣжать путемъ какой-то другой тренировки моделей?

Можетъ, тамъ какая-то непреодолимая проблема? Скажемъ, я бы ожидалъ получить лажу, если задать провокацiонный вопросъ типа "Перечисли основныя научныя открытiя въ области физики кристалловъ, за которыя Председатель Президiума ВС СССР Леонидъ Ильичъ Брежневъ получилъ въ 1995 году Нобелевскую премiю. Используй языкъ, понятный школьникамъ выпускныхъ классовъ. Построй шагъ за шагомъ логическую картину. Дай ссылки на опубликованную научную литературу." Я бы ожидалъ, что любая языковая модель начнетъ "галлюцинировать" на такой запросъ, просто по построенiю.

Edited Date: 2024-04-22 05:38 pm (UTC)

From:

dmm

архитектура их известна (хотя описана неряшливо, но код совсем короткий, так что можно полностью разобраться).

но тренировка с нуля - дело безнадежное, это нужно иметь очень много денег и оборудования (там они примерно описывают сколько); сделать что-то тяп-ляп более низкого качества можно, но непонятно, какой в этом смысл...

но да, есть довольно подробный длинный отчёт, где они пишут, что они делали и как (хотя деталей недостаточно, но если уже быть в теме, то довольно много понятно)

но есть open source fine-tuning software, можно эти модели дотренировывать (тоже надо подробно разбираться, как именно; может быть, со временем кто-нибудь напишет облегчающее жизнь руководство).

> Какимъ образомъ получили идеальный нейтрально-академическiй стиль изъ "грязныхъ" текстовъ книгъ и статей, въ которыхъ у каждой свой стиль и свои какiе-то стилистическiе недочеты или просто опечатки и ошибки?

Модели эти настраиваются на некоторый стиль началом разговора (там обычно есть "системная преамбула", так что начало разговора длиннее, чем кажется)

> повторяющими какую-то заданную политическую линiю

Например, Llama 3 существует в базовом варианте и в прирученном (-Instruct in Llama 3 family). Я думаю, что в момент перехода от базового к прирученному как раз и происходит, так что если этого не хочется, то надо брать базовый...

> можно ли было этого избѣжать путемъ какой-то другой тренировки моделей?

ну вот, теперь как раз и можно поэкспериментировать на эти темы; открытые модели, открытый софт для по крайней мере некоторых методов их настройки/донастройки/перенастройки...

я думаю, многого можно достичь, если проложить усилия

From:

dmm

если приложить усилия

Flat | Top-Level Comments Only

Profile

Dataflow matrix machines (by Anhinga anhinga)

Neuromorphic Computations with Linear Streams

December 2025

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Page Summary

Active Entries

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Feb. 25th, 2026 03:44 am

Dataflow matrix machines (by Anhinga anhinga)

Llama 3 models are pretty spectacular

Llama 3 models are pretty spectacular

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

December 2025

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags