За пределами Markdown: геометрия model-native навыков

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:00:02

Управление языковыми моделями через текстовые инструкции:

1. Участники обсуждения пришли к выводу, что управление языковыми моделями осуществляется неверно через написание инструкций и использование жесткого контекста (промптов)
2. Для понимания глубинных изменений участники ссылаются на свежие научные публикации и видеолекцию с канала Discovery AI
3. Обсуждается переход от традиционного подхода управления языковыми моделями к новому методу чистого математического управления, который кардинально меняет базовые принципы инженерии нейросетей

00:01:48

Проблема репрезентационного разрыва и ограничения текстового подхода:

1. Разработчики пытаются превратить вероятностную нейронную сеть в детерминированную систему, жестко ограничивая её работу текстовыми рамками
2. Внутри архитектуры нейросетей отсутствуют изолированные категории знаний (например, математика или программирование), понятные человеку, однако модель самостоятельно формирует уникальные связи между концепциями
3. Инженеры часто игнорируют потенциал предварительной обработки данных моделью, сосредотачиваясь лишь на тех навыках, названия которых уже существуют в человеческой культуре

00:04:51

Использование автокодировщиков для устранения проблем нейросетей:

Предложена идея использовать разреженные автокодировщики (Спарс, автоэнкодер или ES-AE) для оптимизации работы нейросети
Описан механизм работы фильтров, который заключается в поиске компактных ортогональных базисов для разделения и изоляции навыков модели
Рассмотрена проблема катастрофического забывания в нейросетях и предложены способы её устранения через использование ортогональных базисов и феномена суперпозиции в высоком измерении

00:07:10

Геометрическая интерпретация работы нейросетей и устранение галлюцинаций:

1. Разработана методика предотвращения появления галлюцинаций путём настройки оси логического состояния модели (LLM), позволяющая избежать угадывания моделью фактов и обеспечить структурное предотвращение ошибок
2. В результате контролируемого дообучения модели SFT качество логики улучшилось: у LANA показатель вырос с 37,7% до 39,6%, у KWEREN с 52,0% до 57,7%
3. Улучшение качества логики является фундаментальным изменением, связанным с очисткой внутренних механизмов модели, а не простым запоминанием новых данных

00:08:26

Эффективность нового подхода к обучению моделей:

1. Репрезентативная и спектральная инженерия заменяют прежний метод промпт-инженеринга
2. Новый подход предполагает использование специализированных примеров (около 5000), вместо обработки большого количества скрипт-кода на Python
3. Применение нового подхода увеличивает эффективность работы модели на 41%, согласно результатам американских соревнований Aэмиcи

00:09:27

Квантование моделей и потеря точности логики:

1. Обсуждалась проблема квантования моделей машинного обучения с большим количеством параметров (до 32 млрд), приводящая к потере точности при уменьшении размера модели до 3 млрд параметров
2. Упоминалось, что при сжатии модели до обычных серверов теряется сложность логики, хотя грамматика сохраняется идеально
3. Рассматривалось влияние округления базовых векторов модели на сохранение её функциональности, особенно сложных логических выводов

00:10:29

Методология мягкого промпта и обход лингвистического интерфейса:

1. Разработана методика обхода лингвистического интерфейса на этапе вывода инференса с использованием сжатой модели, исключающая использование токенов и эмбеддингов, что позволяет сократить контекстное окно до нуля токенов
2. Предложена идея математической инъекции логики в процесс генерации текста, заменяющая лингвистические подходы
3. Рассматривается новое оптическое исследование от Калтеха и Университета Альберты (конец февраля текущего года)

00:11:14

Теоретико-физическая метафора мышления нейросетей:

1. Рассматривается аналогия между процессом мышления ИИ и звуковой волной, названная спикерами гениальной метафорой
2. Упоминаются составляющие аккорда (басы, средние, высокие частоты), аналогичные структурам сигналов в нейросетях
3. Описывается принцип работы нейросетей через сравнение с суперпозицией сигналов, включающих структуру фактологии и случайный элемент

00:11:45

Применение Фурье-анализа и дифференциальной геометрии в обработке сигналов:

Исследователи применяют фурье-подобные операторы для анализа сигналов навыков и фильтрации шума
Активация нейронной сети происходит не в равномерном многомерном пространстве, а локализована на изогнутых поверхностях многообразий
Для изменения поведения моделей важно движение по геодезическим линиям, минимально искривлённым траекториям внутри многообразий

0: Ну что ж, давайте разберём это. Знаешь, я всегда думала, что мы реально управляем языковыми моделями с помощью слов. Угу. Это самое частое заблуждение на сегодня. Да, мы же постоянно пишем огромные текстовые

1: Инструкции задаём такой, ну, жёсткий контекст требуем действуй как старший python, разработчик, да, да. Или отвечай, как строгий юрист вот именно. И нам искренне кажется, что именно так мы и программируем навыки машины. Ну, выстраиваем.

2: Её логику, но массив данных, которые мы сегодня разбираем, а это просто бомба, показывает, что это глубочайшая ошибка. Абсолютно. Мы базируемся на детальной видеолекции с канала дискавер эйай и 2 свежих научных

3: Публикациях начала 26 года 1 от Вержинский, a2 это совместная работа университета Альберта и калтеха. Очень серьёзный набор источников, я бы сказал, согласна, и миссия наша

4: Сегодняшнего разбора, расшифровать этот фундаментальный сдвиг, понять, почему мы уходим от написания Промптов и переходим к чистому математическому управлению иай и масштаб этого перехода он действительно меняет базовые принципы.

5: Инженерии. Долгое время мы работали с языковыми моделями так, словно это просто, ну, люди, люди, которые очень быстро читают тексты, точно мы упорно пытались втиснуть весь этот многомерный потенциал нейро.

6: Сетей в наши человеческие лингвистические категории как бы заставляли их играть по нашим правилам именно, но ведь базовая природа и ay это чистая математика, это матрицы векторы, сложнейшая геометрия.

7: И сейчас индустрия наконец то отказывается от этого человеческого эгоцентризма мы начинаем говорить с машиной на её родном векторном языке давай тогда разберём, как выглядит вот этот текущий уходящий подход.

8: У нас есть ядро большой языковой модели ллм, которое, по сути, просто угадывает следующее слово, да, оно вероятностное, и чтобы заставить эту систему выдавать надёжный результат, инженеры строят вокруг неё так называемый строи.

9: Леса. Мы обвешиваем модель файлами маркдаун. Ну, скил, Эмди. Угу. Жёстко прописываем Роли, навязываем стили, по сути, пытаемся сделать вероятностную систему детерминированной, загоняя её в жёсткие текстовые рамки.

10: И вот здесь как раз возникает системная ошибка исследователи называют это репрезентативный разрыв, звучит как-то научно. Что это значит на практике фишка в том, что внутри архитектуры нейросети нет никаких изолированных папок с ярлыками.

11: Типа алгебра или программирования. А нам кажется, что есть да, но модель вообще не мыслит категориями университетской программы. Для неё не существует концепции. Опытный разработчик. Ага, все, что там есть, это кластеры нейронов.

12: Они активируются вместе, формируя векторы в огромном многомерном пространстве. Когда мы просим модель быть разработчиком, мы заставляем её имитировать текстовый стиль разработчика, но мы не обращаемся к её математической способности писать

13: Код в точку слушай, в лекции была потрясающая аналогия с автомобилем пытаться управлять таким сложным ии только через текстовые файлы это все равно что выбрать для вождения спорткар, ну ferrari и.

14: Ехать только на 1 передаче, да, просто потому, что водитель упрямо отказывается изучать, как вообще работает коробка передач. Мы искусственно урезаем мощность. У меня ещё родилась своя мысль, когда я это читала, давай это как пыта.

15: Обучить кота квантовой физике, используя правила русской грамматики. Отличный пример. Ну, правда, мы насильно навязываем этому математическому мозгу наши человеческие картотеки, хотя он работает по совершенно

16: Законом и что здесь особенно интересно если инженеры ищут в ii только те навыки, для которых у нас уже есть название, то они что-то упускают, они упускают огромный Пласт во время предварительного обучения модель обрабатывает питаба ы дан.

17: И неизбежно развивает свои собственные скрытые паттерны рассуждений. Инопланетные паттерны буквально эти паттерны, совершенно инопланетные для нас, и и связывает концепции, так как человеку в жизни бы не пришло в голову просто потому, что наш мозг не ра.

18: Работает в пространстве из тысяч измерений. Хорошо, но если мы признаем, что текст это плохой инструмент, как нам взаимодействовать с этими инопланетными паттернами напрямую? Вот тут на сцену выходит исследование вергини ого политех от апреля 20.

19: Того года. Ага. Они там предлагают перейти к анатомии нативных навыков модели и используют такую штуку. Разреженные автокодировщики. Звучит жутковато по-английски. Это Спарс, аутоэнкодер или эс эй.

20: И оптимизированы они для глобального поведения последовательности. Давай на пальцах, как эти фильтры работают. Давай представим, что информация внутри модели. Это невероятно плотный клубок спутанных сигналов. Угу. И вот эти автокодировщики, реша,

21: Задачу распутывания клубка математически они ищут компактные ортогональные базисы, то есть независимые направления, да, они сканируют сеть и выделяют векторы активации, которые не пересекаются и не создают помех.

22: Друг другу это критически важное для решения старой проблемы нейросетей, катастрофического забывания это когда модель учит новое и забывает старое именно раньше веса смещались векторы, пересекались и Бац старое знание.

23: Пропала, а ортогональные базисы изолируют навыки. Они существуют независимо, ну как выделенные полосы на многополосном шоссе. Слушай, ну тут у меня возникает вопрос в исследовании они разбирают лама 3, у неё скрытое пространство.

24: 4096 измерений, верно, 4000 измерений я в шоке, с 1 стороны, нам даже 4 д представить сложно, а с другой модель же должна обладать десятками тысяч навыков, сотнями тысяч нюансов да как мож.

25: Можно впихнуть сотни тысяч независимых навыков всего в 4000 измерений, там же должен быть математический потолок этот потолок был бы жёстким, если бы мы требовали идеальной сетки, чтобы каждый навык был строго перпендикулярен всем остальным.

26: А на деле не так включается феномен суперпозиции в пространстве с высокой размерностью существует астрономическое количество направлений, которые не строго перпендикулярны, но почти ортогональны, почти не мешают друг.

27: Друг другу вот нейросеть не тратит 1 нейрон на 1 навык, она сжимает информацию и распределяет навык ссквозь 1000 измерений как сложный паттерн это и есть суперпозиция, то есть геометрия позволяет хранить больше призна.

28: Чем есть измерений круто, но давай перейдём к настоящей бомбе, к устранению галлюцинаций. Оо, да, это самое интересное применение. Исследователи выяснили, что если найти ось, которая отвечает за логи,

29: Последовательность, то мы можем просто выкрутить ей громкость буквально, и вероятность галлюцинации физически блокируется. Если состояние ллм привязать к высоким координатам логики, ей больше не нужно угадывать факт.

30: У неё появляется чёткий математический план вывода мы больше не фильтруем галлюцинации после того, как они появились, мы их предотвращаем структурно, а что там по цифрам? Я видела результаты контролируемого дообучения sft да.

31: У lana 3 8 би при таком управлении логика улучшается с 37 и 7% до 39 и 6/10 процента по сравнению со случайным sft, а у кверен 2 5 3 би скачок ещё больше с 52.

32: Процентов до 57 и 7%. Кому-то цифры покажутся небольшими, всего несколько процентов no. Природа этого улучшения фундаментальна, это не просто заучивание новых текстов, нет, это очищение внутреннего

33: Длительного процесса на базовом геометрическом уровне. Итак, что все это значит? Эпоха промпт инженеринга официально мертва, я бы сказал, она уступает место репрезентативной или спектральной инженерии. Тяжёлый

34: Это прямой путь к банкротству и вопрос эффективности. Тут стоит очень остро. Старый путь это взять 100000 скриптов на питоне, прогнать через модель и надеяться, что она станет лучше кодить жутко неэффективно моё.

35: Тратит силы на чтение всего контекста, а не на суть логики, а новый путь. Мы находим вектор логики кода и берём всего около 5000 узкоспециализированных примеров. Мы целенаправленно проталкиваем модель именно в этот паттерн сни.

36: Объёма данных в десятки раз. И плюс это даёт прирост на 41% в бенчмарке. Аэмси. Это американские математические соревнования. Да, мы буквально настраиваем внутренний компас модели, мы заменяем грубую силу.

37: Массивов хирургической точностью геометрии. А что насчёт квантования? В материалах обсуждали так называемые мёртвые направления? О, это большая проблема, когда огромную модель на 32 миллиарда параметров сжимают до 3 миллиардов

38: Чтобы она влезла на обычные серверы, да, при этом урезают точность вычислений, округляют веса. И часто при этом полностью ломается сложная логика. При этом грамматика остаётся идеальной. Почему так происходит, если

39: Посмотреть на пространство модели, базовые навыки, синтаксис, частые слова это широкие устойчивые векторы с высокими значениями, округление их не убивает, верно? А вот сложный логический вывод опирается на очень тонкие хруп.

40: Математические оси при сжатии они схлопываются в 0 это и есть мёртвые направления, то есть модель не забыла логику, у неё просто физически сломалась дорога, по которой Шёл сигнал точно, и тут на сцену выходит софт, prompting, мягкий проминг.

41: Как это работает на практике, поскольку вектор разрушен словами мы модель логики не научим, но инженеры заранее вычисляют вектор успешного ответа на большой неквантованный модели и потом просто вводят этот чистый вектор во время генерации текста.

42: На сжатой модели, да, прямо на этапе вывода инференса мы обходим весь этот лингвистический интерфейс с токенами и эмбедингам, и это занимает Ровно 0 токенов контекстного окна. Мы не пишем. Думай шаг за

43: Шагом мы делаем математическую инъекцию логики это просто триумф математики над лингвистикой, и это подводит нас к 4 разделу новая оптика от калтеха и университета альберты да, исследование от конца февраля 2.

44: 26 года они предлагают смотреть на ii через призму теоретической физики и обработки сигналов, и вот где становится действительно интересно, они сравнивают процесс мышления ii со звуковой волной, и это гениальная метафора в музыке.

45: Же аккорд состоит из частот басы средние, высокие, и мы можем разложить звук эквалайзера, а в нейросети тоже самое ответ языковой модели это суперпозиции сигналов, есть сигнал структуры фактологии и есть стахастический.

46: Шум это наши галлюцинации, и что делают исследователи используют фурье подобные операторы раскладывают навык на фундаментальные частоты, чтобы отфильтровать шум. Да, мы математически давим нестабильные паттерны и усиливаем чистый

47: Сигнал навыка фантастика, но они идут дальше в дифференциальную геометрию. Говорят, что активации живут не просто в плоском пространстве, а на изогнутых листах многообразиях манифолда, потому что

48: Осмысленные человеческие тексты не заполняют пустоту 4 тысячемерном ространства равномерно они занимают лишь крошечную изогнутую долю состояние ii это точка, скользящая по этой изогнутой поверхности, если мы хотим изменить поведение модели.

49: Мы не можем просто толкнуть вектор по прямой. Почему? Потому что мы сорвёмся с этого многообразия. Модель начнёт выдавать бессвязный бред букв. Нам нужно двигаться стояние по геодезической линии кратчайшему пути вдоль самого изгиба. Именно

50: Так, слушай, они ещё делят режимы на основе собственных значений. Эген вельюс. Высокие и низкие да, высокие собственные значения. Это крепкие базовые навыки. Тот же и синтаксис их трудно сломать, а низкие значения это

51: Хрупкие нишевые навыки, например, редкие юридические прецеденты столетней давности, и это приводит нас к главному тезису, который переворачивает все мы привыкли смешивать знания и навыки, а они доказали, что знания, факты, даты хранятся.

52: В весах модели, в матрицах, а навыки, логика, кодинг анализ живут исключительно в пространстве активаций на тех самых изогнутых многообразиях. И если мы хотим развивать навыки ии, то просто скармливать ему новые тексты это тупик, нам нужно

53: Работать с частотами и геодезическими орбитами это единственный естественный способ общения с архитектурой нейросети давай подведём итог эпоха длинных текстовых инструкций, полных наших человеческих понятий, заканчивается бесконечные мега.

54: Промты.