0: Ну что ж, давайте разберём это. Знаешь, я всегда думала, что мы реально управляем языковыми моделями с помощью слов. Угу. Это самое частое заблуждение на сегодня. Да, мы же постоянно пишем огромные текстовые
1: Инструкции задаём такой, ну, жёсткий контекст требуем действуй как старший python, разработчик, да, да. Или отвечай, как строгий юрист вот именно. И нам искренне кажется, что именно так мы и программируем навыки машины. Ну, выстраиваем.
2: Её логику, но массив данных, которые мы сегодня разбираем, а это просто бомба, показывает, что это глубочайшая ошибка. Абсолютно. Мы базируемся на детальной видеолекции с канала дискавер эйай и 2 свежих научных
3: Публикациях начала 26 года 1 от Вержинский, a2 это совместная работа университета Альберта и калтеха. Очень серьёзный набор источников, я бы сказал, согласна, и миссия наша
4: Сегодняшнего разбора, расшифровать этот фундаментальный сдвиг, понять, почему мы уходим от написания Промптов и переходим к чистому математическому управлению иай и масштаб этого перехода он действительно меняет базовые принципы.
5: Инженерии. Долгое время мы работали с языковыми моделями так, словно это просто, ну, люди, люди, которые очень быстро читают тексты, точно мы упорно пытались втиснуть весь этот многомерный потенциал нейро.
6: Сетей в наши человеческие лингвистические категории как бы заставляли их играть по нашим правилам именно, но ведь базовая природа и ay это чистая математика, это матрицы векторы, сложнейшая геометрия.
7: И сейчас индустрия наконец то отказывается от этого человеческого эгоцентризма мы начинаем говорить с машиной на её родном векторном языке давай тогда разберём, как выглядит вот этот текущий уходящий подход.
8: У нас есть ядро большой языковой модели ллм, которое, по сути, просто угадывает следующее слово, да, оно вероятностное, и чтобы заставить эту систему выдавать надёжный результат, инженеры строят вокруг неё так называемый строи.
9: Леса. Мы обвешиваем модель файлами маркдаун. Ну, скил, Эмди. Угу. Жёстко прописываем Роли, навязываем стили, по сути, пытаемся сделать вероятностную систему детерминированной, загоняя её в жёсткие текстовые рамки.
10: И вот здесь как раз возникает системная ошибка исследователи называют это репрезентативный разрыв, звучит как-то научно. Что это значит на практике фишка в том, что внутри архитектуры нейросети нет никаких изолированных папок с ярлыками.
11: Типа алгебра или программирования. А нам кажется, что есть да, но модель вообще не мыслит категориями университетской программы. Для неё не существует концепции. Опытный разработчик. Ага, все, что там есть, это кластеры нейронов.
12: Они активируются вместе, формируя векторы в огромном многомерном пространстве. Когда мы просим модель быть разработчиком, мы заставляем её имитировать текстовый стиль разработчика, но мы не обращаемся к её математической способности писать
13: Код в точку слушай, в лекции была потрясающая аналогия с автомобилем пытаться управлять таким сложным ии только через текстовые файлы это все равно что выбрать для вождения спорткар, ну ferrari и.
14: Ехать только на 1 передаче, да, просто потому, что водитель упрямо отказывается изучать, как вообще работает коробка передач. Мы искусственно урезаем мощность. У меня ещё родилась своя мысль, когда я это читала, давай это как пыта.
15: Обучить кота квантовой физике, используя правила русской грамматики. Отличный пример. Ну, правда, мы насильно навязываем этому математическому мозгу наши человеческие картотеки, хотя он работает по совершенно
16: Законом и что здесь особенно интересно если инженеры ищут в ii только те навыки, для которых у нас уже есть название, то они что-то упускают, они упускают огромный Пласт во время предварительного обучения модель обрабатывает питаба ы дан.
17: И неизбежно развивает свои собственные скрытые паттерны рассуждений. Инопланетные паттерны буквально эти паттерны, совершенно инопланетные для нас, и и связывает концепции, так как человеку в жизни бы не пришло в голову просто потому, что наш мозг не ра.
18: Работает в пространстве из тысяч измерений. Хорошо, но если мы признаем, что текст это плохой инструмент, как нам взаимодействовать с этими инопланетными паттернами напрямую? Вот тут на сцену выходит исследование вергини ого политех от апреля 20.
19: Того года. Ага. Они там предлагают перейти к анатомии нативных навыков модели и используют такую штуку. Разреженные автокодировщики. Звучит жутковато по-английски. Это Спарс, аутоэнкодер или эс эй.
20: И оптимизированы они для глобального поведения последовательности. Давай на пальцах, как эти фильтры работают. Давай представим, что информация внутри модели. Это невероятно плотный клубок спутанных сигналов. Угу. И вот эти автокодировщики, реша,
21: Задачу распутывания клубка математически они ищут компактные ортогональные базисы, то есть независимые направления, да, они сканируют сеть и выделяют векторы активации, которые не пересекаются и не создают помех.
22: Друг другу это критически важное для решения старой проблемы нейросетей, катастрофического забывания это когда модель учит новое и забывает старое именно раньше веса смещались векторы, пересекались и Бац старое знание.
23: Пропала, а ортогональные базисы изолируют навыки. Они существуют независимо, ну как выделенные полосы на многополосном шоссе. Слушай, ну тут у меня возникает вопрос в исследовании они разбирают лама 3, у неё скрытое пространство.
24: 4096 измерений, верно, 4000 измерений я в шоке, с 1 стороны, нам даже 4 д представить сложно, а с другой модель же должна обладать десятками тысяч навыков, сотнями тысяч нюансов да как мож.
25: Можно впихнуть сотни тысяч независимых навыков всего в 4000 измерений, там же должен быть математический потолок этот потолок был бы жёстким, если бы мы требовали идеальной сетки, чтобы каждый навык был строго перпендикулярен всем остальным.
26: А на деле не так включается феномен суперпозиции в пространстве с высокой размерностью существует астрономическое количество направлений, которые не строго перпендикулярны, но почти ортогональны, почти не мешают друг.
27: Друг другу вот нейросеть не тратит 1 нейрон на 1 навык, она сжимает информацию и распределяет навык ссквозь 1000 измерений как сложный паттерн это и есть суперпозиция, то есть геометрия позволяет хранить больше призна.
28: Чем есть измерений круто, но давай перейдём к настоящей бомбе, к устранению галлюцинаций. Оо, да, это самое интересное применение. Исследователи выяснили, что если найти ось, которая отвечает за логи,
29: Последовательность, то мы можем просто выкрутить ей громкость буквально, и вероятность галлюцинации физически блокируется. Если состояние ллм привязать к высоким координатам логики, ей больше не нужно угадывать факт.
30: У неё появляется чёткий математический план вывода мы больше не фильтруем галлюцинации после того, как они появились, мы их предотвращаем структурно, а что там по цифрам? Я видела результаты контролируемого дообучения sft да.
31: У lana 3 8 би при таком управлении логика улучшается с 37 и 7% до 39 и 6/10 процента по сравнению со случайным sft, а у кверен 2 5 3 би скачок ещё больше с 52.
32: Процентов до 57 и 7%. Кому-то цифры покажутся небольшими, всего несколько процентов no. Природа этого улучшения фундаментальна, это не просто заучивание новых текстов, нет, это очищение внутреннего
33: Длительного процесса на базовом геометрическом уровне. Итак, что все это значит? Эпоха промпт инженеринга официально мертва, я бы сказал, она уступает место репрезентативной или спектральной инженерии. Тяжёлый
34: Это прямой путь к банкротству и вопрос эффективности. Тут стоит очень остро. Старый путь это взять 100000 скриптов на питоне, прогнать через модель и надеяться, что она станет лучше кодить жутко неэффективно моё.
35: Тратит силы на чтение всего контекста, а не на суть логики, а новый путь. Мы находим вектор логики кода и берём всего около 5000 узкоспециализированных примеров. Мы целенаправленно проталкиваем модель именно в этот паттерн сни.
36: Объёма данных в десятки раз. И плюс это даёт прирост на 41% в бенчмарке. Аэмси. Это американские математические соревнования. Да, мы буквально настраиваем внутренний компас модели, мы заменяем грубую силу.
37: Массивов хирургической точностью геометрии. А что насчёт квантования? В материалах обсуждали так называемые мёртвые направления? О, это большая проблема, когда огромную модель на 32 миллиарда параметров сжимают до 3 миллиардов
38: Чтобы она влезла на обычные серверы, да, при этом урезают точность вычислений, округляют веса. И часто при этом полностью ломается сложная логика. При этом грамматика остаётся идеальной. Почему так происходит, если
39: Посмотреть на пространство модели, базовые навыки, синтаксис, частые слова это широкие устойчивые векторы с высокими значениями, округление их не убивает, верно? А вот сложный логический вывод опирается на очень тонкие хруп.
40: Математические оси при сжатии они схлопываются в 0 это и есть мёртвые направления, то есть модель не забыла логику, у неё просто физически сломалась дорога, по которой Шёл сигнал точно, и тут на сцену выходит софт, prompting, мягкий проминг.
41: Как это работает на практике, поскольку вектор разрушен словами мы модель логики не научим, но инженеры заранее вычисляют вектор успешного ответа на большой неквантованный модели и потом просто вводят этот чистый вектор во время генерации текста.
42: На сжатой модели, да, прямо на этапе вывода инференса мы обходим весь этот лингвистический интерфейс с токенами и эмбедингам, и это занимает Ровно 0 токенов контекстного окна. Мы не пишем. Думай шаг за
43: Шагом мы делаем математическую инъекцию логики это просто триумф математики над лингвистикой, и это подводит нас к 4 разделу новая оптика от калтеха и университета альберты да, исследование от конца февраля 2.
44: 26 года они предлагают смотреть на ii через призму теоретической физики и обработки сигналов, и вот где становится действительно интересно, они сравнивают процесс мышления ii со звуковой волной, и это гениальная метафора в музыке.
45: Же аккорд состоит из частот басы средние, высокие, и мы можем разложить звук эквалайзера, а в нейросети тоже самое ответ языковой модели это суперпозиции сигналов, есть сигнал структуры фактологии и есть стахастический.
46: Шум это наши галлюцинации, и что делают исследователи используют фурье подобные операторы раскладывают навык на фундаментальные частоты, чтобы отфильтровать шум. Да, мы математически давим нестабильные паттерны и усиливаем чистый
47: Сигнал навыка фантастика, но они идут дальше в дифференциальную геометрию. Говорят, что активации живут не просто в плоском пространстве, а на изогнутых листах многообразиях манифолда, потому что
48: Осмысленные человеческие тексты не заполняют пустоту 4 тысячемерном ространства равномерно они занимают лишь крошечную изогнутую долю состояние ii это точка, скользящая по этой изогнутой поверхности, если мы хотим изменить поведение модели.
49: Мы не можем просто толкнуть вектор по прямой. Почему? Потому что мы сорвёмся с этого многообразия. Модель начнёт выдавать бессвязный бред букв. Нам нужно двигаться стояние по геодезической линии кратчайшему пути вдоль самого изгиба. Именно
50: Так, слушай, они ещё делят режимы на основе собственных значений. Эген вельюс. Высокие и низкие да, высокие собственные значения. Это крепкие базовые навыки. Тот же и синтаксис их трудно сломать, а низкие значения это
51: Хрупкие нишевые навыки, например, редкие юридические прецеденты столетней давности, и это приводит нас к главному тезису, который переворачивает все мы привыкли смешивать знания и навыки, а они доказали, что знания, факты, даты хранятся.
52: В весах модели, в матрицах, а навыки, логика, кодинг анализ живут исключительно в пространстве активаций на тех самых изогнутых многообразиях. И если мы хотим развивать навыки ии, то просто скармливать ему новые тексты это тупик, нам нужно
53: Работать с частотами и геодезическими орбитами это единственный естественный способ общения с архитектурой нейросети давай подведём итог эпоха длинных текстовых инструкций, полных наших человеческих понятий, заканчивается бесконечные мега.
54: Промты.