ym104432846
Вставьте ссылку на видео из Youtube, Rutube, VK видео
Задайте вопрос по видео
Что вас интересует?
00:00:02
Управление языковыми моделями через текстовые инструкции:
  • 1. Участники обсуждения пришли к выводу, что управление языковыми моделями осуществляется неверно через написание инструкций и использование жесткого контекста (промптов)
  • 2. Для понимания глубинных изменений участники ссылаются на свежие научные публикации и видеолекцию с канала Discovery AI
  • 3. Обсуждается переход от традиционного подхода управления языковыми моделями к новому методу чистого математического управления, который кардинально меняет базовые принципы инженерии нейросетей
00:01:48
Проблема репрезентационного разрыва и ограничения текстового подхода:
  • 1. Разработчики пытаются превратить вероятностную нейронную сеть в детерминированную систему, жестко ограничивая её работу текстовыми рамками
  • 2. Внутри архитектуры нейросетей отсутствуют изолированные категории знаний (например, математика или программирование), понятные человеку, однако модель самостоятельно формирует уникальные связи между концепциями
  • 3. Инженеры часто игнорируют потенциал предварительной обработки данных моделью, сосредотачиваясь лишь на тех навыках, названия которых уже существуют в человеческой культуре
00:04:51
Использование автокодировщиков для устранения проблем нейросетей:
  • Предложена идея использовать разреженные автокодировщики (Спарс, автоэнкодер или ES-AE) для оптимизации работы нейросети
  • Описан механизм работы фильтров, который заключается в поиске компактных ортогональных базисов для разделения и изоляции навыков модели
  • Рассмотрена проблема катастрофического забывания в нейросетях и предложены способы её устранения через использование ортогональных базисов и феномена суперпозиции в высоком измерении
00:07:10
Геометрическая интерпретация работы нейросетей и устранение галлюцинаций:
  • 1. Разработана методика предотвращения появления галлюцинаций путём настройки оси логического состояния модели (LLM), позволяющая избежать угадывания моделью фактов и обеспечить структурное предотвращение ошибок
  • 2. В результате контролируемого дообучения модели SFT качество логики улучшилось: у LANA показатель вырос с 37,7% до 39,6%, у KWEREN с 52,0% до 57,7%
  • 3. Улучшение качества логики является фундаментальным изменением, связанным с очисткой внутренних механизмов модели, а не простым запоминанием новых данных
00:08:26
Эффективность нового подхода к обучению моделей:
  • 1. Репрезентативная и спектральная инженерия заменяют прежний метод промпт-инженеринга
  • 2. Новый подход предполагает использование специализированных примеров (около 5000), вместо обработки большого количества скрипт-кода на Python
  • 3. Применение нового подхода увеличивает эффективность работы модели на 41%, согласно результатам американских соревнований Aэмиcи
00:09:27
Квантование моделей и потеря точности логики:
  • 1. Обсуждалась проблема квантования моделей машинного обучения с большим количеством параметров (до 32 млрд), приводящая к потере точности при уменьшении размера модели до 3 млрд параметров
  • 2. Упоминалось, что при сжатии модели до обычных серверов теряется сложность логики, хотя грамматика сохраняется идеально
  • 3. Рассматривалось влияние округления базовых векторов модели на сохранение её функциональности, особенно сложных логических выводов
00:10:29
Методология мягкого промпта и обход лингвистического интерфейса:
  • 1. Разработана методика обхода лингвистического интерфейса на этапе вывода инференса с использованием сжатой модели, исключающая использование токенов и эмбеддингов, что позволяет сократить контекстное окно до нуля токенов
  • 2. Предложена идея математической инъекции логики в процесс генерации текста, заменяющая лингвистические подходы
  • 3. Рассматривается новое оптическое исследование от Калтеха и Университета Альберты (конец февраля текущего года)
00:11:14
Теоретико-физическая метафора мышления нейросетей:
  • 1. Рассматривается аналогия между процессом мышления ИИ и звуковой волной, названная спикерами гениальной метафорой
  • 2. Упоминаются составляющие аккорда (басы, средние, высокие частоты), аналогичные структурам сигналов в нейросетях
  • 3. Описывается принцип работы нейросетей через сравнение с суперпозицией сигналов, включающих структуру фактологии и случайный элемент
00:11:45
Применение Фурье-анализа и дифференциальной геометрии в обработке сигналов:
  • Исследователи применяют фурье-подобные операторы для анализа сигналов навыков и фильтрации шума
  • Активация нейронной сети происходит не в равномерном многомерном пространстве, а локализована на изогнутых поверхностях многообразий
  • Для изменения поведения моделей важно движение по геодезическим линиям, минимально искривлённым траекториям внутри многообразий
0: Ну что ж, давайте разберём это. Знаешь, я всегда думала, что мы реально управляем языковыми моделями с помощью слов. Угу. Это самое частое заблуждение на сегодня. Да, мы же постоянно пишем огромные текстовые
1: Инструкции задаём такой, ну, жёсткий контекст требуем действуй как старший python, разработчик, да, да. Или отвечай, как строгий юрист вот именно. И нам искренне кажется, что именно так мы и программируем навыки машины. Ну, выстраиваем.
2: Её логику, но массив данных, которые мы сегодня разбираем, а это просто бомба, показывает, что это глубочайшая ошибка. Абсолютно. Мы базируемся на детальной видеолекции с канала дискавер эйай и 2 свежих научных
3: Публикациях начала 26 года 1 от Вержинский, a2 это совместная работа университета Альберта и калтеха. Очень серьёзный набор источников, я бы сказал, согласна, и миссия наша
4: Сегодняшнего разбора, расшифровать этот фундаментальный сдвиг, понять, почему мы уходим от написания Промптов и переходим к чистому математическому управлению иай и масштаб этого перехода он действительно меняет базовые принципы.
5: Инженерии. Долгое время мы работали с языковыми моделями так, словно это просто, ну, люди, люди, которые очень быстро читают тексты, точно мы упорно пытались втиснуть весь этот многомерный потенциал нейро.
6: Сетей в наши человеческие лингвистические категории как бы заставляли их играть по нашим правилам именно, но ведь базовая природа и ay это чистая математика, это матрицы векторы, сложнейшая геометрия.
7: И сейчас индустрия наконец то отказывается от этого человеческого эгоцентризма мы начинаем говорить с машиной на её родном векторном языке давай тогда разберём, как выглядит вот этот текущий уходящий подход.
8: У нас есть ядро большой языковой модели ллм, которое, по сути, просто угадывает следующее слово, да, оно вероятностное, и чтобы заставить эту систему выдавать надёжный результат, инженеры строят вокруг неё так называемый строи.
9: Леса. Мы обвешиваем модель файлами маркдаун. Ну, скил, Эмди. Угу. Жёстко прописываем Роли, навязываем стили, по сути, пытаемся сделать вероятностную систему детерминированной, загоняя её в жёсткие текстовые рамки.
10: И вот здесь как раз возникает системная ошибка исследователи называют это репрезентативный разрыв, звучит как-то научно. Что это значит на практике фишка в том, что внутри архитектуры нейросети нет никаких изолированных папок с ярлыками.
11: Типа алгебра или программирования. А нам кажется, что есть да, но модель вообще не мыслит категориями университетской программы. Для неё не существует концепции. Опытный разработчик. Ага, все, что там есть, это кластеры нейронов.
12: Они активируются вместе, формируя векторы в огромном многомерном пространстве. Когда мы просим модель быть разработчиком, мы заставляем её имитировать текстовый стиль разработчика, но мы не обращаемся к её математической способности писать
13: Код в точку слушай, в лекции была потрясающая аналогия с автомобилем пытаться управлять таким сложным ии только через текстовые файлы это все равно что выбрать для вождения спорткар, ну ferrari и.
14: Ехать только на 1 передаче, да, просто потому, что водитель упрямо отказывается изучать, как вообще работает коробка передач. Мы искусственно урезаем мощность. У меня ещё родилась своя мысль, когда я это читала, давай это как пыта.
15: Обучить кота квантовой физике, используя правила русской грамматики. Отличный пример. Ну, правда, мы насильно навязываем этому математическому мозгу наши человеческие картотеки, хотя он работает по совершенно
16: Законом и что здесь особенно интересно если инженеры ищут в ii только те навыки, для которых у нас уже есть название, то они что-то упускают, они упускают огромный Пласт во время предварительного обучения модель обрабатывает питаба ы дан.
17: И неизбежно развивает свои собственные скрытые паттерны рассуждений. Инопланетные паттерны буквально эти паттерны, совершенно инопланетные для нас, и и связывает концепции, так как человеку в жизни бы не пришло в голову просто потому, что наш мозг не ра.
18: Работает в пространстве из тысяч измерений. Хорошо, но если мы признаем, что текст это плохой инструмент, как нам взаимодействовать с этими инопланетными паттернами напрямую? Вот тут на сцену выходит исследование вергини ого политех от апреля 20.
19: Того года. Ага. Они там предлагают перейти к анатомии нативных навыков модели и используют такую штуку. Разреженные автокодировщики. Звучит жутковато по-английски. Это Спарс, аутоэнкодер или эс эй.
20: И оптимизированы они для глобального поведения последовательности. Давай на пальцах, как эти фильтры работают. Давай представим, что информация внутри модели. Это невероятно плотный клубок спутанных сигналов. Угу. И вот эти автокодировщики, реша,
21: Задачу распутывания клубка математически они ищут компактные ортогональные базисы, то есть независимые направления, да, они сканируют сеть и выделяют векторы активации, которые не пересекаются и не создают помех.
22: Друг другу это критически важное для решения старой проблемы нейросетей, катастрофического забывания это когда модель учит новое и забывает старое именно раньше веса смещались векторы, пересекались и Бац старое знание.
23: Пропала, а ортогональные базисы изолируют навыки. Они существуют независимо, ну как выделенные полосы на многополосном шоссе. Слушай, ну тут у меня возникает вопрос в исследовании они разбирают лама 3, у неё скрытое пространство.
24: 4096 измерений, верно, 4000 измерений я в шоке, с 1 стороны, нам даже 4 д представить сложно, а с другой модель же должна обладать десятками тысяч навыков, сотнями тысяч нюансов да как мож.
25: Можно впихнуть сотни тысяч независимых навыков всего в 4000 измерений, там же должен быть математический потолок этот потолок был бы жёстким, если бы мы требовали идеальной сетки, чтобы каждый навык был строго перпендикулярен всем остальным.
26: А на деле не так включается феномен суперпозиции в пространстве с высокой размерностью существует астрономическое количество направлений, которые не строго перпендикулярны, но почти ортогональны, почти не мешают друг.
27: Друг другу вот нейросеть не тратит 1 нейрон на 1 навык, она сжимает информацию и распределяет навык ссквозь 1000 измерений как сложный паттерн это и есть суперпозиция, то есть геометрия позволяет хранить больше призна.
28: Чем есть измерений круто, но давай перейдём к настоящей бомбе, к устранению галлюцинаций. Оо, да, это самое интересное применение. Исследователи выяснили, что если найти ось, которая отвечает за логи,
29: Последовательность, то мы можем просто выкрутить ей громкость буквально, и вероятность галлюцинации физически блокируется. Если состояние ллм привязать к высоким координатам логики, ей больше не нужно угадывать факт.
30: У неё появляется чёткий математический план вывода мы больше не фильтруем галлюцинации после того, как они появились, мы их предотвращаем структурно, а что там по цифрам? Я видела результаты контролируемого дообучения sft да.
31: У lana 3 8 би при таком управлении логика улучшается с 37 и 7% до 39 и 6/10 процента по сравнению со случайным sft, а у кверен 2 5 3 би скачок ещё больше с 52.
32: Процентов до 57 и 7%. Кому-то цифры покажутся небольшими, всего несколько процентов no. Природа этого улучшения фундаментальна, это не просто заучивание новых текстов, нет, это очищение внутреннего
33: Длительного процесса на базовом геометрическом уровне. Итак, что все это значит? Эпоха промпт инженеринга официально мертва, я бы сказал, она уступает место репрезентативной или спектральной инженерии. Тяжёлый
34: Это прямой путь к банкротству и вопрос эффективности. Тут стоит очень остро. Старый путь это взять 100000 скриптов на питоне, прогнать через модель и надеяться, что она станет лучше кодить жутко неэффективно моё.
35: Тратит силы на чтение всего контекста, а не на суть логики, а новый путь. Мы находим вектор логики кода и берём всего около 5000 узкоспециализированных примеров. Мы целенаправленно проталкиваем модель именно в этот паттерн сни.
36: Объёма данных в десятки раз. И плюс это даёт прирост на 41% в бенчмарке. Аэмси. Это американские математические соревнования. Да, мы буквально настраиваем внутренний компас модели, мы заменяем грубую силу.
37: Массивов хирургической точностью геометрии. А что насчёт квантования? В материалах обсуждали так называемые мёртвые направления? О, это большая проблема, когда огромную модель на 32 миллиарда параметров сжимают до 3 миллиардов
38: Чтобы она влезла на обычные серверы, да, при этом урезают точность вычислений, округляют веса. И часто при этом полностью ломается сложная логика. При этом грамматика остаётся идеальной. Почему так происходит, если
39: Посмотреть на пространство модели, базовые навыки, синтаксис, частые слова это широкие устойчивые векторы с высокими значениями, округление их не убивает, верно? А вот сложный логический вывод опирается на очень тонкие хруп.
40: Математические оси при сжатии они схлопываются в 0 это и есть мёртвые направления, то есть модель не забыла логику, у неё просто физически сломалась дорога, по которой Шёл сигнал точно, и тут на сцену выходит софт, prompting, мягкий проминг.
41: Как это работает на практике, поскольку вектор разрушен словами мы модель логики не научим, но инженеры заранее вычисляют вектор успешного ответа на большой неквантованный модели и потом просто вводят этот чистый вектор во время генерации текста.
42: На сжатой модели, да, прямо на этапе вывода инференса мы обходим весь этот лингвистический интерфейс с токенами и эмбедингам, и это занимает Ровно 0 токенов контекстного окна. Мы не пишем. Думай шаг за
43: Шагом мы делаем математическую инъекцию логики это просто триумф математики над лингвистикой, и это подводит нас к 4 разделу новая оптика от калтеха и университета альберты да, исследование от конца февраля 2.
44: 26 года они предлагают смотреть на ii через призму теоретической физики и обработки сигналов, и вот где становится действительно интересно, они сравнивают процесс мышления ii со звуковой волной, и это гениальная метафора в музыке.
45: Же аккорд состоит из частот басы средние, высокие, и мы можем разложить звук эквалайзера, а в нейросети тоже самое ответ языковой модели это суперпозиции сигналов, есть сигнал структуры фактологии и есть стахастический.
46: Шум это наши галлюцинации, и что делают исследователи используют фурье подобные операторы раскладывают навык на фундаментальные частоты, чтобы отфильтровать шум. Да, мы математически давим нестабильные паттерны и усиливаем чистый
47: Сигнал навыка фантастика, но они идут дальше в дифференциальную геометрию. Говорят, что активации живут не просто в плоском пространстве, а на изогнутых листах многообразиях манифолда, потому что
48: Осмысленные человеческие тексты не заполняют пустоту 4 тысячемерном ространства равномерно они занимают лишь крошечную изогнутую долю состояние ii это точка, скользящая по этой изогнутой поверхности, если мы хотим изменить поведение модели.
49: Мы не можем просто толкнуть вектор по прямой. Почему? Потому что мы сорвёмся с этого многообразия. Модель начнёт выдавать бессвязный бред букв. Нам нужно двигаться стояние по геодезической линии кратчайшему пути вдоль самого изгиба. Именно
50: Так, слушай, они ещё делят режимы на основе собственных значений. Эген вельюс. Высокие и низкие да, высокие собственные значения. Это крепкие базовые навыки. Тот же и синтаксис их трудно сломать, а низкие значения это
51: Хрупкие нишевые навыки, например, редкие юридические прецеденты столетней давности, и это приводит нас к главному тезису, который переворачивает все мы привыкли смешивать знания и навыки, а они доказали, что знания, факты, даты хранятся.
52: В весах модели, в матрицах, а навыки, логика, кодинг анализ живут исключительно в пространстве активаций на тех самых изогнутых многообразиях. И если мы хотим развивать навыки ии, то просто скармливать ему новые тексты это тупик, нам нужно
53: Работать с частотами и геодезическими орбитами это единственный естественный способ общения с архитектурой нейросети давай подведём итог эпоха длинных текстовых инструкций, полных наших человеческих понятий, заканчивается бесконечные мега.
54: Промты.