Сессия. Мультиагентные системы

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:00:57

Практическое применение мультиагентных систем:

1. Сегодня проводится практическая сессия с докладами от лидеров российского рынка телекоммуникаций и финтеха
2. Рассматриваются практические кейсы и реальные бизнес-процессы взаимодействия с мультиагентными технологиями
3. Участники обсудят типичные ошибки и сложности, возникающие при работе с новыми технологиями

00:02:30

Контекстные проблемы мультиагентных систем:

Разработана агентная система для автоматизации аналитики и моделирования
Создан агент, построенный на основе библиотеки автоэмэль, который за четыре часа построил модель машинного обучения и провёл отбор признаков
Полученная метрика качества модели (0,75) вызвала сомнения специалистов, поскольку агент самостоятельно удалил потенциально полезный признак из-за мультиколлинеарности

00:06:20

Масштабирование и надежность мультиагентных систем:

1. Обнаружена проблема с использованием агентных систем вследствие регулярного обновления сотен моделей и проблемы отравления контекста («контекст пойзен»)
2. На ранних стадиях работы агента происходит отказ от использования важной фичи, что влияет на последующие этапы выполнения задач
3. Рассматривается влияние закона Люсера (надежность системы зависит от надежности всех компонентов), применимого ко всем современным мультиагентным системам

00:07:51

Современные языковые модели и их влияние на мультиагентные системы:

Проблема низкого качества работы агентной цепочки связана с накоплением ошибок в последовательной генерации токенов языковыми моделями
Ошибки в начальных токенах приводят к экспоненциальному росту общей ошибки к концу сессии, делая результаты неприемлемыми
Использование современных фреймворков (например, Crew I, Autogen, Langraph) позволяет частично решить проблему контекста, однако при некорректной передаче информации между агентами сохраняется риск отравления всей сессии

00:10:25

Использование обратных связей и критики в мультиагентных системах:

1. В пайплайн добавлен дополнительный агент с чистым контекстом, видящий только выводы и начальную постановку задачи, для анализа проблем
2. Новая парадигма критики увеличивает потребление токенов и время работы агента, однако значительно улучшает качество работы
3. Планируется демонстрация конкретных примеров повышения качества работы на основе проведенных исследований и экспериментов

00:11:25

Применение мультиагентных систем в соревнованиях и конкурсах:

1. Проведено соревнование по машинному обучению с использованием собственной архитектуры агента, где были выявлены ошибки при построении валидационного множества
2. Разработан подход разделения вопросов на два типа (общие и специфические), чтобы улучшить качество решений задач датасаенс
3. Обнаружены типичные проблемы, возникающие в индустрии машинного обучения начиная с 2024 года

00:13:27

Проблемы безопасности и ответственности в мультиагентных системах:

1. В сфере fintech выявлены существенные риски ошибок моделей машинного обучения, приводящие к значительным финансовым потерям
2. Предложено решение использовать подход «человек в цикле» (human-in-the-loop), однако выявлена проблема линейной масштабируемости данного подхода
3. Обсуждается необходимость адаптации индустрии для повышения стабильности работы агентских систем

00:15:30

Повышение надежности мультиагентных систем путем параллельного исполнения:

1. Разработана агентная система с точностью решений ошибок на уровне 3 сигм (3 ошибки на миллион запусков)
2. Применены методы перекрестного контроля (кросс-ревью), множественных параллельных запусков и мажоритарного голосования (мажорити роутинга)
3. Использован подход ансамблирования моделей машинного обучения для повышения качества базовой модели

00:18:04

Примеры успешного применения мультиагентных систем:

1. В представленных научных работах предложены методы упрощённой визуализации сложных научных исследований с помощью специальных агентов и циклических процессов генерации картинок и обратной связи
2. Одна из работ стала популярной среди сотрудников Google, была внедрена в виде отдельного сервиса и активно используется в публикациях компании
3. Вторая работа представляет собой автоматизированный процесс написания научных статей с этапом автоматической рецензии и доработки текста перед публикацией

00:20:06

Управление памятью и контекстом в мультиагентных системах:

Необходимо организовать проверку (валидацию) постоянной памяти с помощью отдельных агентов, работающих по расписанию (на крон)
Проверка фактов должна регулярно поддерживаться для корректности информации в хранилище
Рекомендуется фиксировать дополнительные сведения о фактах для повышения точности и полноты хранения информации

00:20:52

Преимущества и ограничения мультиагентных систем:

Определено различие уровней систем
Уровень 0: Обычные программы и кодовые решения (например, поиск, классификация)
Уровень 1: Использование LLM (языковых моделей), которые решают задачи эффективно, такие как перевод текста, суммаризация и классификация запросов
Уровень 2: Использование LLM совместно с базой знаний или инструментами, позволяющими решать конкретные задачи конкретного юзкейса
Уровень 3: Потенциально близкие к агентам системы, включающие исполнителей и координатора, однако еще не являются полноценными агентами
Уровень 4: Полноценные автономные агенты, способные самостоятельно выбирать следующие шаги и исполнителей
Рекомендовано избегать преждевременного перехода на высокий уровень
Подчеркнуто отсутствие агентности у современных LLM

00:46:36

Мультиагентные системы в клиентском сервисе:

Разработан и запущен сервис персональной помощи продавцам Авито (Пиуси), ориентированный на профессионалов
Сервис включает три основных интента: анализ эффективности продаж, обработка жалоб и вопросов общего характера
Среди неожиданных запросов пользователей выделяется потребность в генерации контента (описания товаров)

00:57:42

Безопасность запросов и выходного результата в мультиагентных системах:

1. Разработан и используется специальный сервис гардрейл для проверки безопасности входящих запросов и корректности выходных данных моделей
2. Входящие запросы проходят проверку на наличие инъекций и подозрительных промтов перед обработкой
3. Выходные данные после генерации ответа дополнительно проверяются сервисом гардрейл на соответствие требованиям адекватности и отсутствия юридических рисков

00:58:59

Валидация и проверка выходных результатов моделей:

Разработана и внедрена система мультиагентного решения, предназначенная для помощи продавцам компании
Платформа платформы прошла пилотное тестирование продолжительностью около двух с половиной месяцев в декабре
По результатам тестирования выявлено, что пользователи положительно отреагировали на работу системы (около 70% положительных отзывов)

0: Сессия мультиагентные системы модератор, начальник управления моделирования партнёрств и it процессов банк втб Юлий Шамаев.

1: Друзья, всех рад поприветствовать. Сегодня у нас такая очень хайповая тема про мультиагентные системы. И знаете, вот очень много Разговоров и дискуссий в рамках нашего форума.

2: Идёт про агентов, про искусственный интеллект, но как бы практика, она, как правило, немножко другая и отличается от тех вот концепций достаточно общих, которые

3: Там в рамках больших панельных дискуссий обсуждаются. Вот у нас сегодня такая достаточно практическая сессия. Мы заслушаем доклады от лидеров нашего российского рынка, там и ко

4: И телекома, чтобы, ну, знаете, немножко погрузиться в практику не просто каких-то разработки агентов, но и вот в контексте мультиагентного

5: Взаимодействия. У нас сегодня интересные, интересные доклады. Вот. И, знаете, очень важно в практических кейсах, да, не только истории успеха, но и

6: И те ошибки и грабли, на которые неизбежно каждый человек, каждая, каждая компания, каждый разработчик, работающий вот с такими новыми технологиями.

7: Сталкиваются в практике, в реальных бизнес процессах. Вот я, собственно, рад представить максима Шаланкина, эмэль лит в финтех, команде биг дата м.

8: Максим расскажет, как работать с контекстом в рамках агентных пайплайнов. Максим, тебе слово так, микрофон есть. Спасибо. Спасибо.

9: Всем привет, да, меня зовут Максим. И сегодня поговорим про контекст в мультиагентных системах. И я уделю особое внимание Такому понятию, как сломанный контекст. Как он влияет на работу мультиагентных систем?

10: Ну и самое главное, как с ним бороться, как его находить и какие уже сейчас есть хорошие варианты архитектуры, которые вы можете начать разрабатывать, внедрять у себя в проектах, которые вас спасут от

11: Этой проблемы немножко про себя сейчас руковожу мли, разработкой в мвс финтехе. Соответственно, есть ещё некоторая активность образовательная. Преподаю вышки преподаю.

12: В мфти и в нашей МТС школе аналитиков данных. В общем, поэтому будет ещё такая отсылка на академические работы ближе к концу. Давайте тогда.

13: Приступим к докладу, что мы делаем, что у нас уже сейчас есть интересного. Условно есть 3 вектора, по которым мы работаем. Начинали мы, конечно, с стандартной аналитики.

14: Из моделирования построили в финтехе очень много авто чего-либо библиотек, авто эмэль авто, еда, автосегмент, авто лал все это внутренние фреймворки, внутренние инструменты.

15: Которые уже, я думаю, 5 лет, не меньше. Все на рынке об этом говорили. Это уже пройдённый этап. Автоэм елеем никого не удивить. И вот, наверное, последний год занимаемся тем, что разра,

16: Разрабатываем агентные системы опять же для задач команды, для автоматизации аналитики, автоматизации, моделирования. И здесь вот как раз-таки есть чем

17: Поделиться интересными наработками инсайтами. Давайте представим себе работу нашего агента, который был построен на базе библиотеки авто эмэль. И вот наш агент, которого мы разработали за выходные нам

18: Построил модельку машинного обучения, мы получили отчёт на почту. Агент работал 4 часа, агент собрал модельные признаки, даже сделал фича селекшн, но получил

19: 0 75 рок аука. И причём мы видим, что это за 3 итерации агент справился. И даже относительно 2 итерации он смог улучшить показатель вроде все хорошо, но опытные разра.

20: Разработчики опытные эмэль, специалисты скажут, что, ну, как-то, какая-то низкая метрика там для команды, у которой больше 5000 фичей для отбора, у которой больше сотни моделей в продакшене 0 75.

21: Вызывает вопросы. И у нас такие вопросы тоже возникли. Конечно, когда вы работаете с агентным системами, у вас должны быть настроены логи, мы полезли смотреть в эти логи и агент в этих логах

22: Честно написал, что признак, который мог бы повысить качество модели, он выкинул, выкинул по причине мультиколлинеарность, а вы, наверное, знаете, что мультиколлинеарность для алгоритмов градиентного

23: Бустинга это не проблема, но почему-то агент решил иначе, и он это выкинул довольно успешно, из за чего нам стало грустно, потому что это всего лишь 1 проблема. 1 модель. А вот как эту историю масштабировать дальше как

24: Нам доверять работе агентных систем, когда у нас сотни моделей, которые регулярно требуют улучшения до улучшения, мы столкнулись с проблемой, которая называется контекст пойзен нг, отравление контекста, то есть

25: На самых ранних этапах работы агента он в логе записал, что я не буду использовать эту фичу, а фича была ультимативная, и, по сути, все дальнейшие шаги агента уже понимали, что нет, эта фича не должна.

26: Быть в итоговом пайплайне примеров можно привести много, как контекст пойзен работает. Вот, ну, с точки зрения меля, как бы, отброс фичи на раннем этапе это по сути, вот контекст.

27: Откуда вообще растёт эта проблема? Есть такой закон закон люсера, который говорит, что надёжность системы равна произведению надёжности каждого компонента.

28: Этой системы. И этот закон просто идеально ложится на любую мультиагентную систему, какую бы вы её не видели, у кого бы вы её не смотрели, как бы вы её не строили, потому что очень много последовательных

29: Цепочек работы в мультиагентных системах современных. И если каждая цепочка, каждый компонент этой цепочки работает только с точностью 85%, то за 10.

30: Шагов. Вся ваша агентная цепочка приведёт к падению качества до 20%. Это ужасно. Это верхнеуровневая проблема, проблема агентов, но есть ещё и более низкоуровневая проблема проблема языковых моделей.

31: Вы, наверное, знаете, что современные языковые модели это модели, которые работают последовательно, генерят токен за токеном, и в генерации токенов тоже накапливаются ошибки.

32: То есть каждый токен может быть сгенерирован с какой-то ошибкой, с какой-то неточностью. И здесь у нас может быть экспоненциальный рост проблемы, проблемы, которая возникает из за начального.

33: Двига шифта, галлюцинации модели. И к концу там до 200 токенов мы можем получить уже суммарно ошибку, с которой просто невозможно мириться, и это тоже звоночек в сторону.

34: Но того, чтобы думать о контекст пойзен, отслеживать этот контекст пойзен. И если вы работаете с современными фреймворками, на которых строятся многие мультиагентные системы, или, может быть, вы строите свой фреймворк, то вы

35: Наверняка слышали эти названия крю, иай, автоген, Ланграф в них работа с контекстом построена совершенно по разному есть, например, в crew i общее пространство памяти.

36: И вы уже можете себе представить, что если информация ложная попадает в это общее пространство памяти, то там, по сути, вся агентная сессия отравлена и не выдаст нам точный результат.

37: В автогене и в ландграфе чуть получше, потому что все-таки там у каждого агента свой контекст. Но если вы используете парадигму оркестрации, когда у вас есть агент оркестратор, он может передавать ложную информа.

38: Дальше по цепочке агентам, которых он оркестрирует. Поэтому даже автогены Ланграф не защитят вас от этой проблемы. И вот, возвращаясь в наш кейс, как нам эту проблему?

39: Можно было бы исправить, как нам вернуть тот признак модельный, который агент случайно удалил. Ну, собственно, здесь нас спасает парадигма обратной свя.

40: То есть парадигма критики мы добавили в наш пайплайн цепочку критики, где появляется дополнительный агент с чистым контекстом, который не видел полную.

41: Почку действий, а видит только выводы, начальные, постановку задачи и по ним уже пытается понять, в чем могла быть проблема. Собственно, это если говорить

42: Уже про какое-то production решение, понятное дело, будет повышать потребление токенов, будет увеличивать время работы агента, но эта парадигма парадигма критики очень сильно повышает качество работы.

43: Дальше я покажу конкретно на открытых исследованиях, как именно. Вот, a2 кейс с критикой в архитектуре агентов связан с соревнованием. Дата фьюжен есть ли среди сегодня

44: Слушателей, те, кто участвовали в нём. Вот если есть, поднимите, пожалуйста, руку. Очень интересно. В общем, дата фьюжн, соревнования, классное соревнование для любителей машинного обучения. Ну и, конечно, мы решили протестировать нашу агентную

45: Архитектуру. На этом соревновании. Там была понятная метрика. В 1 задаче пиара аук. Надо было вырасти в ней максимально сильно. Ну и наш агент, конечно же, в несколько итераций делал фичи

46: Инжениринг. И вот за 5 операций он дошёл до довольно высокой метрики, и по финальному лидерборду эта метрика, правда, довольно высокая, за исключением 1 проблемы, когда мы говорим про Валида.

47: Локальную, любого алгоритма машинного обучения. Нам надо построить вот эту самую валидационную выборку. И здесь агент тоже совершил довольно неприятную ошибку, которую которую в целом совершают и обычные разработ.

48: Он неправильно собрал валидационный сет. Он не посмотрел на то, что есть временная компонента в зависимости надо было строить тайм бейст, валидацию, а он построил обычную и как?

49: Эту проблему, естественно, мы решили опять же добавлением дополнительных вопросов. То есть есть определённый пул вопросов, который генерируется на лету согласно вводным, которые есть.

50: Задачи и согласно выводам, которые получил агент, а есть список вопросов, который общий в целом для задач дата сайнс. Вот мы разделили на 2 подхода и это помо.

51: Могло решить конкретно нашу проблему. Как вы видите, проблемы возникают и в целом по индустрии проблемы возникают уже с 2024 года. Вы наверняка могли

52: Слышать эта новость, наверное, мало кого обошла мимо, как на серверах амазона случился сбой, и потом в новостях были слухи, что там, значит, это все из за кода, который написала нейронная сеть.

53: Просто не протестировали. Вот такой кейс мог быть здесь не на самом деле, непонятно, действительно, на ком была ответственность конкретно в том случае. Вот, но уже есть исследования, расчёты, которые говорят, что вот подобные ошибки

54: Например, в той же сфере fintech, в которой я работаю, они довольно существенны, они могут привести к большим убыткам, ну и вы вот тоже можете представить, что вот у нас была модель, например, рисковая модель кредитного скоринга.

55: Которая с метрикой 0 75 рокаук работала бы намного хуже, чем с метрикой 0 90, привела бы тоже к огромным потерям. То есть это все реальные цифры и

56: Индустрия на самом деле сейчас идёт, спотыкается, идут, идёт адаптация к тому, чтобы как-то повысить стабильность работы агентных.

57: Систем. И, конечно же, 1, что приходит в голову, это добавить так называемый human in the loop человека, в агентный цикл, это буквально то, что мы сделали в самую 1 очередь, когда полезли проверять те самые логи в понедел.

58: Это была как раз-таки попытка хьюман н. The loop с нашей стороны, но вы уже можете представить себе проблему хьюман ин зе лууп масштабируется линейно, то есть не может 1 человек параллельно проверять.

59: 2 пайплайна читать на 1 экране логи 1 модели, на другом экране логи 2 модели. Здесь есть проблемы линейного масштабирования. И, как уже сейчас, индустрия решает эти про

60: Проблемы есть несколько классных подходов. И 1 довольно впечатляющий, потому что, казалось бы, в агентных системах добиться надёжности 999 после запятой, то есть 99.

61: 9, 9, 9% звучит как что-то нереальное, но было исследование довольно свежее, где построили агентную систему, где запускалось параллельно либо 5.

62: Агентов, либо 13 агентов, которые перекрёстно ещё ревью или друг друга. И на такой архитектуре удалось добиться как раз-таки точности решений, ошибки на уровне 3

63: Сигм, то есть 3 4 ошибки работы агентной системы на 1000000 запусков. И все благодаря тому, что агенты, во первых, делали несколько параллельных запусков решения 1 и той же задачи, а во

64: Вторых, делали кросс ревью друг друга. Это 1 момент. 2 момент применения паттерна. Инспектор, когда у вас агентная система опять же проверяет,

65: Такой цикл рефлексии проверяет работу того, как отработал другой агент, и здесь же было тоже исследование свежее консенсус волкинг, если кто знаком с машинным обучением, знает что

66: Есть такие подходы алгоритмов ансамблирования. И, как правило, ансамблирование повышает качество работы базовых моделей. Вот здесь тоже применялся, по сути, мажорити роутинг.

67: Для того, чтобы определить, насколько точно можно было доверять работе каждого конкретного агента, и вся вся эта архитектура напоминает такую картину, когда там 1 агент.

68: Действительно что-то делает, а остальные только следят за тем, чтобы он делал это корректно. В целом хорошая аналогия. Я считаю, единственное, что, как 1 исследование показало, возможно, стоит параллельно запускать.

69: Копать 5 ям, потому что 4 из 5 прокопают яму в правильном месте нужной глубины, a4 будет копать, не знаю, там асфальт. Вот, поэтому такая архитектура есть.

70: И её воплощение есть в 2 научных работах. Они мои любимые, потому что они показывают очень крутые результаты на тех доменах, в которых они создавались. 1 статья пейпер банан.

71: От гугла её смысл в том, что любая научная работа, она обычно сложно визуализируется как-то простым языком, какими-то понятными графиками, и здесь есть несколько

72: Агентов в этой работе, цель которых создать понятную визуализацию для конкретной научной статьи. Там есть несколько циклов, цикл генерации картинки, цикл обратной связи. Все это идёт по кругу до тех

73: Тех пор, пока не будет достигнут какой-то консенсус, и эта статья оказалась настолько хорошей, что там google даже стал её регулярно применять в своих публикациях, и сделали из этого отдельный сервис и вообще этот проект.

74: Опенсорс, вот 2 публикация это автоматизация написания научных статей. Здесь тоже интересный кейс. Когда вы пишите научную статью, вы проходите ревью от независимых

75: Авторов вы получаете одобрение или там список того, что нужно доработать, и как раз-таки во 2 статье авторы воспроизвели вот этот полный цикл написания научной статьи с критикой ревью.

76: И даже вот до момента своего публикации они запустили этот пайплайн, подались на научную конференцию, и их статья, написанная вот этим вот алгоритмом, прошла.

77: Цикл критики реальных людей вот как раз-таки, скорее всего, из за того, что довольно эффективно был реализован этап ревью автоматически, что позволило исправить какие-то определённые проблемы.

78: На ранних этапах, что вам нужно из этого всего забрать себе в продакшн? Вам нужно иметь ввиду, что все, что вы храните в памяти, будь это постоянная память, временная память.

79: Нужно валидировать, проверять. На это можно выделить отдельных агентов, которые проверяют постоянную память, какие-то факты, можно поставить их на расписание, на крон, процесс и

80: Это поможет поддерживать факты в вашем хранилище, чтобы, ну, валидировать их, помимо этой информации, также полезно записывать, как

81: Когда было провалидирована, кем было провалидирован, насколько этот факт старый, может быть там ему 90 дней, да, потому что вот наш конкретно пример про агентов, который решал датсан задачи, это как бы 1 вектор, а ведь

82: У вас могут быть агенты, которые вообще работают с клиентами, да, и там у них будет информация не про решение алгоритмов, а про то, что там у человека есть собака, да, вот тоже такая строчка записи.

83: В памяти агента должна быть провалидирована, и у неё должен быть срок службы. Ну и уже сейчас есть алгоритмы, которые какие-то факты проверяют, валидируют. То есть уже сейчас можно

84: Предсказывать галлюцинации модели на достаточно высоком уровне. Главное просто встраивать это в ваши пайплайны. Вот на этом у меня все, спасибо. Буду рад ответить на вопросы.

85: Да, Максим, спасибо. На правах модератора задам небольшой вопрос. Вот мне очень понравилась аналогия оркестрации агентов с алгоритмами вот ансамблирования из машинного обучения, там, не знаю, random forest. Бустинг.

86: Затакали, но вот в этих алгоритмах прирост качества, он обеспечивается независимостью вот этих базовых маленьких моделей для ансамблирования. Вот как в случае с агентами обеспечить, чтобы, например,

87: Тот же агент критик не допустил ту же ошибку с мультиколлинеарность вот за счёт чего можно обеспечить, не знаю, взять другую базовую лмку или вот какие здесь подходы тут, в нашем

88: Finale полный полный набор того, чем мы управляем, когда работаем с языковыми моделями. Это и управление контекстом, и управление параметрами типа температуры и так далее. Поэтому здесь важно, что

89: Вы можете настроить критика так, чтобы у него был независимый контекст. И более того, он может там управляя, вы можете управлять температурой там, добавляя, понижая её. Поэтому

90: Ну, как бы все крутится вокруг контекста. Я понял, да, спасибо. Давайте 1 вопрос из зала. Вот молодому человеку, да, руку поднял. Простите, у нас немножко этот, по таймингу.

91: Да, добрый день. Благодарю за доклад. Подскажите, пожалуйста.

92: Прикладной пример. Если у нас основная моделька, допустим, какой-нибудь там queen 3, 5, 27 б, плотная модель критики. Какого размера они должны быть, насколько они должны быть умными, да?

93: Хороший вопрос. Спасибо. Ну, тут вот опять же, это немножко перекликается с предыдущим вопросом. То есть, на самом деле, вот, и в подходах, когда, ну, которые называются ллм из джадж, обычно советуют использовать не те же самые модели, которые

94: Пользовались там для написания кода, для работы агента и так далее. Здесь эта рекомендация все ещё актуальна. То есть это скорее всего, должна быть какая-то другая модель и абсолютно точно она должна быть не меньше, чем

95: Та, которая использовалась, но здесь тоже стоит понимать, что есть задача, которая называется роутинг, и важно, чтобы там сложность модели зависела от сложности задачи, которую она решает.

96: То есть, вот опять же, по валидации вполне можно использовать даже влм модели вижн лэнгвич модел, там и небольшие модели. Хорошо, например, считывают сиар у новых квинов, то есть здесь прям ultima

97: Активного ответа нету. Если прям совсем просто, да, примерно той же структуры по параметрам. Но хорошо бы, чтобы у вас, конечно, было понимание, как роутить модели на запросы.

98: Максим, спасибо. Давайте я напомню ещё, что всегда к спикерам можно подойти в кулуарах нашего форума. Это приветствуется. И у нас следующий доклад от вайлдберрис, руководитель направления.

99: Ллм. R&D Михаил дискин он расскажет нам, собственно, как избежать оверинжиниринга.

100: Всем привет, я Миша, я, как сказали, работаю в вайлдберрус, и сегодня мне казалось, что я буду скорее оспаривать какие-то тезисы, типичные для такого рода сессии, хотя вот, послушав преды,

101: Докладчика. Оказывается, что мы с ним сходимся сильно в большем, чем я ожидал короткий слайд немножко обо мне. Я, собственно, как уже сказали, руковожу ди командой пм. Мы делаем много разных моделей, специализируюсь на

102: Разного рода применение моделей в бизнесе, немножко науки. Когда-то писал хорошие статьи, работал в ресерче, преподаю до сих пор в вышке на фистех, в шаде и так далее, как-то так. Давайте ещё тут

103: Скажу, что почему я вообще решил об этом рассказывать, так нагло рассказывать о том, что агенты не факт, что вам нужны на сессии мультиагентной системы. Ну, в основном, потому, что, работая в текущем бизнесе, я примерно

104: Раз в пару дней объясняю какому-нибудь высокому начальству, что для решения их задачи не нужен агент, а нужно, возможно, что-то другое. Точнее, как бы агентом её решить можно. Но хотят ли они этого, это другой вопрос. Итак, значит, что у

105: Сейчас вообще говорят про агентов ну, большой тейк от уважаемого дженсона хуанга сео энвидии, что мы входим в эпоху agenti аяй в реальности ну, по замерам, кажется, карнеги меллона.

106: Реальный успех лучших автономных агентов на реальных офисных задачах. Ну, типа 24%. Прекрасный опрос, показывающий, что 99% разработчиков изучают агентов, хотят их использовать и так далее. В реально

107: 42% больших западных компаний успешно свернули свои инициативы, не доведя их до продакшена, почти все при этом называют агентами любые свои системы, независимо от того,

108: Есть там реальная автономность или нет? Почему, собственно, я так докапываюсь до слов того, что люди называют агентами, что-то, что, на мой взгляд, и на взгляд академической науки, и

109: Любых формальных определений агентами не является. Ну, потому что если вы используете неточный термин, вам очень недалеко до того, чтобы на основе него принять неоптимальное инженерное решение, все мы знаем, да, что агент лучше продаётся, несомненно.

110: Вам часто хочется сказать, что ваши сотрудники не нужны сократить штат, заменить их на цифровых сотрудников, которые вам сделают агенты. Все логично. В итоге термин растянули до полной потери смысла.

111: Собственно, слово агент звучит гораздо дороже, современней. Вы можете успешно привлекать инвестиции на том, что вы делаете агентов. Но если вы называете что-то только потому, что вы можете

112: Инвестиции это маркетинговый выбор, это не выбор технический. Соответственно, аналогично с желанием заменять разные реальные процессы агентами типа ребят, да, конечно, очень многое мо.

113: Современным искусственным интеллектом решить. Но поверьте мне, использование 3 Промтов и 2 ифов это не агент. Ну и аналогично как бы агентом мы называем все, что только не лень хорошее.

114: Западные исследователи рынка придумали прекрасный термин эйджент вошинг, который можно использовать Ровно для описания такого рода ситуации. Собственно, если вы все назвать агентом, вы начнёте переплачивать ещё до того, как поняли,

115: Задачу бай зевей в аудитории. Поднимите руки. У кого в проде работает агентная система? О, вижу несколько прекрасных рук. А подумайте теперь поднимать руки не обязательно. У кого эта агентная система на самом деле явля.

116: Заранее терминируемый пайплайном, поэтому давайте тут обсудим, какие вообще бывают уровни систем, использующих эй. И не только 0 уровень. Просто обычное программное решение правило.

117: Код, поиск. Все предсказуемо, все то, что люди умеют делать уже несколько Десятков лет. 1 уровень мы перешли в состояние, когда у нас уже есть ллм, мы хотим быть модными современными, мы

118: Используем искусственный интеллект, который решает задачи прекрасно. Все ещё не агент хорошо используется в разной текстовой генерации. Там переводы, суммаризация во многих случаях, например, какую-нибудь задачу классификаци,

119: Можно решить, конечно, проще, но быстрее будет решить её запросом к ллм. Прекрасно. 2 уровень, который можно использовать, это лм плюс база знаний или какие-то инструменты. Ну, сюда попадает стандартное решение.

120: На основе рага, когда вы хотите, чтобы ваша модель использовала какие-то релевантные конкретно вашему юзкейсу факты, очень полезно, очень актуально. Не агент ситуация, когда у вас есть некий

121: Сценарий из нескольких Шагов, где вы там, значит, сначала получаете данные из базы, потом вызываете на них ллм. Она вам генерирует, например, какой-нибудь json стракер аутпутом, вы его потом обрабатываете кодом, потом на выходе этого ещё раз вызываете.

122: Что-нибудь такое, это совсем прекрасное решение. Это куча, куча задач. Так решается. Вы заранее знаете, какой маршрут. Вам легко это дебагать. Все ещё не агент.

123: Агентная система, потенциально уже близкая к реальной ситуация, когда у вас есть исполнители и координатор, который ими управляет. Вопрос все ещё как бы, если вы заранее, если заранее определены,

124: Роли каждого и то, какие шаги они должны выполнять. Вопрос агентности спорный, но уже близко. Ну и финальный это реально автономные агенты, которые сами выбирают следующий шаг, сами выбирают, какие будут исполнители и так далее. Очень рекомендую

125: Отслеживать, что именно вы делаете и можно ли вашу задачу решить таким образом, когда вы не переходите слишком глубоко по этому списку. Собственно, не надо, пожалуйста, прыгать сразу на нижний уровень, но про

126: Это я ещё буду повторять много раз. В этом, собственно, и есть цель моего доклада. Собственно, когда у нас все начинается реальный агент, что давайте просто разберём самое, как бы важную часть отличий того, что

127: Вам начинает уже казаться, что агентно ещё нет и реального агента. Собственно, сценарий это тоже, когда я его описывал, когда вам заранее известно, какой у вас будет путь действий, что вы хотите сделать сначала это, потом это потом это прекрасно, очень хорошо.

128: Не надо в этой ситуации делать агентов и давать системе автономность, оно прекрасно решится без этого в случае агентов. Соответственно, это когда ваш путь решения заранее неизвестен, система выбирает, какой будет следующий шаг, стратегия может меняться и так далее.

129: Ещё раз повторяю, стандартный свой тезис. Даже если у вас есть ллм и вызов инструментов, это все ещё управляемый заранее известный маршрут агентом называть не надо и агента системы использовать не надо. Собственно, когда у вас происходит там итеративная корректировка,

130: Улучшение пайплайна и так далее. Вот это вот уже, наверное, агент соответственно, когда нормальный генный пайплайн выглядит как у меня написано, здесь ниже, значит план, потом действие, потом наблюдение, потом корректировка на основе. Повторяем стандартный тезис рагги.

131: Агенты. Последовательность фронтов не агенты. Этот слайд, в общем то, дублирует то, что вам уже рассказал предыдущий докладчик. Но я искренне считаю это полезным повторить, что если у вас есть какая-то итеративная последовательность, в которой

132: На каждой итерации вы можете допустить ошибку. Увы, увы, по экспоненте растёт общая ненадёжность вашей системы. Как бы, если у вас 5 Шагов, надёжность уже 70 72%, хотя 77. Хотя изначальная надёжность была

133: Всего 95. Ну и дальше. В общем мы по стандартной экспоненте падаем, и что характерно, эта экспонента будет работать, даже если вы повысите базовую точность модели, как если ваша модель вы заменяете здесь, не знаю queen на chat gpt.

134: И 95% успеха решения 1 задачи превращает 97. Ну хорошо, вы упадёте к 20 двадцатипроцентной точности не за 20 Шагов за 25. Проблема, в общем, никуда не девается. Чем длиннее ваша траектория, тем выше шанс накопления, ошибки.

135: А именно что автономных агентов траектория становится все длиннее и длиннее, потому что им нужно перевалидируйте свои решение, потому что они радостно передают управление друга, и получается больше точек отказа. Есть ещё 1 мой тезис, который очень многие вообще забывают.

136: Когда рекламируют современные решения, что автономные агенты это, вообще говоря, довольно дорого, потому что любой вызов ллм, в принципе, это дорого. Ну, опять же, всегда зависит, разумеется, если вы там большая компания.

137: У которой есть свои инстансы, это раз, a2 это когда ваши агенты решают какие-то отхок, уникальные задачи, может быть это окупается и дешевле, чем если инженер, если вы решаете что-то продовое, то

138: Вы оказываетесь сильно пострадавшим по деньгам, потому что если у вас какой-то простой сценарий, вы можете обойтись там парой вызовов моделей с заранее известным не очень длинным контекстом с заранее.

139: Стоимостью предсказуемый латенси, вы понимаете, как это отлаживать? Если у вас агентная система, добро пожаловать, вы у вас, вы тратите время на планирование, время и токены на планирование задачи. Вы тратите время и токены на выбор нужного инструмента, на пере,

140: Планирование на повторные шаги, на то, что агент понял, что он ошибся и начинает делать все заново. И с каждой операцией у вас накапливается контекст. Возвращаемся, значит, к прекрасным советам предыдущего докладчика. Мы страдаем в обычном

141: Мы платим за ответ. Здесь мы платим за весь путь до ответа. Жизнь, боль, все тлен, совет остаётся все тем же самым. Давайте всегда думать, что мы хотим применять пара прекрасных кейсов того, как люди немножко продалбывал сь заранее.

142: Применив агенты там, где было не надо, возможно, известный кейс курсора, которые модные, молодёжные и внедрили, разумеется, агентов в свою поддержку довольно быстро, что они сделали бот просто

143: Сказал пользователю, что там некоторое действие, которое он хочет сделать, запрещено политикой компании пользователь запостил этот ответ поддержки на reddit курсор потерял кучу пользователей, которые решили отписаться, потому что какого хрена им запрещают.

144: Делать то, что надо, компании пришлось извиняться. Ну и более давний пример кенды, который сделали чат бота, который мог принимать решение сам в поддержке он пообещал скидку пользователю. Пользователь скидку не получил.

145: Пошёл в суд. Суд сказал, что компания отвечает за действия своих агентов и ссылаться на их автономность нельзя. Они, слава Богу, не обладают субъектностью и не могут нести ответственность. Соответственно, вы рискуете доверием. Деньгами. Вы рискуете юридически.

146: Нехорошо. Лучше иметь возможность отслеживать. Что у вас происходит, если я говорит от имени компании, вы платите за ошибку, а не агент. У агента нет денег. Деньги ваши.

147: Повторяем стандартный пайплайн, как мы принимаем решение. 0 вариант. Мы используем просто обычные стандартные системы вообще без базовай. Если у вас повторяемые задачи, если вы заранее знаете, какие у вас правила, используйте так 1.

148: Вопрос к модели. Возможно, с использованием страк черут пут, который вам выдаст джейсон на выходе. Если вам нужно просто что-то провалидировать или что-то сгенерировать, делайте так, если вам нужно использвать какие-то внутренние документ.

149: Используйте рак. Если у вас есть какая-то последовательность, которую вы хотите решить, используйте сценарии. Если вам нужно решить какой-то заранее, нужно определить, какая именно эта задача, какому классу он.

150: Относится и так далее. Используйте маршрутизацию и несколько видов решений. И если у вас вы не знаете заранее, каким путём пойдёт решение. Если вам нужно адаптироваться походу к условиям, тогда вам может пригодиться мультиагентная система.

151: Пожалуйста, не платите заранее за автономность, докажите или просите ваших инженеров доказать, что без неё задача не решается. Когда агент реально нужен. Давайте просто даю вам короткий тест. Как это можно провалидировать, если вы можете заранее

152: Писать шаги, скорее всего, не нужен, если можно, как бы можно задать путь известными правилами, если можно, агент не нужен, если система должна сама выбирать решение, наверное, нуже.

153: Если можно ли надёжно проверить результат? Вообще говоря, это полезно оценивать при любой системе. Ну и, соответственно, даёт ли автономность такую ценность, которая окупает потенциальные риски и недостатки? Агент прекрасен для задач.

154: По обработке кода для исследования чего-либо с множеством инструментов и валидации возможностей в каких-либо открытых задачах, где путь зависит от того, что вы нашли на предыдущем этапе. И опять же возвращаемся к

155: Посылом предыдущего докладчика полезно, когда есть человек в контуре, может валидировать то, что делает модель, что на самом деле приводит нас на самом деле к тому, что агенты сильно лучше, когда у вас не подовая повторяемая задача, а когда

156: Это некоторое исследовательское, скорее отхок, действие. Ну, соответственно, если вы говорите, что тест вас не проходит, то че делать не надо, если вам продают агента.

157: Классификации это, вполне вероятно, просто ифлс и лм классификатор, а в лучшем случае не лм классификатор, а стандартный классификатор из классического Эмеля. Или, значит, Берта с головой, если вам продают агент маршрутизации, скорее всего.

158: Это просто цепочка заранее заказанных Шагов. Если вам продают агент генерации ответа, вполне вероятно, это просто база знаний и обычный запрос клмке агент валидации. Вы просто это чаще всего просто некий шаблон.

159: Которого, соответствие которого проверяется аналогично 1 вызовом лмки. Это работает. Если вам это продают, это не значит, что вас обманывают, если вам честно говорят, что сделают вот это, а не мультиагентную систему возрад.

160: Поблагодарите то, что вам достались хорошие инженеры, и слушайте их советы, пожалуйста, не надо переплачивать за сложность раньше времени. Что ж, кажется, что у меня на этом все. Я вам повторил один и тот же тезис. Раза 4, по моему, тезис.

161: Повторю последний раз не каждый агент обязан быть агентом. Хороший агент должен оправдывать свою автономность бай зевей. Как я написал в примечании. Во первых, я готов вас проконсультировать после в кулуарах или как-нибудь отдельно, и я благодарен.

162: Замечательному агенту клод код, который написал за меня эту презентацию, нашёл для меня все эти примеры. И скажу, что он является настоящим агентом. Просто заметьте, что презентации не является повторяемым процессом в вашей бизнес системе и

163: В этой ситуации использование агента оправдано спасибо.

164: Михаил, спасибо. Мне кажется, тезис про то, что агенты лучше продаются. Можно вот на нашей аудитории проиллюстрировать. Назвали сессию, мультиагентные системы, собрали полный зал. Спасибо. Так, давайте вопросы из зала, может быть.

165: Руку. Кто-нибудь хочет поднять, что-нибудь спросить. Я могу пока просто прокомментировать тот факт, что да, я хотел произнести ехидное утверждение, что половина примерно сессий на этой конференции посвящена агентам. Так или иначе, и только мы

166: Значит, на сессии с наиболее стрейт форвард названием мультигетто системы. Пытаемся разубедить вас в том, что вам нужны агенты. Немножко забавно, но надеюсь, что помогло. Да. А так рука появилась. Можно вот молодому человеку микрофон, вот.

167: Да, да, спасибо. Здравствуйте. Слышно сейчас, подождите, давайте. Вот тут молодой человек встал, вы тогда следующий, 2 руки. Ага, здравствуйте. Я учен, мне кажется, не работает.

168: Алло, а работает? Да, здравствуйте. Я молодой учёный, я физик теоретик. У меня вопрос, насколько сама ллм, ну, скажем, чат gpt обладает агентным свойствами, то есть вот в качестве

169: Keys я попросил проверить определённое утверждение и, ну, в ходе размышления сама ллм, во первых, произвела поиск по литературе, затем произвела.

170: Обращение к питону, где написал определённый код симпай, и затем перевела это в человекочитаемую форму и дальше снова произвела поиск по литературе и это, и это.

171: Операция провелась несколько раз, и логику можно было отследить, насколько это является агентным поведением. Ну, это является, я не знаю, сочетание агентное поведение сложное, но это, разумеется, было использование агента. Тут я

172: Хочу добавить немножко теологической точности. Сама по себе ллм, агентами, свойствами не обладает само по себе. Ллм все ещё генерирует 1 следующий токен за раз более менее. Ну, в лучшем случае, если там используется какой-нибудь спекулятивный кодинг пару токенов за раз ничего про агентность она не знае.

173: Но некоторая обвязка вокруг неё позволяет ей в качестве следующего токена говорить говорить сходи, пожалуйста, в такую-то базу и найди или начни, или давайте, значит, дальше у нас пойдёт код на питоне, а потом мы его исполним. И это добавл.

174: Ей агентности, но это некоторая скорее обвязка и chat gpt а не само ллм, которая под ней под капотом находится но это мелочи да, конечно это агент и я рад, что вам помогает это в исследованиях мне тоже помогает да, спасибо.

175: Давайте следующий вопрос. Спасибо. Здравствуйте. Мне очень понравилась презентация и здесь такая аналитическая работа была проделана. И очень хочется понять вот эту точку эффективности, когда ты какую-то аналитику

176: Проделываешь сам или задаёшь тематику и, ну вот этот симбиоз. И вот то, что делает агент, вот эту аналитическую работу. И может быть это вопрос Промкин. А я не знаю, может быть вопрос инструмен.

177: Но то, что я вот увидел, действительно очень круто получилось. Это не просто презентация, которая, не знаю, там по 1 промту в google прошла, да, собственно, здесь гораздо более глубокая аналитика, и, я так понимаю, более как бы

178: Что ли? Ну, ваше участие, да, в ней, я понял. Вы хотите похвалить компанию антропилорического али с претацией? Естественно, конечно же, то, что делает модель с самого начала и

179: При простом запросе сделай, пожалуйста, презентацию про то, что агенты бесполезны, будет невозможно, нечитаемо и бессмысленно. Разумеется, там очень много того самого хьюман ин зе лууп. В смысле моей помощи, моего понимания, что именно я хочу видеть, какие кейсы я хочу смотреть на

180: На кого я хочу ссылаться и так далее, которые просто можно добавлять презентацию или искать, не вводя руками что-то не в паверпоинте, ни в google, а задавая соответствующий запрос агенту, но, естественно, без человеческого участия, хоро.

181: Хороший отчёт, хороший доклад, хорошая тическая работа, пока что не получается. Спасибо. Да, Михаил, спасибо. Отличная иллюстрация вот этого симбиоза эксперта и агента, помощника.

182: Следующий доклад у нас от даниила Максимова ии. Инженер в авито расскажет про их опыт внедрения. Даниил, тебе слово. Да, всем привет. Я расскажу, как мы делали и ассистента.

183: Для продавцов авито немножко про себя я, собственно, разрабатываю. Я ассистента для продавцов до этого делал кодингом х, ассистентов в яндексе, автоматизировал поддержку в банке. Ну, как-то так вот сегодня мы поговорим, в общем,

184: Зачем вообще продавцам в авито понадобился и ассистент? Почему мы не смогли справиться просто ответами на самые частые вопросами или дажбордами? Какие-то архитектурные трюки, которые мы попробовали. Просто какие-то рецепты, которые вы можете тоже у себя внедрить, посмотреть, как изменитс.

185: Ваше качество и результаты запуска пиуси, который мы запускали там в конце декабря, да, про задачу продавцам в авито нужна персонализированная помощь. Мы таргетировали ь на профессиональных продавцов. Это наш ключевой сегмент и

186: У них очень часты, слишком разные ситуации. Типа кто-то продаёт коляски в Нижнем Новгороде, кто-то продаёт автозапчасти в Москве. И это абсолютно разные сценарии, у них абсолютно разные ситуации, вопросы, и им всем нужна персонализированная помощь. Более

187: Того, мы заметили, что они, в принципе, просто скриншотят, типа, данные из личного кабинета, закидывают это в chat gpt и просят, пожалуйста, помоги мне, типа, разобраться со статистикой, че там мне нужно, где применить продвижение, как мне там продавать их тини, получать больше контактов и так далее. Вот.

188: Поэтому мы провели исследование, проанализировали самые частые обращения в поддержку от продавцов и выделили основные 3 сценария для 1 запуска. То есть 1 был самым ключевым нашим. Это анализ эффективности. Ответы на вопросы. А почему у меня вообще упали?

189: Просмотры, как мне быть там на 1 месте в поиске? Почему я не 1, почему никто не пишет, как сделать так, чтобы писали, и вот все производные. 2, это модерация бывает такое, что объявления отклоняются там, не знаю, они дубликаты и так далее.

190: Это жалобы, мы их тоже обрабатываем. Это наш, типа, 2 интент. Ну и 3, это общие вопросы, типа, что такое авито? Доставка. Ну, в общем, консультационные вопросы теперь к архитектуре, как она устроена, но

191: Сначала нужно проговорить, да, то есть как бы тут вот предыдущий спикер рассказывал, в чем разница там мультиагент в или сценарных. Давайте здесь пока не так много говорить про определение, я буду называть это мультиагентной системой, но как бы, да, если мы придерживаемся дефиниции с прошлой презентации, это больше-таки

192: Типа сценарные агенты, вот почему там не 1 промт ни почему, ни 1 лмка. Потому что, например, если у вас все в 1 промте и все в 1 лмке, разные сценарии меняете, они могут друг друга слишком сильно аффектить. Это нехорошо.

193: Нет возможности тестировать, соответственно, разные сценарии по частям, их отдельно дорабатывать тоже они как бы пересекаются. Вот, и в мультиагентных системах, ну, фреймворках. Для разработки таких систем есть очень много средств контроля, тонкой настройки контекста, о которых тоже чуть чуть позже расскаж.

194: Которые как бы позволяют управлять как раз этим самым контекстом и влиять положительно на качество ответов.

195: Вот пример пайплайна 1 из наших интентов. Например, обработки статистики. У нас есть некоторый микрос, в нём есть просто ручка, которая принимает сообщения пользователя. Сообщения пользователя подаются в роутер роутер определяет

196: То есть, например, если нам пришло сообщение, почему упали просмотры, роутер переводит на агента, который отвечает на подобные вопросы. Смотрите, здесь синим выделено это именно синим агент, который отвечает пользователю, он

197: Отвечает за формат, за тон общения, за некоторую роль, да, которую отыгрывает наш ассистент жёлтым это agent the tool, это уже наша некоторая рабочая лошадка, то есть когда нам приходит вопрос почему упали просмотры агент, который

198: Выделен голубым, вызывает эджент зе тул, про который чуть позже расскажу, что это вообще такое, который уже непосредственно имеет доступ к тулам. То есть некоторым функциям типа получить данные в разрезе по юзеру, получить данные по конкретному объявлению и так далее. Сходить

199: Враг, например, узнать общую информацию вообще. Вот он генерирует нам какой-то вот структурированный отчёт о том, что вообще мы нашли в данных у пользователя, и передаёт это обратно агенту, который выделен голубым, и тот уже формирует финальный ответ.

200: Непосредственно на вопрос пользователя. Вот что такое эджен зету. Почему мы считаем, что его использование достаточно критичное, когда мы просто передаём управление другому агенту, тут получается слишком высокая степень неопределённости. Вот

201: То есть в да, в случае, если у нас есть agent зету, родитель будет передавать только необходимые данные и контекст например не будет расти когда мы у нас есть вот такой аналитик как на предыдущем слайде, у него есть очень понятная функция.

202: Ему нужно просто собрать кучу данных, проанализировать их и выдать отчёт. Ему не нужно полностью передавать управление. Он обязан будет как любая функция получить управление, отработать и вернуть отчёт обратно. Вот так и

203: Тут, то есть мы не теряем контроль над агентом, агент эджент исту будет видеть исключительно только то, что ему подаст родитель, агент. И, соответственно, родитель полностью контролирует этот вызов. То есть он получит ответ и уже на основании

204: Этого будет дальше решать, что нужно делать.

205: Но ленки ломаются в адк, который мы используем, есть разного рода плагины. Это некоторые, просто скажем, функции, которые вызываются после, например, каких-то событий. Например, лмка сгенерировала ответ. Вот у нас были

206: Много разных проблем, с которыми мы столкнулись, например, поэтому мы разработали плагин типа форматтер, например, наш ассистент, он должен поддерживать роль, что avi это девушка, вот. Или, например, не переносить некоторые действия после долго

207: Работы мульти агента системы на пользователя. Для этого у нас есть форматтеры, которые, ну, там, небольшая лмка, которая проверит, а ответ вообще нашим требованиям соответствует или нет. Иногда ллма может генерировать тул кол в тексте, а не отдельно function колом.

208: Такое тоже нужно уметь обрабатывать. Вот. И для этого мы, мы тоже сделали плагин, который как бы корректно обрабатывает этот случай. 3, это ретрай, если лмка вообще сгенерировала какой-то бред, там, не знаю, типа кусок джейсона, пару скобочек.

209: На английском мы такое тоже типа трекаем и отправляем на перегенерацию некоторую фулбэк модель.

210: Как мы наблюдаем за нашей системой, понятно, что мы логируем там лейтенси, ошибки и токены в разрезе по каждому агенту, и по каждой модели мы сразу видим, кто тормозит, где растёт расход токенов. Испо.

211: Используем оппик. Это такой опенсорсный инструмент для визуализации и хранения трейсов. Если что-то в диалоге пошло не так, мы увидели, что действительно есть какая-то ошибка, неправильно ответили с галлюцинировали. Мы можем пробежаться вот по Такому трейсу, да, то справа на картинке пример трассировки одног

212: Запросов, то есть вот у нас есть роутер, есть дальше агент, которому перевели управлению, там аналитика вызвали, он там дальше пошёл работать, вызывает снизу какую-то инструмент, который даёт ему статистику по пользователю. Вот это достаточно удобно, сразу можно увидеть.

213: Аупут и время работы всего, всего, всего.

214: Результаты у нас было 2 с половиной месяца с идеей до запуска писи. Результаты пиуси нас порадовали. Мы достигли 29%. Петрен рейд. Это вот доля продавцов, которая зашла в личный кабинет в авито, и ты.

215: На виджет ассистента 48% activation rate из тех кто кликнул сколько людей реально начали диалог и уже оффлайн мы замерили наш сакссес рейд чуть чуть позже про то как мы его мерили вот.

216: Это определяется как доля в принципе просто успешных диалогов размечали, соответственно, вручную просматривали все диалоги, каждый диалог оценивался уже по некоторым жёстким критериям, то есть, например, маршрутизация, фактологичность.

217: Поиск, структура и логика. Ну, маршрутизация. Понятно, правильно ли мы определили интент фактологичность, правильно ли мы использовали данные, которые вернулись из ручек по статистике поиск верно ли мы сходили в rock? Верно ли мы поняли оттуда информацию?

218: Логика, что ответ сам себе не противоречит ну и галлюцинации если например какой-то информации у нас не было, что мы её не придумали с пустого места. Вот ну и соответственно как раз получили примерно 74 success rate распределе.

219: Запросов на pc нас удивило, если вы помните, я говорил, что мы выделяли основные 3 интента, это аналитика, модерация и вообще просто остальные вопросы какие-то справочные здесь примерно так и есть, то есть есть аналитика и поиск наш основной интент модера.

220: Сильно меньше, а все остальное там в сумме примерно тоже треть. Но внезапно пользователи создали целый интент, который мы не ожидали. Это генерация контента. То есть пользователи наши продавцы очень любят генерировать описания тайтлы типа

221: Сгенерируй, пожалуйста, продающее описание. Вот этого мы не ожидали. И вот это вот как бы наша зона, куда мы дальше расширяемся и делаем новые интенты, как бы как раз основной из целей запуска. Пиуси быстро проитерироваться, собрать фидбэк, посмотреть, как пользователи вообщ.

222: Будут нашу систему использовать, и мы пронаблюдали следующие инсайты. Продавцы часто возвращаются в диалог. То есть, например, он спросил когда-нибудь, а как нам поднять статистику, как мне поднять статистику? Мы ему ответили, ну вот сделай то-то,

223: То-то попробуй подключить продвижение на такое-то такое то объявление. Он на следующий день приходит и спрашивает, стало ли лучше. Типа проанализируй снова, что поменялось. То есть для него это уже не просто какой-то одноразовый запрос, а целый рабочий процесс. 2 то, что они

224: Хотят действий, то есть, например, мы ему сгенерировали какое-то описание в чате, он просит, ну иди опубликуй. Вот, то есть уже хочется некоторой некоторого выполнения действий прямо из чата, не выходя из него и

225: Это самые частые запросы, они повторяются. То есть как у меня вот сегодня дела со статистикой, как у меня с заказами, контактами, просмотрами. Пользователь часто 1 спрашивают 1 и тоже. Это для нас некоторый сигнал к проактивным действиям. То есть многие селлерских ассистент.

226: Там, за рубежом, шопифай и прочих амазона, они, например, могут в фоне заранее сходить, собрать статистику по пользователю, подготовить некоторую аналитику, ну и прислать ему сказать, что, дружище, смотри, вот здесь, кажется, у тебя проседают просмотры конкуренты, там слишком сильн.

227: Выросли. Предлагаем тебе вот здесь вот немножко потратить денег. Вот на этом на самом деле все. Буду рад услышать ваши вопросы. Подписывайтесь на наш канал. Доску объявлений как-то так, Даниил, да.

228: Большое спасибо.

229: Так, давайте вот молодому человеку сейчас

230: Спасибо большое за доклад. Меня зовут Алексей разработчик тоже очень интересная реализация, но вы не затронули 1 вопрос. Хотелось бы, может быть, чтоб сейчас чуть чуть осветили это создание реал гуардов, так называемых, когда у нас идёт безопасность входящего запроса?

231: Инъекции и прочего. А также как вы смотрите потом на то, что модель возвращает, чтобы она не вернула явной, юридически некорректной чуши и так далее. Спасибо. Да, супер. Спасибо за вопрос. Отличный вопрос. У нас есть специальный отдельный сервис гардрейл, его

232: Обрабатывается специальная сторонняя команда. Мы проверяем запрос, входящий на то, что это действительно не какая-то промт. Инъекция. Это вопрос, на который мы, ну, вообще ожидаем, что мы на него отвечаем, а не какой-то очень спекулятивный, чтобы у нас были там жёсткие риски и проверяем выходной ответ.

233: У модели. То есть когда мы уже сгенерировали ответ, который упадёт юзеру, он тоже проверяется через гардрейл, что мы действительно ответили что-то адекватное, вот как-то так там сейчас, наверное, не могу рассказывать, как именно они устроен.

234: Ну, в общем, да, конечно, мы переживаем оо гардрейл и о том, как они, в общем, чтобы они работали.

235: Да, Даниил, спасибо. Так, ещё 1 вопрос. Вот дайте молодому человеку микрофон, пожалуйста.

236: Благодарю. Здравствуйте. Я Александр. Я тоже занимаюсь разработкой решений с лэмками, и вы упоминали плагины, которые вы написали для валидации того, что модель говорит бред или не бред, или обрывает токены, или вызывает инструменты случайно. А эту валидацию вы делаете отдельными вызовами к моде.

237: Или вы обучаете отдельную, которая распознает бред и просто даёт оценку не на самом деле. Вот.

238: Когда мы говорили про плагины.

239: Вот они, ну, про ретрай плагин. А, я понял, да, ничего нет, да. Ну, в общем, ретрай плагин, который детектит, бред, бред. В нашем случае он очень понятен. Типа, это 5.

240: Символов на английском с кусками скобок. То есть это на самом деле трекается достаточно обыденными, типа регулярками. То есть некоторые проблемы прям повторялись. Вот у нас, не знаю, моделька очень любила говорить аргументс, ну вот просто вот она вместо всего ответа целиком просто пыталась

241: Генерить тул кол и на этом он обрывался. Вот какие-то такие случаи непонятные совершенно. Вот мы их обрабатывали такими плагинами. Вот. То есть если моделька там случайно, как китайские модельки любят символы в текст вставлять, вы это просто видите, что

242: Другой язык слишком долго. А, ну да, для китайского как раз подходит форматтер форматтер. Это просто другая моделька, у которой инструкция. Проверь, пожалуйста, что ответ соответствует нашим требованиям. Вот мы тут ничего дополнительно под именно под такой сценарий плагина не дообучал, нет.

243: Голос это вы чат тимплейт, заполненный перехватывали или тоже моделька, понял?

244: Все, спасибо. Да, спасибо за вопрос. У меня вот ещё небольшой вопрос. Знаешь про тайм ту маркет? Вот ты упоминал про пруф оф концепт, да, вот это и вопрос, наверное, вот та платформа, на которой

245: Разработка осуществлялась, она была уже там, ну, в высокой стадии готовности. Вы как бы, из готовых компонентов, вот Кубиков, там, форматтер, ну, разных специфичных блоков собрали вот этот of concept, или все-таки

246: Это был, как бы, ну, полный цикл с разработкой вот этих типовых агентов, да, спасибо за вопрос. Нет, это было примерно с нуля. То есть, никаких там плагинов, ничего такого разработано не было заранее. Вся вот сама система мультиагент, в, она как бы

247: Разрабатывалось, действительно, вот за 2 месяца, да, я понял. И это получилось такое достаточно масштабируемое решение, да, то есть на этой же платформе можно будет собрать там систему мультиагентную не только для там работы.

248: С продавцами, ну и, например, там, ну, в каком-то другом бизнес сценарии, верно? Да, да, да, конечно, мы её сейчас развиваем, мы добавляем в неё, там новые интенты, обрабатываем фидбэк, который получили на пиуси, у нас параллельно ещё запускается ассистент для покупателей. Вот, и все. Оно примерно вот на 1 платформ.

249: Сделано. Понятно. А если говорить, например, про внутренних сотрудников, вот это, это решение, оно на клиентов внешних или для сотрудников тоже чем-то может помочь? Ну, это решение конкретно.

250: Нацелена на продавцов, потому что здесь вот они и интенты такие выделены именно которыми, с которыми продавцы к нам приходят. И вся вот эта система нацелена именно на помощь продавцам. Да, тут для помощи сотрудников внутри используется там другая команда это делает тоже. Да, я

251: Понял, спасибо. Так, может быть, ещё есть вопросы из зала? У нас есть пара минут.

252: Так, ну как вопрос? Так, так, а поднимите руку, пожалуйста, чтобы я вас увидел. Давайте.

253: Сейчас, сейчас, сейчас, секунду, обойду просто.

254: Да, спасибо.

255: Компания суточная. Та платформа, вопрос следующий. Сказали, что, в принципе, в пилоте было 2 с половиной месяца, да, в декабре, получается, запустили. И вот сейчас уже наблюдаете сам инпис.

256: У сейлеров спрашивали, насколько им комфортно и удобно этим пользоваться, не только оценка, что пользовались, а как им это нравится, да заходит и вовлечённость самих сейлеров, падает ли со временем или только растёт.

257: Да, спасибо за вопрос. Получается, что мы мерили ксат. Пользователи смотрели, как они реагируют на ответы нашего ассистента. Там получилось что-то порядка 70%. Вот понятно, как бы метрика шумная, но мы все равно расцениваем как успешный сигнал. Вот.

258: Retention пользователей кстати, я так сходу не вспомню, но там тоже все достаточно неплохо получалось ну это само восполь ну пользование, да, а какие-то оценки качества, как они этим пользуются, удовлетворились они или нет, тут нету, да.

259: Ну вот качество, это у нас вот access рейд, как мы мерили. То есть мы, оффлайн смотрели вообще качество ответов ассистента и смотрели, что он нашим требованиям соответствует. Вот. Ну и, конечно, с пользователями потом тоже общались, смотрели, как, ну, связывались с основными нашими типа,

260: Пользователями спрашивали, окей, им не окей, что им нравится, что не нравится, вот как им форматы ответа. И да, конечно, работа над этим ведётся. Да. Ну и такой тогда маленький вопрос, получили ли сейлеры, которые начали этим пользоваться. Реальный буст.

261: Своему бизнесу хороший вопрос. Я на самом деле такими данными не располагаю. Не уверен прям насколько мы можем даже говорить, что прям есть прирост. Вот, но мы точно

262: На этом фокусируемся к запуску млп, да, то есть минимал лавабл продакт. Точно фокусируемся на то, чтобы мы действительно приносили людям пользу. Вот. Спасибо. Да, Даниил, спасибо. Так, ну,

263: Да, спасибо. Так, ну, наверное, можно туда можно подводить итоги нашей сессии. Да, знаете, есть вот такая пословица, да, все новое это хорошо забытое старое. И вот мультиагентные.

264: Система, это, мне кажется, иллюстрирует в плане как раз вот повторения тех паттернов в духе, не знаю, оркестрации, ансамблирования моделей для агентных пайплайнов или там вот переизобрели пред,

265: Для агентов разделить на специализированные задачки, собрать общий ответ. Друзья, ну наша сессия подошла к концу, тогда будем рады там, если и с вопросами в кулуарах обратитесь.

266: Спасибо за внимание. Всем хорошего дня.