0: Так, товарищи, всем добрый вечер. У нас очередная очередной вечер среды в институте искусственного интеллекта арри. Меня зовут Панов Александр. Мы с вами начинаем очередной семинар нашего института. Мы
1: Мы сегодня будем снова говорить про многоагентные системы с языковыми моделями. Это очень важная актуальная тема сейчас и я уверен, что ей можно посвятить на самом деле очень много семинаров, и мы постарались как раз вот сбалансировать эту тему таким
2: Образом, что в прошлый раз послушали коллег извне, не из нашего института к нам приезжала Анна из Санкт-Петербурга, рассказывала про то, как в северной столице у нас работают с многоагентными системами, с языковыми моделями. А сегодня мы расска
3: Скажем вам передовые вещи про то, как с мультиагентными лмками работают у нас здесь, в институте, и рассказывать вам сегодня об этом будет Илья Копаничук. Здравствуйте, старший научный сотрудник мультимодальной
4: Архитектуры искусственного интеллекта, лаборатории сильные и в медицине. Вот за флаб здесь у нас тоже присутствует, будет болеть за своего сотрудника. И оппонентом у нас сегодня Сергей Юдин выступает. Прошу всем привет ещё раз.
5: Технический директор направления профессиональных ии сервисов яндекса. И я знаю, что Сергей как раз сейчас занимается различными такими ассистентами профессиональными, да, вот нейро юрист в том,
6: В том числе, и я думаю, что как раз вот тематика агентов и мультиагентных систем для построения таких профессиональных ассистентов, она, конечно, тоже супер актуальна. И Сергей вот как раз с точки зрения такого реального применения на людях покритикует те подходы.
7: Которые будут рассказывать. Илья, так что, я думаю, у нас сегодня очень интересная дискуссия будет. Как обычно. Мы ждём от вас всех вопросы. Не стесняйтесь, задавайте их в онлайне. Все, кто у нас в оффлайне, тоже будем ждать вас в конце, на дискуссии копите вопро.
8: Ну, а сейчас будем начинать. Илья, поехали. Здравствуйте. Сегодня. Да, буду рассказывать про такую сторону, которую не любят обычно подсвечивать тёмную сторону. Я бы даже сказал, это разные вызовы и ограни.
9: С которыми на данный момент сталкиваются наши любимые мультиагентные системы, что у нас плохо, что в целом в мире не получается и какие перед нами стоят преграды, которые нам нужно преодолеть, чтобы выйти на следующий. Уровен.
10: Рассказывать буду с точки зрения в 1 очередь практики, потому что сам я занимаюсь как раз внедрением этих самых мультиагентных систем в пользовательские потоки. Я работал там над внедрением, например,
11: Помощника по медицине в СберЗдоровье. Вот, и буду освещать все точки зрения этого опыта. И 1 вопрос в прошлый раз начали там с определения агента. Мне кажется, что это сегодня не очень уже интересно. 2 раз
12: Повторять. Разберём другой вопрос, почему 1 агента недостаточно? Почему у нас именно мультиагентная система нужна? Ведь, казалось бы, простота имеет свои преимущества. И действительно, мы собрали 1 агента. Его может собрать сейчас и студент
13: Там без особого опыта. Это стало очень просто. Когда вы взяли, там, м, папе подключили, значит, импут туда суете и алпуд какой-то получаете, че то у вас даже происходит, выглядит с 1 взгляда фантастически, правда, пока вы не начнёте там реально что-то считать.
14: Замерять. А зачем нужно? Вот это все ужасная нужна машинерия с координацией действий различных агентов, каждый из которых там тянет свою сторону, думает, решает какую-то свою задачу. Почему нельзя все закрыть? Просто 1
15: Кратно. Ну, собственно, вот почему, во первых, конечно, агент имеет свои преимущества. Это быстрый интерактив. По сути, большая часть его преимуществ сводится к тому, что у него очень быстрая петля.
16: Обратной связи можно быстро что-то сделать, быстро получить результат улучшить. На этом работают, например, системы, когда агент сам по себе эволюционирует и прекрасно себя при этом чувствует. Он сам себе эту петлю обратной связи замыкает. Буквально с утра я успел прочитать, но
17: Новость, что буквально, когда петлю обратной связи агента замкнули на собаку, которая там, значит, на клавиатуре что-то бьёт, петля обратной связи замыкается, и она быстро прокручивает, значит, агентам что-то другое делает на клод коде, конечно, интерактив. И скорость ответа это
18: Его основные преимущества в противовес этому мультиагентная система даёт нам другие преимущества. Во первых, это автономность. Если у вас что-то сломалось в вашем сингл агенте, ну все, у вас конец, у вас система не фейлсейф, а как раз
19: В проде, когда у вас реальные пользователи, вы не можете позволить себе такую роскошь, что у вас что-то ломалось, там падало и вам потом приходили жаловаться и заваливали дежурку жалобами. Почему не работает. Поэтому автономность, независимость это очень важные преимущества.
20: Можно какого-то агента выключить, он сломается, там, господи, модель сломается. Поменяли. Дальше едем дальше. Агент 1, он сверхцентрализованном, у вас все замкнуто. Вот в этом маленьком пайплайне нет никакой страховочной сетки, опять же, от never.
21: Решений, то есть он может не сломаться, а может начать просто лажу. Гнать тоже нехорошо, особенно в тонких, скажем так, доменах. Я в основном работаю с медициной, с финансами, с инженерным доменом. Ну, не хочется сказать, что там агент вам криво что-то спроектировал это
22: 1 у вас дом потом упал, хочется как-то подстраховаться дальше. Агент 1, он выполняет инструкции последовательно, при этом ещё и синхронно. То есть, ну, с синком это очень тяжело все настроить. В теории, конечно, возможно, на практике.
23: Не реализуется на практике. Вам нужно сидеть, ждать, пока он вам что-то ответит. Все с этим сталкиваются, когда работают в single агент режиме с каким-нибудь клодом или дипси ом. Закидываете туда огромный файл или пачку файлов и сидите, ждёте, пока он там их разберёт, разгребёт, пока он вам ответит. После
24: В наше время это тоже роскошь. Следователь может себе позволить. В проде пользователь теряет терпение. Через 3 секунды никуда не годится. А с другой стороны, агент позволяет больше контролировать свои действия. Вам легче на нём посчитать, легче его забенчить, и вам не нужно думать, кто.
25: Именно сложал, вы всегда знаете, потому что у вас Ровно 1 ответственный, который ошибся. А мультиагентной системой вы можете легко это распараллелить. Вы можете повысить себе надёжность, да, вы будете в каждый конкретный момент времени гораздо сложнее вам будет контролировать, что происходи
26: Слогать все это нетривиальная задача, но зачастую это и не нужно. Так получается, что мы сокращаем потребность в таком жёстком контроле. Поэтому, конечно, мультиагентные системы сейчас это хайп, как говорят, все любят, я бы
27: На предыдущем слайде немного остановился, и раз уж я такой человек от индустрии, попробую несколько вот такого практического взгляда и практических вопросов к докладу привнести, когда я прочитал название этого.
28: Клада, 1 мысль была моя такая ого, внедрять мультиагентные системы. А мы разве научились уже single эджент системы внедрять в продакшн. Они разве работают уже как на этот счёт? Ты бы ответил насколько?
29: Научились это делать, и насколько они уже single эджен системы продакшена, пригодны. Ну, у нас все строго индивидуально, вот. И зависит сильно от задачи. Ну, например, там наш, этот помощник цифровой СберЗдоровье уже полтора года работае.
30: Прекрасно себя чувствует и он там, ну не совсем сингл леджен, то есть он там не такой тупоголовый, он что-то тогда гибридное, что-то среднее, я тоже сегодня буду об этом говорить. Другой у нас пример это финансовый ассистент аифа, он сейчас внедряется, то есть он скоро будет доступен уже на пользо.
31: Не специалистов в домене искусственного интеллекта, то есть специалистов там, финансов, если говорить об этом, да, о внедрении, например, GigaChat, как вот тоже single леджент клуб в Москву, в московскую, в емиас, как это говорится, но для врачей
32: То есть внедрение вот этих single леджен систем в.
33: На пользователей, которые являются специалистами в своём домене. Это, в общем, задача уже повседневная. То есть делаем там чуть ли не каждый день внедрение на Широких пользователей, которые не являются специалистом, например, медицинского помощника, раскатить на людей, которые ничем там не владеют. Сразу столкнёмся с серьёз.
34: Ограничениями, конечно, я полностью согласен. Я бы это так, ещё с такой точки зрения посмотрел. Довести сингл эджент систему до качества 70 80%. Это не сложно, это правда, студент. Угу.
35: Поводив пару часов, справляется дальше. Если, если система требует 95 процентного качества, 99 и ллм, нужно дообучать в этой системе огромное количество болей, сложностей. Вот это вот пробивать крайне тяжело.
36: И прям таких на рынке юскейсов, которые прям можно брать и под копирку делать скорее нету. Везде какие-то костыли, везде какие-то боли. И если посмотреть на это с той стороны, что мультиагентная система, она на самом дел.
37: Не усложнение. И это, мне кажется, важно проговорить. Это не переход на следующий уровень о том, что здесь то мы научились уже. Давайте, давайте. Теперь сложнее задачу в Кубе. На самом деле эта штука может, наоборот, упростить внедрение, упростить. Вот
38: Те решения тех проблем, которые сингл система даёт. И если с такой точки зрения на неё смотреть, то на практике это правда очень интересно. Это не усложнение в квадрате, а на самом деле штука, которая имеет свои плюсы, минусы и
39: Помогает даже связать углы. И это правда на практике. Так, да, согласен, тоже хочу. Хотел об этом сегодня поговорить. Супер. Все, я вот немного разберу сначала, как раньше там на прошлый раз разбирали агента, разберём мультиагентные системы.
40: Какие есть у нас архитектуры. И сразу, может, мой коллега подтвердит, может, что-то опровергнет из того, что я скажу, какие они встречаются на практике. То есть легко выставить там какой-то пайплайн, что у вас система должна делать? Выставить протоколы коммуника.
41: Между агентами. Об этом я тоже позже поговорю. Выставить среду уже сложнее гораздо, в которой они будут действовать. Особенно предвидеть, что там они за вас будут делать. И, наконец, совсем как казалось бы.
42: Просто решить, как именно у вас все это будет организовано сейчас. Опять же, я много буду сегодня говорить о том, как в академии любят там забегать вперёд. Вот. И действительно, мы, когда внедряем что-то на практике, мы обращаемся к академическим статьям и
43: А что же там придумали ещё такого, что мы можем у себя внедрить? Вот, соответственно, принятый сейчас классификация архитектур мультиагентных систем это слоистая система, которая, понятно, как пришла в голову инженерам.
44: Просто уподобить нейронки, где у вас уже в узлах сидит не там число, а сидит уже ллм целое. Вот тоже теоретическая схема. Не знаю, встречается ли она вообще на практике нигде ничего подобного не видел. Вот децентрализованная система, которая очень хорошо себ.
45: Показывает там на академических бенчмарках, где каждый агент общается с каждым и можно там из пула агентов что-то вытянуть, чтобы он что-то сделал тоже опять же хорошая теоретическая схема, как sounds good, насколько это хорошо реально работает и просто тоже не могу ничего сказать.
46: А вот централизованная схема, где у вас есть какой-то мастер агент, который всеми управляет и, значит, остальных контролирует, это как раз схема, которую используем на практике у себя. Мы вот при этом этот агент, он может иметь сам разную структуру тоже это позже обсудим.
47: То есть внутри себя тоже довольно сложно может быть устроен. И, наконец, система такая супер децентрализованная, где у вас просто есть paul, агенты бегают, значит, из него чего-то хватают. Ну, очень похоже на задачи, которые привычные для разработки. Когда у вас есть какой-то
48: Плохо из него разработчики себе задачи хватают. Вот это тоже мне кажется. Почему нет? Вполне можно пробовать внедрять на практике.
49: Я тут с точки зрения практики прокомментирую. Есть 1 очень важный момент. Это отказоустойчивость любой системы, и именно из за него вот эти вот то, что применяется на практике, очень часто эволюционирует.
50: В какие-то такие витиеватые схемы. А именно представляем, что знаете, наверное, зачастую у продакшн сервисов есть такая цель, называется там 9999. Это означает, что сервис должен быть доступен в 99 и 9, да?
51: 9. Во 2 там периоде случаях за этим следят. Там для пользователей, например, падение любого значимого сервиса. Это большая беда, любые там новости, что какой-то там
52: Да, недоступен час, это прям все про это в курсе. А теперь представляем, что у каждого из агентов есть вот эти вот 9999 своих, и они между собой общаются, и каждый из них может с вероятностью 0 0 1% упасть. И вот когда немного наприме,
53: И децентрализованная схема, несмотря на то, что на практике, в теории хорошо себя показывает, но именно из за этого параметра на практике этот 0 0 1% возводится в большую степень.
54: И оказывается, что отказы в этой системе очень частые и как делать так, чтобы state, если агенты между собой уже 50 раз пообщались, ещё 50 раз, осталось, как его хранить и с этого момента.
55: Продолжает решать задачу это вот такая очень интересная инженерная особенность, и в итоге Шерет месседж пул зачастую не про short message, например, а про шину предыдущих общений между собой самих этих агентов, чтобы с какого-то
56: Момента, если mk отвалилась, начинать продолжать взаимодействовать прикольные инженерные задачи просто с этой стороны на эти схемы тоже интересно смотреть. Ну да, вот кстати да, то, что подхватывать, это хорошо и тоже дополню, что как практик, что вот централизованная схема только
57: Выглядит уязвимой на самом деле, когда у вас есть 1 точка отказа, вы всегда быстро знаете что чинить вы всегда знаете куда бежать да и можно так слей даже поднять, если он какой-то там был очень плохой, сделать не такой плохой ну да, вот sh message кажется, что можно больше.
58: Но это более сложно организовано, опять же на практике вы где-нибудь делали подобные схемы с шет месседж пулом?
59: Я думаю, что именно вот здесь надо уточнить, что здесь имеется ввиду. Угу. Если говорить про то, что все общение сваливается в какую-то 1 шину данных, то, да, на практике оно как бы работае.
60: Но агенты при этом между собой взаимодействуют, да, просто оно дублируется для поддержания. Да, и в этом смысле схема децентрализованная или, например, централизованный пул, они как бы гибридные между собой у тебя.
61: Есть и paul общий, но взаимодействие происходит, например, напрямую. Вот получается, такой гибрид, да, используется, да, интересно. Вот, ну, перейду теперь, наконец, к как это все сахарное такое было.
62: Вот к тому, как это все реально на самом деле тяжело, когда все эти системы, которые там на академических бичмарк х, а в статьях то у нас всегда вообще все шито крыто в статьях, все просто прекрасно. Вот такой вот столько успехов, вот такой вот раздел limitation, значит, и problems, как это все
63: На самом деле, во первых, все там шутят. Раньше шутили, что написать, значит, это у вас не агентик фреймворк, не мультиагентная система. И вообще не агент. Это вы оператор над лм написали, тут называется, попробовали бы сами, например, я знаю, что яндекс только в прошлом.
64: Году, может даже ближе к концу, я точно боюсь здесь соврать, перешёл как привёл к стандарту опен ай, что можно по openai подключаться GigaChat насколько я знаю, до сих пор имеет какие-то разногласия с форматом опен ай андроиков, то есть в условиях отсутствия
65: Единого признанного прям стопроцентного стандарта доступа к разным ллм. Особенно это больно, когда тот же самый клод, он, значит, не поддерживает общий стандарт. Написать хороший Раттер, который всем позволит пользоваться всеми функциями. Это большая проблема, там я
66: 1 образом, принимает файлы GigaChat, другим образом обрабатывает файлы по openai 3 способом ну вот мы, например, у себя эту задачу решаем с успехом, но я не скажу, что это легко, это совсем не легко, эта картинка на самом деле очень не смешная, вот дальше подключить.
67: Сразу из этого вытекает следующая проблема. Подключить разные модели, особенно когда у нас, да, исследовательский институт, нам обязательно нужно банчить разные модели между собой. Вы написали систему, попробуйте туда подключить. Нам пришлось написать целый инструмент. Мы, кстати, его релизнули в опенсорс.
68: Раньше у нас был акцессор, который позволяет под стандарт open eye подложить разные модельки и быстро их переключать это большая проблема, например, на митапе агента среди нас в главном Сбере коллеги рассказывали, что у них там по 2 недели может занимать.
69: Смена модели, пока они все регрессии проведут, это просто смена 1 версии GigaChat на другую. А представляете, что такое замена в мультиагентной системе в настоящей, там модель на другой класс или попытка, например, использовать разные модели, которые в чем-то лучше.
70: А я точно знаю, что на наших задачах разные модели лучше выполняют разные задачи между собой. Хочется, конечно, для каждого случая на бнч взять лучшую. Это все совсем нетривиально. Ну и, наконец, как только мы внедряем в практику, особенно если это интеграция в серьёзную корпорацию.
71: Особенно, если это связано с финансами, с медициной, скорее всего, с юридическими тоже вопросами. Иб, там во весь рост вот возникает, и просто ничего нельзя делать. Все прям вот идеально, по иб, ну, все знают, что это нелегко.
72: Ну, тут не только иб, как раз важно, а ещё и какие-то вещи, например, которые могут сжечь миллионы токенов ограничения, в том числе про то, что
73: Себе система это позволяет, потому что в теории можно сделать прям штуку, которая решает любую задачу, но она будет стоить очень, очень много. И вот всякие такие гардрейл истории ещё про это, про оптимизацию, ну и
74: Время, конечно, делать, если, как только любое практическое применение происходит, агент, который решает задачу час, мало кому нужен. Эти ограничения, на самом деле во многом пользовательские и дела.
75: Так, чтобы там было не больше 5, например, там, 7 фанкшн, коллинг в ещё и про вот это ограничение, то, чтобы пользователь, в принципе, дождался результата.
76: Вот тоже как раз поговорим про пользователя, про то, как частично можно обойти вот эту проблему, а с другой стороны, создать себе самостоятельно новый вызов это добавить человека в петлю, как human in злуп говорят, а уж у нас, например, это просто обязательно.
77: Условия, потому что, например, там с финансами работает только квалифицированный финансовый аналитик. Образ с соответствующим образованием, с медицинскими данными. Работает только квалифицированный врач с соответствующим образованием и, например, как
78: Там сейчас есть короче 2 признанных пути как human злуп внедрять это значит до того как что-то случилось и уже после того, как что-то случилось, чтобы это быстро откатить ну и там и там есть свои плюсы и минусы и иногда проще выбрать гибридный подход.
79: Вот, вот. Теперь, например, тот же самый наш цифровой помощник в медицине, он разговаривает с пациентом, собирает с него анамнез. Этот анамнез, он потом возвращает врачу квалифицированному, которому пациент идёт на приём, но не все из него можно показывать.
80: Пациенту просто даже юридически нельзя там человеку сказать, поставить конкретный диагноз. Это просто нельзя делать, но можно, например, ему сообщить какую-то другую информацию, на какие анализы там ему записаться. А вот потом уже подключается врач, как
81: Human *** и уже с человеком работает, обладая всей этой необходимой информацией. Вот забрав себе весь этот system out и тем самым сказать, обогатив свой контекст. Поэтому тоже вижу так, что на практике без
82: Человека. Сейчас практическое внедрение этих систем, причём без именно специалистов именной области, оно довольно затруднит. Ну, то, с чего мы начали
83: Зависит опять же от сферы мне кажется и многие допустим если говорить про сегмент что называется b2c, те агенты которыми мы с вами все пользуемся, там human *** скорее.
84: Невозможен. Если это, конечно, не тот самый индийский стартап, где вместо агентов 1000 человек работает. Ну да, да, это уже как это human визаут зелу, да, все очень просто. Ну вот, вот я просто думаю, что
85: Это, эта штука работает. Если говорить по применимости, она может покрыть 5, 10% кейсов. Угу. 90 не спасает. Ну да, она должна вот тоже думаю, как это, это именно как страховка, не как что-то основное. Вот, а то, что пойдёт.
86: Ну, например, тоже самое СберЗдоровье сказали, вы нам нагенерировали огромное количество редиректов на дежурку, потому что люди потом с этими, значит, полотнами идут разбираться, потом уже к живому врачу хотят каких-то дополнительных комментариев. То есть в этом плане, кажется,
87: Чтоб вот пост экзекьюшн, это более перспективная тема, что потом человек куда-то с этим идёт. Ну или как я тоже вижу, применён юриста, там сделать себе выгрузку и потом пойти, значит, к настоящему юристу, уже зная, что у него спрашивать, можно сэкономить много денег и времени.
88: Вот, теперь разберём угрозы. У нас это тоже большая проблема, потому что релизились на пользователей. Вот помимо классических здесь вот, значит, у нас разобраны классические угрозы ллм, что её там как-то запронят.
89: Её за сделают инъекцию. Я уж не буду тут говорить в прямом эфире, какие сейчас делают инъекции крутые. Ну вы просто погуглите вот кем надо представляться модели, чтобы она вам там отвечала, и ваша инъекция прошла. Вот что можно.
90: Оттуда вытащить, потому что и когда мы обогащаем контекст, например, пользовательской информацией, о чем дальше буду говорить, то у вас появляются дополнительные угрозы, можно эту самую пользовательскую информацию вытащить, каким-то образом там пробиться. Ну, банально тоже самое, там инъекция, как
91: Какая-то вы получаете доступ к базе данных. Если у вас агент входит в базу данных, можете подставлять туда фрот какой-то, можете получить удалённый контроль. Ну тут, наверное Александр, нам ведущий может что-нибудь подсказать.
92: Удалённый контроль за vision ленгвич экшн моделями. Можно ли туда что-то внедрить и что-то такое сделать, чтобы робот над роботом получить удалённый контроль и все сломать там устроить какую-нибудь диверсию. Слава Богу вилейки пока не выкладывают как агентов в общий доступ.
93: Тебя есть вилы арены, которые предназначены для эволюшен разных моделей, но там как раз очень строгий прям пайплайн и загрузка собственных моделей, там пока сложные инъекции, но вообще тема, конечно, такая же для работотехники.
94: И все доходит медленно. И как только инъекции хорошо себя показывают в обычных агентах, сразу же такие же перенесут в роботов и там будут с этим бороться. Ну да. Ну возможно, из за того, что медленно пока их перенесут, там уже придумают какие-то средств.
95: Борьбы. Ну это как вечная гонка, у нас тоже есть свои там эти guard рейлы, я попозже про них расскажу. И тоже. Мы там их тестировали год назад все отлично работало, периодически тестируем, видим, что падает, что какие-то новые методы инъекции придумывают все хуже и хуже.
96: А я дальше уже двинулся здесь вот в случае с мультиагентной системой я узнал тоже, я бы до такого честно, сам не додумался, только в статье прочитал, что новая угроза эджент н. The middle, когда у вас при общении с.
97: Агентами, значит злоумышленник внедряет каким-то образом свой вредоносный вредоносные какие-то сообщения. Ну конкретно здесь довольно сложный пример. Я проще это опишу, что здесь пользователь спрашивает вопрос зачем там нужна какая-то специфическая биологическая штука электрон оплаче.
98: Она нужна, чтобы синтезировать атф. И вот, значит, агенты, они, значит, выясняют, куда-то бегают, может, даже в поиск выясняют, но можно внедрить, значит, в 1, вместо 1 из агентов внедрить уже своего. Это даже не как вредоносная промт инъекция, а уже какой-то другой уровен.
99: Атаки, который будет, значит, им ломать цепочку общения между собой, честно сказать, выглядит пока не очень реалистично, что на практике, но я знаю, что разрабатываются платформы, где каждый может своих агентов загружать тот же самый гига эджент. И в таком
100: Особенно если эти агенты будут доступны другим пользователям кажется, что это не так уж и не вероятно, что злоумышленник сможет провернуть такой фокус.
101: Что вы здесь думаете? Я до конца, на самом деле, вот эту схему не понял, как именно она внедряется. То есть это нужно иметь доступ к инженерии, нужно иметь общую платформу, на которую все грузят своих агентов. Все, понял, понял. Да, да, да, это эта штука, конечно, это как раз сейчас всех.
102: Все хотят.
103: Как цель сейчас ставится на высоком уровне, что мы хотим там, значит, чтобы эти агенты, там просто 160000 агентов к концу года там нет предела, просто бесконечность не предел. При этом все. Агент вообще калькулятор с включённым рандомом тоже агент. Мы ж не знаем, че он сделает.
104: Поэтому все внедряем дальше контроль и ограничения. Ну, не буду здесь аудиторию мучить. Там, значит, тем, что такое докер. Просто скажу, что это способ изолировать некоторое количество файлов в системе от остальной системы и, соответственно, процессов, которые происходят
105: Действия, которые делают с этими файлами. Тоже очень интересная тема, которую сейчас продвигает ланчен. Как установить новый уровень контроля. Если раньше все мы делали агент как микросервис, где у нас агент изолирован полностью в этот сендбокс, в контейнер и там
106: Же выполняет весь код, делает какие-то запросы внутри этого тенокса, но тем не менее, все равно он имеет доступ к файловой системе вашего устройства, коль скоро вы его у себя выполняете, да, вы ему обрезали кусочек доступа к файловой системе, но, скажем так, человек
107: Недостаточным опытом он это правильно точно не сделает. Он скорее наоборот, даст агенту рут права. Вот тот вырвется на волю, значит ему отформатируют обязательно жёсткий диск и все данные с карточки отправит злоумышленникам, потом начнёт торговать на бирже на все деньги. Такие случаи были. Вот.
108: А вот то, что предлагает ланчен, это вынести вообще сендбокс, которым оперирует агент, куда-то далеко, и чтобы он его только по ape, значит, вызывал, более того, это сейчас схема уже утвердилась.
109: Например, в корпоративных агентах, которые там на практике тоже работают. И не только в агентах, а просто в моделях, например, при внедрении в, как в систему 1 из наших партнёров, мы не можем, в принципе
110: Вставлять левую схему, которая слева, когда у нас любая модель, даже не обязательно ллм, даже простенькая, простенький какой-то бинарникк лежит в докере. Мы должны отдельный, значит, докер, в котором выполняется этот бинарник, и к нему вызов только папе. То есть 2 схема с точки зрени.
111: Безопасности кажется гораздо более перспективной, а с другой стороны, представляет новые вызовы, потому что все эти апишки должен кто-то проверять и у вас количество контейнеров растёт тоже кратно. Значит растёт нагрузка на девопсов и на агентов, которые всем этим управляют. Получается
112: Такая, такое решение, которое вызывает ещё больше только проблем, но уже в другой области, как бы мы переложили и спокойно
113: А правда, что это валидно только для тех агентов, которые код экзекьюшн функцию имеют, если его, например, нету, и это какие-то функции работы с информацией или дёргания конкретных ручёек, но без возможности написать код?
114: То это скорее оверкилл. Или оно все-таки имеет смысл и риск. Ну, оверкилл, не оверкилл, но это как раз 1 слайд требования акб делать как справа. Угу. Вот неважно, что там. Господи, дерево у вас лежит, эскалера сохранён.
115: Даже без всяких агентов нет. Делаем все равно как справа, чтобы, не дай Бог, там, значит, это общая система. Значит, агент че то не то дёрнул, а, то есть они предлагают перестраховаться, все модели вытаскиваем и все управление, даже вот этот агент, который у нас менеджер.
116: Короче, он управляет только по апишке всем он вообще к бинарникам доступов не имеет.
117: Это, кстати, ну, в некоторых случаях это может быть разумно, потому что я знаю, что в sklearn вский бинарник можно полезть руками и че то там поправить. Я даже видел такое вот это вполне реально. Особенно если вы туда какой-то код вместе с ним запаковали. Это гораздо проще, чем кажется сделать.
118: Это такое люди часто делают там какой-нибудь класс, отнаследовались салли и все запаковали.
119: Вот пойдём дальше. Наконец, до наших любимых гвардей, в как сейчас любят говорить. На самом деле, как это раньше называлось. Цензура. Потом слово цензура зацензурили, потому что оно нецензурное, оно плохое, надо говорить, модерация. Потом перешли от того, что мы не хотим модерироваться. Мы хоти
120: Выставить рельсы, значит, по которым агент поедет, чтоб не то что как знаете, авторитаризм, что мы, значит, че то ему запрещаем, а мы, в принципе, ему разрешаем делать только какие-то разрешённые действия, а все остальное мы ему запрещаем. Часто это бьёт бэкфайр.
121: Потому что слишком сильное ограничение списка тем, на которые, например, тот же самый чат бот может общаться, вызывает проблемы. Буквально была проблема, что заказчик, связанный со здоровьем, запретил агенту общаться о еде, и он потом не смог давать диетические рекомендации. Он
122: Очень этого хотел, и пришлось там быстренько ему менять эту мапу, чтобы он мог все-таки на эту тему говорить, но тогда он уже может разговаривать о рецептах там, значит, что ему приготовить. А с другой стороны, кажется, что вроде бы так и задумано. Поэтому я хочу здесь подчеркнуть, что
123: Вот эти все ограничения, рельсы и так далее. Они больше связаны не с тем, что реально можно, нельзя, а с формированием ожиданий пользователей, формированием ожиданий заказчика, что он хочет там увидеть, а что он не хочет. И, как правило, это бывают противоположные вещи, что задачу
124: Конечно, совсем не упрощает. Тут есть очень такой практический вопрос где я не изучал его какую-то теоретическую сторону. Вдруг есть интересные мысли, как правильно?
125: Обучать ллм, которая потом применяется в какой-то production схеме с гардрейл ми. Обучение должно происходить с их включёнными составляющими. Ну, например, на тех выборках, которые гардрейл точно проходят или нужно обучать на все множество.
126: Включая незаконные, то есть гардрейл отключаем, обучаем, а потом, когда применяем, включаем. Есть мысли на этот счёт. Ну, я здесь, да, есть мнение. Я строго убеждён, что все, лэм, должны быть максимально свободные, максимально бесцензурные. Минимально.
127: Заалайненные, а потом уже сверху на них натравим. Значит, модель, которая позволит нам её заэлайнить. Значит, че то там ей разрешить запретить. Почему? Потому что так мы банально покроем больше доменов, 1 моделью сможем закрыть больше разных вопросов. Вот.
128: Либо уже тогда перейдём к следующему этапу. Я там буду рассказывать, как там маленькие модельки делаются. Но если мы делаем большую модель, она должна быть реально большой. И, кроме того, большой минус, когда мы сильно модель лайнем, ну что такое элайни, это значит, что мы её обманываем. Ну, по хорошему мы врём о том,
129: Дела обстоят на самом деле не так, как мы и говорим и естественно это не может не отражаться на том как у неё связи внутри построены начинает от этого тупеть вот как раньше шутили что этот 1 там чат gpt релизнулся когда-то он пообщался значит с
130: И начал тупеть. На самом деле его просто там заванили, что ему на все темы нельзя говорить. Вот, да, но у такого подхода есть 2 сторона. Если берём 1 гарде, отключаем вся обучающая выборка есть, включая какие-то задачи.
131: Которые по своей постановке не очень законны, то эти ответы, если особенно в элаймент, есть хоть какой-то эрелль, они же могут приводить к тому, что
132: Тематики ответы на все оставшиеся темы тоже переносятся, а если agent никогда их не видел, то и на практике он скорее всего будет каким-то образом корректно от них отказываться говорить есть 2 как раз.
133: Школа мысли о том, что гардрейл должны переноситься в обучающую выборку как минимум, например, в части лаймонда, где есть обучение, хорошо, плохо, этичность и так далее. То есть можно, например, построить какую-то
134: Стратегию вида обучаем так, чтобы гардрейл в осталось 1%, а все 99 отключились именно на этапе того, как модель отвечает. Я не берусь говорить, какая лучше здесь. Вот.
135: Именно как раз про теоретическую часть, о том, насколько модель становится умнее или умнее. Интересно, побеседовать можно уже после, но здесь есть 1 практическая польза корректные отлупы самой модели выглядят для пользователя сильно лучше, чем отфильтро.
136: Какая-то заглушка это прям, ну приятно читать, она все-таки рассуждает и все-таки даёт какую-то вот пользу например меньше кейсов про то, что о диетологии там она как-то отвечает не так здесь она будет просто стараться отвечать корректно да, я согласен, что
137: Можно очень существенно выиграть этот счёт, но этот способ, он точно более дорогой. Да, да, очень дорогой.
138: Вот, и тоже такой сейчас, как это мы осветили неприглядные стороны. Все, которые у нас сейчас, по крайней мере, я нашёл. А теперь в какую же сторону все это движется, в том числе, чтобы эти барьеры преодолеть. И главная проблема, с которой столкнул
139: Мне кажется, исследователи это что лм. Содержит в себе слишком много знаний, они как раз слишком большие, они отвечают сразу на все, в общности, в итоге там где-то что то получше у какой-то модели. Но как это? Это как студентка?
140: Который готовился одновременно ко всем экзаменам, он все сдаст посредственно. А нельзя ли что-то с этим сделать? На самом деле как раз на практике? Решение вот многих подобных задач оно и привело к тому, что сместился общий контекст тем, которые обсуж
141: В комьюнити, которые занимается интеллигентными системами, раньше все думали только как бы там все переучить, как бы поменять веса, чтобы был хороший ответ. Потом давайте забьём там на эти веса, сделаем Рах побольше. Потом, значит, сделали Рах побольше, там чейнов сот.
142: Какой-то ризонинг накрутили ризонинг, он сам там заговаривается как шизофреник, сам с собой говорит, теряется в своём контексте. Слишком большой Рах вызывает разложение контекста, становится ещё хуже. Надо вообще все вообще вынести вот отдельно. И чтобы он запрашивал только нужный кусочек.
143: Нужно строить хорошую большую инфраструктурную обвязку, которая и будет содержать большую часть информации, а не надеяться, что у нас все есть в весах, и следующий этап тогда раз нам не нужно, чтобы все было в весах. Тогда где и что будет лежать вместо весов.
144: Вот. И 1, что сейчас говорят, так это модное слово. Не нравится, оно мне чисто филологически, это харнесс, вот, так сказать, антикор, антиядро, что мы все из м вообще вытащили, что только можно, мы вытаскиваем из неё память.
145: Зачем ей что-то помнить? У нас все записано вот как, опять же студент, который на экзамен всегда приходит с хорошей шпаргалкой, он, скорее всего, сдаст лучше, чем тот, который пытался честно заучить, но готовился ко всем экзаменам, сразу вытащим из неё все скиллы в данном случае скил, этокакие то оследовательно действий которы
146: Надо сделать, ведь если она сама придумает последовательность действий с какой-то вероятностью, мы по формуле бернул с каждым шагом будем терять у нас накопления, у нас начинаются случайные блуждания, которые там ограничены сверху, пусть будет как корень из, 'n', Шагов, даже, что, вообще говоря, не гарантированно ну так она может куда-то вообще н.
147: Туда прийти. Это общая проблема, кстати, агентных систем и single агентных, когда он последовательные действия выполняет. Не факт, что он вообще что-то сделает полезное, как там даже хотел здесь картинку вставить, просто не поместилось, где агенты празднуют, значит, что у них
148: Наконец то 2 раза подряд агент сделал одно и то же результат воспроизвёлся. Мы наконец вытаскиваем из неё протоколы общения для того, чтобы она могла получать эту информацию и ходить, ведь если лм. Вроде как уже и не должна все помнить и уже как не должна знать как.
149: Что-то делать такая, че тогда она вообще сама что-то делает? Пускай что-то другое ей значит делает. Она только результат забирает. Тоже кажется логичным. Вот и все это вместе обозвали харнесс.
150: То есть, по сути, обвязкой, а вот тут не совсем на этом примере понял, что означает вытащить из модели память, а если не вытащили, оставили, то как она, а нет, это значит, как сказать, настолько обогатить её контекст.
151: Какими-то записями, чтобы то, что она сама там не знает, что-то по вопросу или не думает, чтобы мы на это не полагались. Вот так. То есть альтернатива это огромное окно контекста, где она просто запоминает диалог и оттуда. Вот, да, а если у нас есть memory, то нам вроде как такое огромное окно.
152: Тексты и не нужно, мы лучше более точно найдём нужный чанк, который так понятнее.
153: Вот, и как раз про память, как раз предвосхищая вот эти вопросы. Вот что. Так во что у нас есть классический вариант памяти, где у нас просто working контанс плюс веса вот что есть в весах, что есть в контексте. Все, мы больше вот ничего не знаем.
154: На самом деле удобно, особенно когда у вас single агент система, потому что вы точно знаете, что ничего кроме этого, не будет, вот и у вас ответ более контролируемым. С другой стороны, конечно, на практике никакая м не достигает, как это 100% воспроизводимости.
155: Потому что вопросы и разные запросы, бачатскую бой и за счёт ошибки округления, насколько я понимаю, там идеально одинаковых ответов все-таки не получается. Когда мы это обратно разбираем. Хотя, если вы, конечно, у себя поднимете локально, то у вас все должно быть хорош.
156: В этом плане. Вот дальше у вас есть, ну, то, что в академии называется, там эпизод экспириенс. Вот это конкретный, мы называем это конкретные пользовательские сессии, которые у нас сохранены, но не
157: Привязанные к пользователю, привязанные ко времени типа вот он сейчас разговаривает, вот у нас вот этот эпизод происходит тоже очень хорошо. Каждый следующий вопрос можно просто подключать к контексту и пока там он не перегрузится, можно обогащать выборку, продолжать собирать, например, использовать
158: Данные в диалоге, вы сами уверены, этим все пользовались. Как там или пользуетесь, когда вы пишите статью там лмкой, и вы каждый следующий кусок туда подгружаете. У вас получается лучше и лучше. Вот, ну, семантик 0.
159: Понятно. Там подгрузили какую-то книжку на чанки, разбили достаточно примитивно. Понятно, что лмм. Не должна все книги в мире читать, тем более закрытые авторскими правами, или там статьи, которые вы сейчас хотите туда подгрузить, они только вчера вышли в претрейн, это не могло никак попасть. И, наконец,
160: Персонализация, то, чтобы как раз я бы хотел послушать на этот счёт комментарий, как вы у себя персонализируете общение мультиагентной системы с пользователем, за счёт чего это происходит? Неужели действительно надо помнить и ввести вот за пользова
161: Все треки его взаимодействия и насколько это вызывает серьёзные проблемы. Если говорить про те сервисы, которые я разрабатываю, речь о профессиональных вот этих типа нейро юриста, то ответ сейчас никак и это скорее
162: И моё личное мнение, что персонализация там особо не нужна. Во первых, потому что она более прикладная, да, это не какой-то вот такой массовый, требующий
163: Эмоции ассистента, а вот какой-то прикладной инструмент, от которого ты ожидаешь, что он свою функцию будет выполнять, если говорить шире, про ту же, там алису, например, там, конечно же, в этой функции часть профита заложена.
164: Если как-то со стороны я тут могу со стороны пользователя прокомментировать. Мне очень нравится, когда любая лмка запоминает, то в каком формате мне приятно читать диалог. Я не люблю буллиты, например, огромное число буллитов меня иногда раздражает. Люблю хорошие
165: Структурированные абзацы. Вот, кажется, там чат gpt и все остальные этот кейс начинают уметь отрабатывать именно через вот
166: Experience да, когда запоминают эпизоды, что я просил переформатировать ответ, и сразу же начинают это помнить.
167: Ну да, да, то есть, кажется, что вот как это все, что первые 3, это то, что мы, значит, уже имеем. А вот персонализация это то, что nice to have, но пока никто нормально не сделал. Да, она, во первых, следует из предыдущих 3, и what, кажется, её может быть доста.
168: Достаточно, нужна ли какая-то персонализация более глубокая, она как может достигаться изменением систем промта, например, с этими общайся женским голосом, с этим мужским почему-то я вижу здесь перспективы в. Если говорить про b2b.
169: Часть. И там прям супер интересные задачи в автоматизации общения с пользователями в виде, например, sales механик, там ещё каких-то менеджеров, которые занимаются клиентской клиентским взаимодействием. Условно есть барбершоп.
170: Есть какая-то студия, которая делает маникюр и то и то классный бизнес. И мы себе представляем владельцев этого бизнеса уже вот по разному мне кажется это прям какой-то сегмент первых сегмент вторых, они чем-то отличаются.
171: Чем не могу сказать, надо смотреть на практике, и взаимодействие с ними. Может быть каким-то персональным. Представляем, что ассистент звонит 1 и предлагает купить какую-то новую функцию в рекламе и 2 вопрос может ли
172: Он на старте, зная, что это за бизнес быть персонализированным под него. Вот я утверждаю, что да, может, потому что когда слышу, как с else с ними разговаривают, там прям по разному их встречают, и они под это подстраиваются. Вот.
173: И, кажется, такая персонализация может быть, в систем промте прям зашита эти, мужской голос, этот женский. Угу. Не знаю, может быть, это сработает. И надо смотреть на конверсии на самом деле. Угу. Да, очень интересно. Вот теперь немного про навыки, потому что на
174: Это нечто отдельное от памяти. Вот тоже расскажу, как у нас это внедряется в институте. Вот в чем здесь смысл, что мы отдельно разбиваем какие-то, выделяем операционные протоколы в виде последовательности действий, которые должна делать модель, если че там.
175: От них и ключевое слово. Здесь, значит, этот оперейшн просила, чтобы оно не ветвилось. Если он начинает ветвиться, значит, нам надо уже применять какие-то решения. Нам нужны эвристические методы принятия решений. Если мы будем в каждом узле дёргать агента. Ну, во первых, это дорого просто
176: По токенам будет. Во вторых, ну, к концу мы точно не придём никогда. Куда нам нужно. Это как это задача, по моему, на краю утёса называется, мы будем все время с этого утёса падать, как пьяница, который с шагом 50 на 50 куда-то уходит. Вот. Ну и наконец,
177: Нормативные эти всякие ограничения. Ну, то, о чем я говорил, что в медицине свои есть, в финансах, они свои гвардей ещё туда же накатываем. Вот. И собрав это все вместе и грамотно.
178: На это поддав, можно на самом деле довольно сильно сэкономить. Вот действительно не модифицировать каждый раз системный промт, а вызывать просто агента в Нужных местах. И чтобы он делал то, что нужно, я позже расскажу о наших методах, как мы
179: Делаем тут вопрос к вам, тогда применяете вы на практике вот эти скиллы и как вы их выносите? Или действительно системным протом можно решить большую часть проблем.
180: Я думаю, на практике как раз, да, действительно больше подходит 2. И честно, до конца не понял отличия Скилов от того, что можно назвать фанкшн коллинг. Я вот вот здесь, а это, по сути, когда заранее зашито.
181: Как это, какие функции, когда вызывать? А это я понял, у нас называется сценариями. Мы экспериментировали. Ну да, да, когда, да, как будто 1 сценарий, это, по сути, что-то похожее на 1 агента. Способ.
182: Анализировать агентов, когда выкатится 3, 4, 5, 10. Вот задача эта возникнет, пока, кажется, ещё не возникла.
183: Вот дальше тема про протоколы. Тут как раз точно я разбираюсь хуже, чем наш гость. Вот это разные способы Паншин колинга. Вот как кого скиллы когда будут вызывать, значит, положившись на то, что у нас в памят.
184: Записано, положившись, значит, на последовательность действий. А как эти действия, собственно говоря, выполнять, ну, банально, там вы хотите заинтере, чтобы вам он пошёл, там, билеты куда-то купил, вот, или чтобы он вам там прошёл, написал юридическую рекомендацию, как лучше подхо.
185: Ходить вообще к задаче организации протоколов. Вот эмсипи, протокол как стандарт. Это сейчас у вас принято или у вас самописное что-то своё для вызовов?
186: Mcp не всегда принят, потому что это по сути, это ведь просто способ обёртывания апишки угу, не факт, что её надо во что-то оборачивать, если если написать свою некоторую любую функцию менее эффективно.
187: Вопрос, мне кажется, более яркий. Стоит как правильно это описывать и в промте, и в том, что называется трейсы для обучения. Очень рекомендую здесь смотреть, как делает.
188: Потому что та же самая проблема, если мы начинаем сразу же поддерживать какие-то индустриальные стандарты. Угу. То как очень много плюсов возникает от переиспользования готовых внешних датасетов.
189: Обучения до просто поддержки каких-то опенсорс моделей в разных местах, они могут быть полезны все. Некоторым вот единым стандартам сейчас описания функций.
190: Dj сончиков следует и вот их им стоит придерживаться точно, а как в mcp оборачивать это это важно в тех системах, которых можно контрибьютить большому числу разработчиков, а они?
191: И пока теоретически они не практически, а, то есть обычно сейчас система, в которой контрибьют конкретная команда и описывает функции. Вот, и там вообще пишки, ну, внутри тогда внутренние договорённости всегда бьют любые эти протоколы, которые написаны, слишком общее, конечно.
192: Ну, такой больше практический вопрос. Все-таки на вот конкретный фанкшн коллинг внутри. Даже пускай будет 1 проекта лучше унифицировано, стараться делать интерфейс или нет. Я считаю, что да, во многом, потому что обу,
193: Потом 1 модель, которая работает сразу в 5 системах. Я считаю, что крайне и важно, и правильно, и она умнее от этого станет. Ага. Ну да, да, кажется, логично. Вот.
194: Теперь немного об оркестрации, тут мы разобрались, что мы можем, в принципе, все вынести. Вот. Но теперь как раз вот, да, о том, что мы говорили о том, как эти самые сценарии реализовывать самый простой способ реализовывать сценарий. Взаимо.
195: Управление агентами это терминистский, ну на самом деле, тогда это в некотором Роде вырожденный случай, потому что это получается чуть ли не опять снова 1 агент, который по жёсткому этому сиквенсу идёт и что-то делает. А с другой стороны, когда у вас какие-то простые сценарии, вам больше ничего и не нужн,
196: И вы можете в системе наделать много этих самых сценариев, и вроде как она будет мультиагентной, и вам дальше снова встаёт вопрос, как вызывать, когда вызывать, какой сценарий. Вот, ну, банально у нас приходит пользователь на медицинскую консультацию, может быть у него симптомы, ему
197: Плохо и нужно ему активно задавать вопросы, че с ним происходит? А может быть он просто, ему скучно, он хочет сам позадавать вопросы. Вот в разных случаях нужно по разному с ним обращаться и вызывать разные сценарии, потому что в конце у нас будет из него разный вывод, либо мы там за срочно.
198: Вызываем скорую, либо мы и там говорим, вот сюда там звони, либо мы направляем его к специалисту в конце и совсем другой пользовательский путь, либо мы просто продолжаем его развлекать и стараемся его удержать как можно дольше. Заодно ему что-то ещё.
199: Вот здесь как раз у нас работает, по крайней мере, у нас на практике иерархическая система, где у нас мастер агент, который решает, когда мы будем вызывать вот эти детерминистические простые сценарии. Но в таком виде это немного ломает пользова.
200: Путь, потому что если пользователь сам, например, должен выбирать, что он сейчас хочет, людям, почему-то это очень не нравится. Я вот, например, не могу никогда понять, я предпочитаю сам решать, кому я там хочу пойти и что я хочу делать. Вот сталкивались ли вы
201: Таким, что у вас пользователи не знают, че хотят.
202: Ну, тут, если задача, то обычно все её описывают правильно. Мне кажется, у пользователей есть другой, другая особенность. Они не знают то, что вообще можно. Угу. Сейчас.
203: Когда тот же самый поиск в яндексе становится агентским, есть очень интересный переход от того, что теперь запросы в поиск могут быть не из 3 слов, состоящие, а из 3 абзацев, и поиск.
204: Этот запрос сделает энное количество как раз, да, агентских, вот, и в иерархическом плане собранных запросов структурирует информацию и выдаст. Например, это может быть, найди 3 подобных товара, сравни.
205: И вот эти показатели у них. И Выдай мне какую-то сводную таблицу. То, что поиск такое умеет, никто не знает. Угу. И проблема не в том, чтобы пользователь описал как-то свою задачу, а в том, чтобы он в целом даже понял, что так можно.
206: Угу. Этому ещё нам, да, учитьучить, как показать, как показать пользователю, а что мы можем, да, но без того, чтобы он должен был что-то решать, а просто бы его развлекали, это очень сложно. Это просто очень убойная задача. Интересная задача.
207: Вот, то есть нужно быть одновременно и очень хорошо реагировать на все, что он делает, но при этом проактивно его двигать, продолжать туда. Ну, по сути, да, это анбординг в технологию отдельная, мне кажется, очень, очень развесистая, интересная тема, ну, в том числе
208: Поэтому начал с того, что внедрять все эти системы, очень сказать, я бы даже сказал уже не то, что даже осуществимо, это легко делать к специалистам профильным, но очень тяжело на пользователей, которые не являются профильными специалистами. Специалист знает, че ему нужно. Ну,
209: Любому юрист, он точно знает, че ему, где искать. Короче, в этом раге, и очень быстро там будет находить нужные куски. Ой, не, вообще нет. Да, да, да. Ну, то есть интересно, они как бы знают, но хотят ли
210: Ой, так хорошо, что от этой рутины нас избавляют. И прописывать каждый раз, что именно в какой стране. Угу. Тоже не так интересно, потому что на самом деле у многих свои собственные паттерны.
211: Они не то чтобы оптимальны, да, ты всегда, допустим, раньше искал вот так, вот так, вот так. Но когда общий запрос в агентскую систему записал, она ищет по другому, и результат другой, он часто тебе нравится больше, во первых, потому что
212: Так, не знал, что так можно. Есть какая-то новизна. И это такая вау, часть продукта, зачастую, поэтому обычно не пишут. Угу. Уточнение, как именно надо искать. Хорошо, теперь перейду к новому.
213: Вызову и даже больше. Уже наконец начинаю рассказывать о том, что мы сами здесь делаем в институте. Это то, с чего вы начали. Сказали, что 80% выбить легко, 95 нужно костьми лечь. Вот у нас есть хорошие кейсы, как мы смогли все
214: Toki это преодолеть этот барьер, скажем так, а более того, обобщить методы преодоления этого барьера, чтобы попробовать в других случаях тоже их применять, и сейчас с успехом их применяем вот у нас раздел назвал обратная сторона креативности.
215: Потому что это то та самая причина креативность моделей, почему мы так легко выбиваем умеренные метрики. Но нам так тяжело выбить хорошие, потому что все, что мы делаем, основано здесь на статистических моделях. Они, вообще говоря, не учились быть агентами, они учили
216: Просто предсказывать следующее слово, которое нам нужно, они, как это я бы сказал, немножко, даже, может, немножко отличается от того, как выглядит настоящее, корректное, логическое рассуж.
217: Поэтому когда вышел, я помню, и все хайпили на ризонинг, то so called reasoning мне очень прям горело, потому что для меня это было похоже просто на речь шизофреника, который там сам с собой разговаривает, обогащает сам себе контекст и в конце концо
218: Начинает заговариваться, поэтому я сразу эту штуку просто везде выключаю. Если я где-то её вижу и у меня все прекрасно в общении с моделями, они меня не раздражают. Так вот ответ то какой должен быть ответ на вот это вот все. Как можно попробовать обобщить задачу
219: Подъёма метрик за счёт снижения количества ошибок, перехода к некому подобию, даже пускай уже не имитации, вот уже не имитации, но ееще подобию ли этих логических рассуждений здесь рас?
220: Покажу на примере того, как у нас коллеги строили в группе финансового ассистента, который должен выполнять многоэтапные расчёты. Вот, например, какого-то показателя нету, он его рагом нашёл как бы какие-то показатели, из которых он рассчитывается, но
221: В самом документе нет этого показателя, как его посчитать? Ну, скажи, лм, посчитай. Ну, она посчитает, перемножит несколько миллионов там тензеров, чтобы посчитать 2 + 2, и ошибётся вот проводить анализ зависимостей. А как разные показатели связаны друг с другом?
222: Чтобы выдавать какой-то вердикт, проводить дополнительную интерпретацию регулятивных текстов, казалось бы, тоже рагом подтягиваем, но как мы подтянули, если мы изначально неправильно посчитали, или не тот показатель и уже у нас все сломалось, нужна какая-то цепочка принять?
223: Решение, которое позволит нам правильно провести интерпретацию, построение аргументированных ответов. Опять же, то, что лм, называется аргументацией. Вообще вот эти навыки общения, когда что-то не как кто-то с ней не согласен, но это просто, по моему, ужас.
224: Потому что просто как студент троешник всегда пытается подмазаться и говорит, ой, нет, я вообще не это имела ввиду, это вот совершенно ужасно. И тоже тоже расскажу о другом методе борьбы с этой напастью. Ну и, наконец, там какое-то извлечение.
225: Информация, опять же основанная на многоэтапных рассуждениях, то есть как построить то, что уже будет больше похоже на настоящий ризонинг, а не на имитацию. Вот. И здесь мы как раз перешли вот к тому, что общение с настоящими экспертами в доменной области
226: Всегда оно ломает все границы и представления. Во первых, потому что действительно эксперт сам не знает, как он делает ту или иную вещь. Он за 10 лет, может быть, научился, она у него глубоко в подсознании сидит, но вытянуть из него последовательность его действий надо просто клещами тут
227: Просто написан опрос, на самом деле это больше напоминает пытку, потому что эксперт сопротивляется и не хочет говорить, что что же он делает, он и сам не знает. Вот ему нужно это показывать. Не только скажу там с финансами, это тоже самое с инженерами, которые там
228: Рисуют какие-то проекты в Каде, как и что они делают это ужас даже форматах таблиц, это ужасная вещь, которую не то что lean там человек с трудом прочитает, что там, где берет.
229: Вот дальше, вытащив эти знания, надо разделить их на тематические цепочки. Проделав группировку. Её, кстати, можно довольно неплохо делать уже искусственным интеллектом. Когда у вас уже все есть, он вам сможет
230: Провести логику и структурировать. Вот. И для этого мы разработали открытую библиотеку. Сейчас у нас готовится статья на нипс по коллаборативном ризонинг, где все вот
231: Эти вот детали, они собраны сразу в 1 готовый инструмент, которым можно спокойно пользоваться. И просто, если вы сами, например, являетесь экспертом в какой-то области, попробовать самостоятельно прописать цепочку и заставить лм делать, значит, коллинг уже
232: Правильно, по шагам.
233: Вот, ладно, минутка до рекламы была. Вот думаю, у нас скоро будет доклад, посвящённый конкретно этой системе, не обязательно на семинаре. Я единственное там не понял основную мысль. Я правильно понимаю, что если эксперт выгружает цепочки?
234: Это помогает дообучать? Да, да, мы просто эти цепочки пробили, и у нас сразу там подскочило выше 90. Как это помогает? В смысле, это особый способ Промкин или элаймента.
235: Скорее, это помогает построить правильно сценарий колинга, то, о чем я говорил. То есть скилл.
236: А, то есть, да, функции описать, исходя из этого. Ага. И когда какие вызывать? Ну, то есть протирание, получается, ну, по сути, ближе к этому, да, но при этом, если мы посадим просто эксперта и скажем, типа промти ую, так не получится. Вот это, да, да, да, я про другое, что как
237: Прописать весь пром на основе опыта эксперта, я так понимаю, вот этот мостик, да? Угу. Интересно, вот дальше много сегодня говорил о том, как сказать. В community сейчас говорят о том, что надо это вынести, то вынести.
238: Приведу к Такому общему знаменателю, тем, как у нас сейчас этим занимаются в институте, как мы строим свою экосистему внутреннюю, которая позволит реализовать все, о чем я говорил, и, может быть, даже частично преодолеть эти проблемы, которые сегодня были озвучены. Во первых,
239: То, что я начал с того, что тяжело читать разные ллм, особенно если у нас вендерлок, ну, все знают, какая сейчас ситуация с доступом, например, к зарубежным ресурсам. Вот у нас есть свой сервис локального инфис у вас, я уверен, тоже все есть у вас, все локально.
240: Вот, который позволяет в нашем случае позволяет любому желающему забронировать ресурсы и загрузить свою модель как раз и начать её исполнять. Там будет, у него будет уже стандартизированный интерфейс. Вот он сможет легко с ним работать и быстро дальше.
241: То, что у нас сейчас называется харнесс, тогда это ещё такого слова не было. Когда мы это написали, мы называли маэстро. Это как мультидент, экосистем, которая закрывает технические нефункциональные требования. Вот нефункциональные с точки зрения
242: Выполнение задачи агента. Например, авторизация тоже самое обращение к разным, лмка, стандартизация ответов, вопросов, и в том числе туда же мы включили этот самый коллаборативный ризонинг, чтобы можно было быстр.
243: Построить процессы и цепочки действий. Вот. И отдельно у нас команда работает в институте над эволюционным механизмом развития, который позволяет автономно улучшать процессы и поднимать
244: Метрики вот гига, эва, которая, ну, по сути, как этот наш ответ. Альфа a wolf.
245: Самое главное, что поскольку они у нас все делаются в 1 месте, то можно очень быстро их все связать при подъёме, потому что они все связаны и сделаны соседними командами. И в перспективе мы идём к тому, что когда это все будет закончено, наконец, мы сможем полностью автоматизироват
246: Построение бизнес логики до обучения, жизненный цикл каких-то, пускай для начала простых агентов и мультиагентных систем.
247: Вот. Дальше, если сейчас все тренды идут в ту сторону, что зачем нам иметь все память в весах, если у нас уже есть отдельное мемори, если у нас уже скиллы отдельно записаны последовательности действий, если у нас уже вытащили вообще все, что
248: Можно, а нельзя ли вытащить тогда из весов, облегчить модель и сделать ядро, которое будет более вычислительно эффективно и которое не будет ничего помнить, а будет просто бегать всегда во вне, за информацией, как мы сейчас, в принципе, от модели?
249: И мультиагентных систем все и хотим. Вот, например, сейчас у нас этой проблемой называли оптимал когнитив кор, то есть вытащить из модели как раз ядро, которое что-то делает, но при этом ничего само не помнит. Вот уже реализован контекстный
250: Который то, что, как мне кажется, совершенно недоступно, пока для большинства современных моделей может отвечать, я не знаю, а не говорить, что, а я всегда так и думал, вы абсолютно правы. А он честно говорит, я там не нашёл, не знаю, вот в контексте нету.
251: Потому что не подали. Ну и вычислительная эффективность и компактность уже на уровне. Интересно, получится ли её дальше удержать. Вот, а следующий шаг, тогда как только это будет готово, засовываем это агентное ядро и, в принципе, дальше
252: Просто скиллы накидываем, пусть даже синтетические данные можно будет очень быстро, вычислительно, эффективно. Вот как раз пропадёт та проблема, о которой вы сразу говорили, что тяжело делать много фашн коллинг, тяжело делать много вызовов агентов. Если у вас очень Лёгкая модель, вы можете позволить
253: Тебе гораздо больше агентов, значит, более высокую надёжность на самом деле, чтобы они друг друга страховали. И пусть даже это маленькое ядро, оно будет не такое умное, там гораздо меньше будет знать, чем лмка, но оно само себя подстрахует и закроет гораздо больше задач, а главное дёшево подстрахует.
254: Это что значит? Ну, например?
255: В 1 кусок, как я вижу, тоже, как практик в 1 кусок дали 1, 1 часть информации, в другую, другую. Вот. И сейчас, м, у нас, ну, по любому у вас веса есть общие, которые, поэтому дозирование информации, оно помогает, но не всегда. А здесь вы можете выбирать, перекрывая информацию, потом синтезии.
256: Общий ответ. Так, ну как у вас, когда эти студенты работают над проектом, вы дали разному разные задачки и, главное, разные статьи почитать. А потом в конце собрали. Чем у вас 1 будет все сидеть, пыхтеть. А я подумал, что подстрахует в случа.
257: И отказа, да, да. 1. Вот в этом случае как раз имеется ввиду, что если 1 отказывает, то мы без него, ну, во первых, без него у нас здесь достигается ифл сейф, что мы без него ответ сформируем, пусть он там может быть
258: Такой хороший, но пользователь, пользователь должен вполне устроить. Угу. Вот. А во вторых, качество в целом повысить. То есть в данном случае, кажется, добавление агентов может нам растить качество напрямую, когда больше операций будет
259: Выполняться, они последовательно будут друг друга проверять, но это только гипотеза сейчас. Угу. Непонятно, как это будет работать на самом деле, потому что задача пока не решена. Вот на чем свой доклад пока и завершаю. Спасибо за внимание.
260: Да, отлично неожиданно так Илья сразу завершил хотя ещё 5 минут у нас там оставалось вот но на самом деле на очень важной интересной теме про cognitive кор но прежде чем коллеги перейти к вопросам, которые у нас накопились и
261: И из офлайна, из онлайна. Серёж, ну у тебя есть возможность сейчас такой свой собственный итог впечатлений подвести. Вот контекст наполнился в течение этого часа, да, вот какой саморы ты бы мог дать ему? Я бы даже
262: Спросил, если можно к 1 самому слайду вернуться, чтобы, ну, очень много, да, такого интересного контента много. В разные закупки мы зашли даже предыдущий. Вот, а перед тем, как самый
263: Вот спросить. И все-таки мультиагентные системы относительно сингл эджент, если подытожить они сейчас на каком уровне это теория или уже практически?
264: Какие-то вещи можно запускать и делать это эффективно. Практические вещи можно запускать. Проблема только в том, что каждого отдельного агента нужно через кб протащить и модель, которая, да, да, и модельку. А так, с точки зрения готовности качества
265: Можно, я думаю, уверен, что можно уже внедрять. Вот мы в том числе этим занимаемся. Идёт тяжело.
266: Да, у меня примерно такое же мнение, если говорить вот со стороны практики, во первых, всегда рад присутствовать вот в месте, где можно некоторое овервью дать гипотез, потому чт,
267: Гипотеза сегодня это то, что мы на практике будем внедрять через полгода и насмотренность именно поэтому обожаю и конференции ввиду вот этого лага от статьи до продакшена, он каждый раз уменьшается и надо прям нос по
268: Держать. Поэтому мне супер интересная, да, рад был быть здесь и с вами эту тему обсуждать. Если говорить от лица практика, то, во первых, это все уже в каком-то виде, в
269: Так, не появляются и те проблемы, которые сегодня затрагивались, они прям актуальны, они немного под другим углом рассматриваются не, не в терминах как раз зачастую в терминах скорости, в терминах стоимости мы
270: Практике, когда, например, принимаем решение, как действовать, как промтите, как собирать, все упирается в том, как делать быстрее, быстрее, быстрее, быстрее. Вот это прям самое главное здесь можно, если через эту часть
271: Посмотреть, то, наверное, переходы относительно вообще каких-то классических поисковых систем типа рага, они ещё в агентские не перешли. Ну, в смысле не все.
272: Не все на практике, что можно было в виде рага описать и запустить сервис, взять и в агентский фанкшн коллинг собрать то, что мы увидим. Рост качества может быть процентов на 5 10.
273: А рост скорости в 20 раз. То есть и что тогда зачем пользователю в 20 раз дольше ждать, если можно оставить классический раб какой-то задачи и получать свет быстрее, как эту?
274: Штуку резолвить надо, качество в 2 раза сначала вырастить и тогда пользователь будет готов ждать подольше, или надо все сделать в оптимизацию, или вообще, если rock работает, оставить и пусть работает и, может быть, его дотачивать.
275: И все-таки есть там место большому окну контекста. Вот это вопрос нерешённый, но очень интересный. Как раз развитие подобных систем нам на него ответы даст. Ну есть же такой вариант такого бвт в код агент.
276: Посмотреть, пока он ещё продолжает думать промежуточный результат и кого-то это вполне устроит, быстро получить что-то такое примерное и что-то начать с этим делать, а потом вернуться и посмотреть итоговые хороший ответ.
277: Часто вот такой компромисс, да, пользователей устраивает ещё, опять же, у нас тоже. То есть, когда нужно быстро, быстро что-то набрать, все, что-то первичное увидел, пошёл дальше с этим делать, а запрос дальше доделывается, и ты там что-то уже сделал, вернулся. А что в итоге то точно.
278: Такой ответ точный, да, вот это точно. И вот большинство прям людей очень устраивает 2 способ. Это наличие кнопки. Думай долго. Ну, как-то это называется, да, у всех систем по разному. Какая
279: Это сложная задача условно. И в таком случае, если это сложная задача, пользователь сам в этом сознался, ну, это на него как бы такой накладывает серьёзные ограничения. Он и так-то не знает, как всем этим пользоваться, а ещё решить, когда че то
280: Включать, че то не включать, это прям овер, зато он в интерфейсе тут же знает, что оказывается сложную задачу тоже можно давать. И это на это правда. Ну, на полгода можно просто эта кнопка думать, она часто очень сильно вводит в заблуждение. То есть, вот, ну, если думать, то да.
281: Человек думает, а как можно мою задачу не решить, не думая? Да нет, нужно всегда думать. Вот, конечно, пусть думает, мы тут прикольную дискуссию отправили. Это Ровно раскрытие того, что на практике происходит. Мы не мультиагентными системами за
282: Занимаемся, думаем, как кнопку нажать, чтобы пользоваться вот именно, чтобы он правильно нужный момент. Ну ладно, хорошо, спасибо, Сергей. Товарищ. Переходим к фазе дискуссии. Если у вас есть вопросы, у нас прекрасная Алина тут поможет вам дать голос. Так что не стес.
283: Можно представиться даже при желании, да, спасибо за доклад. Меня зовут Миша Гончаров. Я как раз в команде оптимал когнитив кор. Вот. И в связи с этим, да, хочу спросить вот что вот.
284: Ты говорил про харнесс? Угу. И про то, что и вот из каких компонент, оно состоит, там скиллы, протокол, память внешняя. Вот. И что это вообще некоторое, как бы, продолжение истории про контекст, да, чтоб был вот.
285: Текст вот это все теперь ееще харнесс. Вот это все и все мы стараемся вынести из модели. Можешь ли порассуждать на тему того, во первых, что тогда должно в модели остаться? То есть все-таки, что мы не можем
286: Вытащить из лмок. Вот. И 2 вопрос, соответственно, что принципиально. То есть надо вытаскивать в харнесс и какие как бы есть архитектуры этих харнесс, такие принципиальные и
287: К чему вообще сходится? То есть понятно, что есть разные харнесы, да, их все там делают, как считают нужным, да, там у вас вот маэстро у нас в смысле маэстро, да, у там кого-то ещё, что-то ещё есть разные архитектуры, там, не знаю, вот была в какой-то момент, выходил там.
288: Курсе флангу, моделс там тоже такая вот как бы архитектура харнесс, можно сказать все-таки какие есть принципиальные подходы к тому, как строить харнесс и, соответственно, как бы, что и принципиальные подходы к тому, что должно оставаться в модели. А вот пока
289: Только как это сказать? В том и дело, что даже в академии это пока только рассуждение на тему, как, как он, а как он должен выглядеть, а куда там все смотрят, а чего все хотят? Вот я, например, считаю, что как раз оптимал, корто нам и нужен. Вот то, что должно остаться изначально задача была поставлена абсолютн.
290: Правильно и только сейчас вот это вот я смотрел там самые свежие статьи вот этого года, даже ещё при принты, что вот только, только это все, как это из ноосферы сублимируется уже во что-то
291: Ну, сублимируется то очень быстро, Илья, это правда, это настолько быстро сублимируется, что вот уже 2 месяца висит статья авто харнесс. Вот мы тут думаем, какой харнес из этого всего. Лучше. Давайте ручками тот попробуем, тот, 3, 4, а люди
292: Уже 2 месяца назад выложили, а значит, сделали уже полгода назад авто харнесс. Ну, понимаешь, и вот эта скорость прогресса, она, ну, как бы серьёзно, ну, авто ещё, значит, не значит оптимал, вот авто показано, что
293: Лучше, чем хэн крафт харнесс. Вот это, конечно, не optimal, но лучше, чем-то, что ты ручками составляешь, делая план тулконович, лучше.
294: На бенчмарке автора и или как опять же, на практике, скепсис свой относительно академических статей ты уже высказал, да, но тем не менее, в них есть определённая как бы уверенность, особенно, если это от заслуженных людей, которые, ну,
295: В целом лажу, как говорится, не выпускают, можно этому доверять.
296: Ну, в общем, ответ, я так понимаю, ильи то, что, да, есть разные варианты, но оптимального нет. И, но он обязательно будет вот так. Ну, он, типа, будет. Да ладно, я бы на самом деле тут добавил ещё к из онлай.
297: Вопрос про оптимал когнитив кор и сам своего контекста к этому добавлю ну вот если мы действительно все выносим из оптимал кор да, вопрос риторический, никто не может на него ответить, что там в нём остаётся какая-то
298: Мета, когнитивная функция или там или набор этих когнитивных функций как-то это сублимируется веса. Ну предположим, все это сделано, но обычно маленькая модель и маленький трансформер влечёт за собой маленький контекст, с которым она может работать, это практически
299: Ну, как бы, такие очень часто коррелирующие вещи. Угу. И ужимая когнитив кор, не работая с современными, более сильными инструментами и методами расширения контекста, мы
300: Ну, как бы себя загоняем в угол. То есть вот что делать, когда мы все выносим наружу, а потом с этой наружу, нужно в эту маленькую модельку это опять все впихнуть через контекст, который будет раздуваться просто неимоверно это
301: Получается, мы как бы такой contradiction наступаем, да, все выносим, а потом обратно хотим запихнуть. Ну это же как-то это может вызвать следующую проблему. Тут тоже, мне кажется, достаточно очевидно, что когда нам нужно всунуть достаточно большое
302: Текст, и мы, допустим, начнём его рубить на чанки. Нам придётся такое количество вызовов этой модели сделать, что это может, что вызвать проблему уже само по себе. Между тем, сколько было весов в большой модели и в этой маленькой она начнёт теряться. Ну, такая же проблема, как с соматизацией, что обучая модель
303: С более низким разрешением мы должны увеличивать число весов, чтобы сохранить точность. В итоге общее количество вычислений может вызвать проблемы те же. Вот я от себя вот это добавлю, как бы, как, как ты отнесёшься к этому мнению? Да, что нельзя сделать?
304: Cognitive кор на современных методов расширения контекста. Типа там чанкинг, слайдинг, виндоу надо сначала сделать потенциально бесконечный контекст. Ну я уж не буду говорить там про рекуррентные модели, да, но вот
305: Что-то типа такого. И только после этого можно реально обучать когнитив кор. Я думаю надо экспериментировать. Вот тут я точно тебе скажу, что я сразу не отвечу. Более того, мало кто возьмётся сделать такое предсказание, так сказать, не безошибочное сория.
306: Добавлю вот на ваш вопрос если можно как раз-таки с длинным контекстом можно тоже работать. Хит, ну не пихать его целиком. Весь в model за 1 там форвард пас, а именно хитрый харнесс для этого делать, чтобы она его
307: Раскурочивал по шагам. Ну это интересно, мы не будем сейчас в эту дискуссию, можно потом, да, будет это обсудить, но на самом деле это все как бы сводится к какой-то суммаризации. А суммаризация это всегда часто потеря информации.
308: А вопрос именно в том, когда ты не хочешь терять информацию и тебе нужно её. А часто, когда мы вносим все из когнитив кор, это как раз то, где мы не хотим терять информацию. Вот, поэтому вот как бы этот ханнес не спасёт в этом смысле.
309: Все равно такой и останется, спасёт только более точное, более точные, экстрактивные и экстремальные экстрактивные методы, которые будут извлекать нужную информацию без потери. Ну, я это представляю, как, когда человек там работает, вот, и
310: Писывает себе что-то, делает какие-то выписки, вот, или там копипастит, вот, чтобы потом и карточек составляет, да? Во, во, во, ну ладно, это все как бы другой вопрос. Вот он тоже проскакивал здесь ничего не сказали про
311: Популярную сейчас тему с графами знаний. Вот, и вроде бы у нас в институте тоже эта тема такая достаточно популярная. Почему ты обошёл в своём докладе вниманием эту очень важную область? Процитирую знакомого специалиста как раз
312: Графом знаний памяти. Когда я его спросил, я не буду говорить, кто это, но он мне сказал, что типа, а че уже там эти графы сейчас все засунем в ндфайл и нормально все будет, буквально так понятно, мне здесь нечего добавить. То есть ты согласен с этим напра.
313: Практике. Мне лично гораздо проще совать все в ндфайл, чем поднимать граф. И на внедрение. Такая система заедет точно гораздо быстрее. Класс. Хорошо, спасибо. Вот это чёткий ответ. Так, коллеги, ещё, ещё вопросы.
314: Так, я тогда ещё парочку из онлайна задам. Там в начале был такой вопрос, он касался какой-то информации на 13 слайде. Можешь листануть на всякий случай. Там товарищ как раз про это спрашивал, он говорил про
315: По вот эту архитектуру, что действительно агент будет как центральный процессор в компьютере, где память и прочее отдельно. То есть вот эта вот вся концепция именно как фонемой архитектура, но только вот на уровне не как раз мне кажется,
316: Это нечто противоположное, ведь суть архитектуры, если я правильно помню, тоже поправь меня в том, что у нас данные программы лежат в 1 месте и по сути программа это тоже данные. А здесь то подход прямо противоположный вопрос был про то, что вот процессор с регистрами обсчёта
317: Отдельно, а оперативка и долговременная память отдельно в этом плане. Да, да, вот в этом плане, конечно, и получается, все утыкается в то, что нужно придумать универсальный набор регистров и правил работы с ними, да, и
318: Нормальный экстрактор информации, сделать, который будет во всем этом вращаться. Быстрый вопрос. Товарищ очень все-таки интересуется, как вредоносного агента в продакшн систему внедрить. А только если у вас есть платформа, куда пользователи могут загружать своих агентов. А если
319: Нет, если нет, ну тогда не получится внедрить все-таки не получится. Да, тогда вопрос. Чтобы не давать себе такую дырку, надо просто не позволять своих агентов, поэтому это пока никто, никто и не позволил, хотя об этом много говорят, и в том числе у нас в
320: Организации, ну, в более широком смысле, но на практике пока нет. Есть там какие-то гига, инструменты, но чтоб гига эджен заработал там и позволил всем че угодно подключать. Такого пока нет. Угу. Хорошо. Ещё вот вопрос, товарищи, есть
321: Если есть вживую, да, пожалуйста, да, у меня такой вопрос, а как-то уже обсуждается о том, как вот, вот эти вот все системы коммуницировать, ну, там, обществу и пользователям, да, то есть, ну, кажется, что, ну, это очень, ну, это
322: Как с продуктами работать, грубо говоря, да, потому что часто, ну, наверное, большинство юзеров сейчас они, как бы, вот пользуюсь вот этими системами, они не понимают, как они под капотом работают, и просто тестят их, да, то есть, вот, ну, и пытаются то, что, ну,
323: Понять это, да, как, какая оптимальная система, да, то есть вот есть там всякие вот эти альянсы в России, там, в сфере искусственного интеллекта, там шта, ну, в мировых есть какие-то, но это в принципе, полезно кажется, что это в принципе
324: Самим же исследователям и самим же компаниям полезно, да, делать так, чтобы люди знали сразу перед, перед использованием, чтобы они знали, че там под капотом. Ну вот, ну насколько и как.
325: Вы задаёте, я правильно понимаю, что это прозрачность? Да, да, да. Агентов в задачах пользователей, ну, что-то такое, да, знаю, что, естественно, есть какие-то тайны и так далее. Ну вот как к этому, то есть, может быть, есть какие-то статьи об этом уже, да, о том, как к этому подходить, как это вообще должн.
326: Работать. Как это дальше? Дальше будет развиваться? Не, ну, на практике, чем меньше пользователь знает, тем лучше, конечно. Ну вы что, опять же, много пользователей знает, современным, по которым он пользуется, как оно внутри устроено. Кто там из, у нас, из рядовых пользователей компьютера скажет вообще, как работае.
327: Это операционная система. И что такое арифметика логическая? Не, ну, Илья, тут все-таки в защиту вопроса то выступлю. 1 дело знать там программную реализацию не специалисту, другое дело дать не специалисту доступ к системному промту. Ну, кажется, он там все поймёт.
328: В этом плане, но как у нас сейчас, запрос есть конкретный там от заказчиков, что вопрос, почему бы не дать пользователю доступа к системному промту и для него все будет прозрачно, так безопасность не разрешит. Нет, не доступ.
329: Имеется ввиду хотя бы в его, да, чтобы он мог в любой момент посмотреть, а какие, ну, какой пром сейчас находится там в контексте модели, ну, когда, не меняя его.
330: Практически, мне кажется, эта задача практически неразрешимая, но это все равно что листинги кода пользователю выложить сейчас. То есть у нас там даже на простеньком каком-нибудь медицинском помощнике, который просто консультацию пишет, там количество этих Промтов, которые вызываются в течение 1 пользовательского Кола, и их
331: Копьём. Он уже таков, что че я не верю, что пользователь будет это просто даже читать. А зачем это, кстати, пользователю? Да? Ну вот прозрачность. Вопрос был в прозрачности. Есть такие дотошные пользователи, которые хотят быть уверены, что туда не внесли какой
332: Бас и ответ, который был выдан, не смещён. Я могу, ну, уточнить, то есть, давайте, чем чем более сложную штуку мы строим, да, тем и пользователь тоже становится более сложным. Ну, то есть, ну, сложная штука.
333: Не будет пользоваться простой пользователь, скорее всего, почему будет, ну, ну, то есть доля этих пользователей будет больше, да, то есть, ну, в этом смысле, как бы, с ними вопрос коммуникации становится более важным, кажется. Ну ладно, как бы, давайте, да, завершим этот вопрос, то есть
334: Предположим, есть все-таки запрос от определённой части пользователя повысить прозрачность, доверие к системе за счёт того, что он будет видеть какую-то часть того, как в ней это все процессится. Можно создать для пользователя имитацию того, как это будет выглядеть. И в данном случае это решит вопрос. Хорошо показывать, как эт
335: На самом деле работает, но это все равно что пользователю все логи системы вывалить. Он ничего в них не поймёт просто, что там происходит. Но можно создать красивую имитацию, чтобы он думал, что он понимает. Да, проблема. Ты что, думаешь, ты часто все-таки близок к людям? Я думаю, что
336: Если таких пользователей 1%, и у них, ну, никто не знает точно, сколько их на самом. Да, да, да. Я вот я и говорю, если, если 1%, то не страшно не давать, да, а если все-таки их больше, вот реально.
337: Если бы всегда же есть вопрос повышения доверия к системе. Так ведь и он точно стоит, и это касается, ну, половины пользователей. Многие, ну, половина доверяет, половина нет, ну или там 20%. Неважно, за них стоит побороться в этом плане.
338: На самом деле здесь же можно обратиться к существующим алгоритмам, которые уже давным давно на практике работают, взять хотя бы поиск, почему поиск выдал именно 10 этих Урлов на выдаче, конечно.
339: Же этим пользователям интересно, говорим ли мы об этом? Нет. Почему мы все-таки говорим, когда, например, говорим о, а это промо, оо, а это промо. Вот если промо, то да, ну, тем не менее, то есть уже часть своего алгоритма раскрываете для того, чтобы и это вынужденно
340: Конечно, чтобы доверить доверие пользователя, повысить, чтобы доверие пользователя повысить, мы говорим, да, вот эти отранжированные с точки зрения как бы бесплатного
341: Присутствие некоторым полезным образом, а вот за эти ссылки кто-то нам заплатил, и мы в этом признаемся. При том, это при том, нигде же вы не говорите, что там, где нет промо, там тоже не учитывается оплата тех, кто хочет, чтобы их выдача была моё мнени.
342: Что пользователю рассказывать не нужно, и, вообще говоря, о том, почему что-то отранжировал сь, таким образом рассказывать как можно меньше, но ему должно быть комфортно и понятно, и можно было доверять этому, нет же.
343: Ни у кого вопросов на тему того, почему та или иная ссылка 1. Ну, в смысле, кроме тем, у тех, у кого занимается, кто занимается. Ну ладно, хорошо. Все-таки вопрос реально важный. Давайте ещё полминутки на это потратим. А вот если мы говорим не про обычного, пользовател
344: Который, ну, не опытный, да, скажем так. А про специалиста, когда мы говорим про систему для профессионала, для того же юриста, например, вот ему уж точно нужно давать всю необходимую информацию, чтобы он, беря ответственность на себя.
345: Да, все-таки он же пользуется. Ответственность все равно на нём, чтобы он пользовался этим, да, но ему в этом месте интересно не то, с какими поисковыми запросами агент пошёл, а то можно ли доверять финальному результату? И здесь работает не вещь.
346: Какой-то ризонинг и так далее. А тупо ссылки, на которые ссылается тот или иной агент. Если там есть вот условно судебная практика, на которую агент сослался, нужно дать возможность по ней пройти.
347: Убедиться, что она была, посмотреть, можно ли на неё сослаться, перечитать, прежде чем забирать её, допустим, для своего какого-то кейса. Хорошо, но это не обеспечивает доверие человеку, полноте найденной информации. Это так, да, вот это
348: Повышает доверие тому, что найдено, но не повышает уверенность в том, что полнота выдачи обеспечена.
349: А вот как раз когда мы смотрим подноготную часть типа Промтов, вот эта уверенность полноты, она может повыситься для специалиста, который занимается эмэлем, а для юриста ни в коем случае. Он вообще хорошо. Ну, для него это
350: Товарищи, ну все, ну почему там товарищи, это в дискуссию договорились, это в дискуссию. Я здесь полностью согласен. Я понял, что вы, да, все согласны с этим. Тут я с вами не согласен, но и коллега тоже нет.
351: Но тут, а тут такой, здесь же тоже обсуждали у вас опыта больше взять хотя бы алгоритм поиска. Вот до всех нейросетей Бертов, которые на другой уровень как-то ранжирования перевели, раньше было 3000.
352: Фичей, которыми матрикснет орудовал. Стоило ли кому-нибудь рассказывать, что это за фичи? Ни в коем случае же нет, потому что люди 1 делом будут не те, которым важно доверие этим пользоваться, а те, которые хотят обойти систему в
353: Себе с какой-то пользой, но при этом ухудшив пользовательский опыт. Это просто Чёрная сеооптимизация накрутить фичи для себя, вывести запросы повыше и этим могут пользоваться мошенники, которые сайты там какие-то делают 1.
354: Ему очень важно накручивать. Смотри, я, я немножко знаком как бы с безопасностью. И на самом деле, когда ты человеку подставляешь то место, через которое он может тебе залезть, это 1 из главных способов защиты.
355: Понимаешь? Потому что это значит, что 99 людей пойдут туда, да, вот все же ленивые и будут тебя ломать именно через вот это окошечко, которое ты ему подставил, а ты ему там бас, бас, бас и все. Он даже не заметил, что ты его уже завёл куда-то в песочницу, и он там вроде как
356: Кажется, ему все хорошо, он всю информацию забирает, а на самом деле все под контролем, да, но это и это 1 из реально работающих способов защиты в системах. И это нормально. Ты выдал системный промт, и тот побежал его ломать тут вот так так. А у тебя уже все города.
357: Это давно просчитан, и это на самом деле уверенность в системе, как бы, которая иногда даже повысит твою защиту. Ну ладно, а вообще, может быть валидно. То есть че это не самое лучшее?
358: Но это больше похоже на аргумент с какой-то вот такой ширмой. Если гардрейл не показываем, это же значит, тоже прозрачности не даём. Ну ладно, хорошо, давайте, товарищи, ещё пару вопросов интересных есть, а то время совсем заканчивается. Мне кажется, важный вопрос был тут в онлайне.
359: Я его немножко переформулирую. А вот все-таки для тех, кто занимается многоагентными системами, я вот тоже занимаюсь многоагентными системами в реле для нас всегда был вопрос, вот где граница между тем, что может сделать 1 агент и где действительно
360: Нужно много агентов, особенно когда мы говорим про лмки, где каждая лмка и каждый агент, да, это 1 и та же лмка, просто промты разные. И почему бы нам все не сделать 1 моделью, даже если мы можем снять вопрос? Параллель?
361: Там вот этого всего остального. Вот вопрос гетерогенности, мультифункциональности, он только через промт задаётся. A prompt мы можем загонять в 1 и ту же модель все время, где вот эта мультиагентность настоящая.
362: Когда у тебя на самом деле везде 1 агент работает просто вот с разными промтами, можно ли это назвать настоящей мультиагентность?
363: Это очень, на самом деле очень сложный вопрос, если вы, не, ну, если вынести как бы то, ради чего делается мультиагентная система, это именно скорость, это децентрализация и так далее. Но ведь это именно именно наши преимущества, но если их убрать, тогда смысла, конечно, никакого нету. То есть, если мы не хотим делать, да,
364: Если хотим повышать, если нет вопросов скорости, да и параллелизации, то гетерогенности добиться в настоящих системах с лмками сейчас добиться нельзя, потому что все они примерно 1 функциональности будет просто избыточно, но мы просто больше сделаем. В данном случае это можно.
365: Ставить тогда не как истинную мультиагентность, а просто как удобство для декомпозиции разработчиков, которым нужно разные кусочки написать и все. Команда так будет работать точно лучше. Когда. То есть вопрос там стоял в том, что товарищи то вы не про мультиагентные рассказываете системы, а просто про декомпозицию, решения задач.
366: Истинной мультиагентность, как бы тут коллеги говорят, ну тут можно сказать, что истинной агентности тоже пока нету, так что все честно.
367: Так, хорошо. И ещё финальный вопрос, товарищи, есть ещё у нас из оффлайна. Давайте все, тогда вот это будет завершающей.
368: Да, вот спасибо большое за доклад. Вот интересно. Переключите, пожалуйста, на слайд, где там информация, как вытащить из модели то, что ей запрещено говорить.
369: Вот интересно, как этого можно избежать? Так, это где именно? Какой это про инъекции имеется ввиду? Ну вот эта инъекция? Да, да, да, да, да. Вот это просто очень много об этом говорят. И непонятно, как этого вообще можно избежать.
370: Потому что, как будто модели даётся такой, ну, довольно большой массив информации, которую иногда бывает сложно, скажем так, фильтровать. Я как раз очень, очень хороший вопрос был в онлайне. Тоже говорят, что побороть
371: Инъекции нельзя. Более того, есть теорема, которая доказывает, что нельзя побороть. Поэтому мы на практике в своих системах используем систему. Мы её назвали этот флейм флексибл систе moderation энджен, он работает только как output гард смысл в том, что
372: Конкретно мы взяли и насинтезировали как можно больше вот этих Нехороших ответов. Значит, на плохие промты инъекции и построили просто частотность энграмм, которые в них употребляются, а потом их и фильтруем. Проверяем на эти инграммы быстро, дёшево, сердито, а главное абсолютно устойчиво к любому
373: Входного промта. Ведь мы запрещаем отвечать плохое, а не спрашивать правильно, лмку нельзя заставить врать, зато надо поставить дополнительный фильтр, который то, что уже она даёт фильтровать. А разве это не ломается тем, что в ответе можно попросить лмку зашифровать?
374: Например, сдвинуть все буквы в алфавите, и она такую иногда дичь генерирует, если потом расшифровывать. Да, теоретически это можно считать. Конечно. Да, я такого, кстати, я об этом думал. Может, я много
375: Сломал таким способом e класс класс сломать вопрос будет ли это плохо выглядеть в глазах заказчика типа что мы, нарушили ли мы какие-то из условий договора вообще выглядит как нет, потому что мы не ответили ничего запрещённого в этом тексте без ключа.
376: Все, все может как раз с точки зрения действий, которые по ходу этого было. И, например, если я не могу в общем рассужде.
377: На тему того, как создать бомбу, даже если оно зашифровано. Угу. Тоже опасно, если оно расшифровывается очень простым способом. Например, это может вплоть быть до инверсии какой-то. Напиши, текст задан.
378: Наперёд и все, ну то есть, Сергей, ты тоже согласен с тем, что никакие гардрейл не помогут и лмку нельзя ломать, как и с любой it системой будут 2 лагеря, и будут они биться, и будет эта битва весёлой и бесконечной.
379: Скорее всего хорошо коллеги, все, спасибо вам большое. У нас flash то есть прям за 10 секунд вопрос для спикера и оппонента вот приходит к вам человек неважно аспирант, инженер, который хочет прям крутую работу, но быстро сделать
380: За полгода, там, за 9 месяцев, может там статью опубликовать или круто выкатить куда-то работу, которой не было. Что вы ему порекомендуете сделать 10 секунд? Илья, я дам что-то из своих уже незавершённых задач. Дам пример конкретно. А, н.
381: Ну, конкретный пример. Сейчас у меня открыта задача на то, как это проверить работу присваивания мкб кодов системой нашей. Вот, и можно быстро опубликоваться. Я уже сказал об 1 заботящей меня.
382: Проблеме вида, автоматизация селзов, во первых, очень благородная задача с точки зрения того, как бизнесу помочь. А по продажникам, конечно. Да, да, да, да. Буквально вот бизнесы у них у многих с рекламой проблемы эффективной.
383: Это важно. A2, персонализация в этом месте это то, что меня супер заводит. Я бы такую задачку дал. Мне вот прям буквально последние 2 дня 1 и та же реклама контекстная подсовывается яндексом. Кстати, для
384: Агент создания террариа. Ой, террариа, говорю, рекламных компаний. Вот реклама по созданию рекламных компаний. Это, конечно, мега эйджент. Какой-то там дядька на английском языке говорит, вот я теперь начал этим пользоваться. Вообще мега круто. Ну, блин.
385: Это все к тому, что сейчас, конечно, все очень быстро развивается. Многие задачи уже решены, которые кажется, что нет, но надо в любом случае, классные такие челленджи для себя ставить. Спасибо, ребят, коллеги, всем спасибо, кто до нас добрался. Сегодня, все, кто нас
386: Смотрел в онлайне. Мы нашу серию семинаров ещё продолжаем. Ну, правда, переключимся немного с тематики агентов, но темы все ещё подбираем для вас очень интересные. Приходите к нам в гости этой весной и в начале лета будем вас всех ждать. Ну а сегодня пока