0: Друзья, добрый вечер. Рад приветствовать всех на 1 из заключительных сессий 1 дня. Дата фьюжн.
1: Вижу, что здесь остались одни из самых стойких слушателей, уверен, что не пожалеете, поскольку текущая сессия посвящена максимально практическим кейсам применения технологии искусственного интеллекта и в том числе технологии data fusion. Напомню, что в рамках
2: Конференции. Дата фьюжен учреждена отдельная премия, дата фьюжен эвордс. В этом году нам было направлено порядка 150 различных кейсов в самых разных номинациях. И сегодня со своими проектами перед вами вы
3: Компания икс 5 Московский метрополитен вижн лабс от МТС.
4: Wildberries и скан интерфакс. Итак, перейдём к нашему 1 докладу. Доклад будет посвящён Такому важному инструменту не только для бизнеса, но и для разработчиков, а именно речь пойдёт о
5: Платформе, разработанной компанией x 5 тех, я приглашаю на сцену марию шебалкову, владельца продукта платформа аб тестирования, департамент разработки методологии и оценки эффективности бизнес инициатив икс 5 тех Мария.
6: Пожалуйста, вам слово. Спасибо большое.
7: Всем добрый день. Так, возьму свой кликер меня уже представили, меня зовут Мария, и я отвечаю за разработку платформы б тестирования в x 5.
8: Я думаю, все здесь знают икс 5 по нашим торговым сетям пятёрочка, перекрёсток, Чижик наверняка все бывали внутри наших магазинов, но помимо физических магазинов у x 5 ещё также большой пул цифровых.
9: Бизнесов в 1 очередь, это бизнесы по доставке еды, как раз-таки из пятёрочки, перекрёстка и чижика. Давайте отойду, чтоб было видно также у нас есть такие бизнесы, как
10: Пудру, много лосося, пакет и в общем то их здесь все не перечислишь. На самом деле у нас десятки цифровых продуктов, мы работаем более чем с 90000000 пользователей и оборот онлайн.
11: Бизнесов больше 300 миллиардов, поэтому все эти бизнесы производят очень много изменений, и x 5 как группе компаний критически важно понимать их эффективно.
12: И мы считаем, что самый надёжный способ оценить эффективность чего либо какого-либо изменения, это проведение эксперимента методом онлайн аб тестирования. Ну потому что аб тестирование это золотой стандарт индустрии для
13: Оценки всего, можно сказать. Вот. Ну и важно отметить, что учитывая наши объёмы для нас даже самые минимальные изменения, там в 0 1%, то это в абсолютах гигантские значения.
14: Опять же много изменений стратегия x 5 направлена на то, чтобы растить своё лидерство в игросериала мы хотим обеспечить компанию инструментом для того, чтобы все.
15: Или почти все эти изменения можно было бы тестировать. Поэтому мы пошли в платформенное решение для аб Тестов и реализовали собственно платформу аб тестирования аб салют, которая обеспечивает полный цикл аб теста, ну,
16: Условно в 1 окне, в 1 платформе с помощью абсолюта можно подготовиться к эксперименту, рассчитать его конфигурацию чуть подробнее об этом расскажу, также указать основные параметры и запланировать, когда именно мы будем проводить
17: Этот эксперимент также с помощью платформы можно непосредственно провести эксперимент, то есть делить наш клиентский трафик на группы тестовую, которая сталкивается с каким-то изменением.
18: И контрольную, которая ни с каким изменением не сталкивается. Ну и дальше в нашей же платформе можно и получить результаты. Была ли какая-то разница в поведении этих 2 групп?
19: Для технической реализации таких, такого полного цикла мы разработали 4 ключевых сервиса. Ну, по факту у нас, конечно, сервисов больше, архитектура достаточно сложная, но
20: Именно с бизнес точки зрения интересны самые вот эти 4 1, это администрирование экспериментов, это как бы основа, лицо нашей платформы, это её веб морды и backend, которые позволяют непосредственн.
21: Создать такую сущность, как эксперимент. Он же аб тест управлять её жизненным циклом, управлять ролевой моделью доступа и так далее для того, чтобы обеспечивать уже непосредственно сам процесс б. Тестирова.
22: В онлайне у нас есть 2 сервиса сервис сплитования и сервис exposure. Сервис сплитования. Это как раз наш самый высоконагруженный сервис, который по каждому клиенту мобильного приложения или сайта.
23: Определяет список экспериментов, в которых он будет участвовать, и группы тестовая или контрольная. Вот этот сервис у нас написан на го. Вот и является, да, максимально.
24: Быстрым из всего, что можно было и в конце чуть чуть расскажу подробней о том, насколько у нас быстро получилось делить пользователей. Вот, и сервис сбора так называемых икспоужер в то есть это сервис, который помогает собирать
25: Факт участия пользователя в эксперименте, потому что мы определяем группу при авторизации, но если у нас эксперимент в корзине, то большая часть пользователей до корзины может, например, и не дойти. Нам важно это фиксировать. Вот. И также
26: У нас есть расчётный сервис, который позволяет именно вычислять результаты эксперимента. Вот он у нас сейчас реализован с помощью внутреннего икс 5 хадупа, но мы планируем его
27: Сильно переработать. И хочется отметить также про статистические, математические методы, которые мы использовали при разработке платформы, потому что, как я уже говорила, даже са.
28: Маленькие эффекты по факту являются очень большими в деньгах. Нам очень важна чувствительность и точность при проведении эксперимента, поэтому мы методологию разрабатывали сами, чтобы полностью её контролировать и чтобы её
29: Иметь возможность её дорабатывать и делать самой точной, насколько это возможно. 1 часть повышения качества эксперимента это качество разделения пользователей на группы. Здесь мы
30: Для контроля пересечений или не пересечения экспериментов, используем систему слоёв. Достаточно стандартный подход при онлайн тестировании. Вот. И также для того, чтобы распределение у нас
31: Оставалось независимым и стабильным. Мы используем пакетирование и 2 раза солим наш трафик. И по оценке результатов мы рассчитываем для каждого эксперимента результаты, ну,
32: Грубо говоря, 2 путями мы каждый день забираем срезы по метрикам и рассчитываем результат сравнения групп, используя обычную линеризации для Рейш метрик.
33: И взвешенную линейную регрессию. И это мы делаем за каждый день эксперимента и в конце эксперимента для того, чтобы повысить чувствительность и подвести итоги ещё максимально точно, мы добавляем ещё
34: Коррекцию и смотрим на pre период. Там добавление кьюпид позволило увеличить чувствительность на 30%. Примерно вот таким образом мы видим у нас
35: Очень даже маленькие эффекты, даже с учётом того, что в целом пользователей много и отдельная наша гордость это модуль расчёта, автоматического расчёта, дизайна, эксперимента, далеко не все абешни.
36: В целом это делают, потому что там не очевидно, какой подход лучше всего использовать и так далее. Но мы решили, что для нас это супер важно как раз-таки для того, чтобы добиться хорошей точности, хорошей чувствительности. Вот, поэтому реализовали у себя и расчет диза.
37: Он мы создаём дизайн практически по тем же параметрам, что и сам эксперимент.
38: Считаем дизайн теми же методами, также применяем там кьюпид. Вот. И по итогу расчёта мы нашим пользователям выдаём такую большую таблицу с разными конфигурациями экспериментов и рассчитываем минимально детектируем
39: Эффектом. Ну, грубо говоря, мы эмулируем наш эксперимент, как будто бы он у нас прошёл в прошлом. Вот, и это позволяет нам уже выбирать оптимальную для пользователя, для бизнеса конфигурацию, что нам все вот это
40: Даёт. Зачем мы в целом пошли в платформу и достигли ли мы чего хотели. Ну, в 1 очередь, единая платформа на всю группу компаний с прозрачной методологией даёт нам независимый контроль эффекти.
41: Активности. У нас не каждый продукт отдельно выбирает себе методологию, как он считает, хорошо ли он выступает или плохо у нас это делает условно независимая система. Вот также мы получили очень высокую чувствительность расчётов и
42: В сравнении с до платформенными временами, когда тесты проводились, ну, условно вручную, мы получили увеличение скорости в 4 раза для 1 эксперимента. По результатам именно разработки. 1
43: Мы выпустили очень быстро, за 6 месяцев. Вот в рамках 1 же mvp нам удалось добиться того, что у нас скорость ответа по каждому конкретному пользователю для определения групп меньше 1 миллисекунды, то есть мы
44: Вот так быстро определяем все эксперименты по пользователю. К нам уже подключена икс 5 доставка в части пятёрочки и перекрёстка. И уже у нас сейчас либо проведено, либо проводится. В общем, все вместе.
45: Порядка 110 экспериментов прямо сейчас уже, наверное, побольше. Вот. И максимальный расчет по эксперименту у нас длится порядка 5 часов. Ой, не больше 5 часов зависит от количества метрик и так далее. Ну, эту часть мы хотим
46: Оптимизировать и в будущем мы рассчитываем, что абсолют для x 5 увеличит, обеспечит рост количества экспериментов на 230% относительно до платформенных времён вот и
47: И позволит нам условно, да, все или почти все фичи тестировать через аб. Также хотим подтвердить в этом году и экономию времени аналитика, собрать больше данных для того, чтобы эта статистика у нас подтвердилас.
48: Ну и будем внедряться в других продуктах, в том числе в таких важных для x 5, как рекомендации и медиа. Для того, чтобы мы весь скоуп наших изменений оценивали по 1 методологии, на этом у меня все, спасибо большое, если
49: Вопросы?
50: Мария, спасибо огромное за ваш доклад. Вопрос.
51: Раз, раз есть, так, вопрос в 1 ряду. Алло. Алло. Большое спасибо за ваш доклад. Было очень интересно. Меня зовут Александр, компания ростелеком. Хотел уточнить про uplift моделирование. У вас в слайде был там тритмент эффект.
52: Это как бы в части аплифт моделирования. У меня сразу возник вопрос по тому, как вы проводите в этой платформе аб тест для аплифт. Там же история в том, что надо сначала выборку формировать для оценки тритмент эффекта, а потом уже на основе тритмент эффекта. И, грубо говоря, таргета клиент там отреагировал или нет уже строить.
53: Новую выборку. У вас в эту платформу как-то интегрирован аплифт. Вот эта вот история с формированием этой выборки. И уже после этого проведение теста или вы как-то по другому это решили? Мы большинство Тестов проводим на
54: Всех условно. И, ну, берём весь Скоп пользователей, условно пятёрочки, их уже делим. И потом по завершению теста мы можем наложить какое-то условие и среди тех, кто поделился, как
55: Выборку сузить вшитых там в эксперимент для того, чтобы до запуска выборку сужать. У нас пока таких инструментов нет, но есть возможность зафиксировать список пользователей. То есть вру,
56: Ну, условно мы эту выборку можем сформировать и нам подсунуть. Понял? Спасибо большое.
57: Есть ли ещё вопросы, Мария? Тогда небольшой вопрос от меня. Вот, ну, вы упомянули, да, то, что до появления платформы все тестирование проводилось вручную и платформа требует больших инвестиций, да, и их окупаемо.
58: Да, в последующем. А вот кто все-таки был инициатором формирования этой платформы, бизнес или же x 5 тех. Угу. Хороший вопрос, достаточно сложный. Это была синергия, потому что 1 начал про это говорить x 5 тех вот и достаточно дол.
59: Мы намекали о том, что нам это поможет. И потом уже на уровне бизнеса, на уровне группы компаний было принято решение, что действительно нам это нужно. Нам нужно иметь независимый инструмент. Поэтому как-то мы уговаривали
60: И в итоге уговорились и вместе приняли это решение. Понятно. Хорошо. Ну что, Мария, спасибо вам большое. Так, а мы перейдём к следующему кейсу, и речь пойдёт о том, что, по сути, каждый
61: Из нас с вами может протестировать самостоятельно, а именно прокатиться на беспилотном трамвае эта технология уже запущена, и сегодня Павел Бокша, начальник центра исследования и разработки беспилотного транспорта дирекции.
62: Информационно технологических систем и систем связи гуп Московский метрополитен расскажет об этом интересном проекте Павел, вам слово a clicker можно?
63: Доброго дня. Раз.
64: Давайте немножечко попробую рассказать про то, чем мы занимаемся в рамках конкретно беспилотного трамвая, потому что сам наш центр имеет несколько проектов беспилотных. Зачем вообще правительство Москвы и Московский метрополитен задумалось о беспилотном движении?
65: У нас динамичное развитие Московского транспорта происходит с 2012 года, когда там Сергей Семёнович утвердил 1 стратегию развития общественного транспорта, и мы там все это время следуем нашим основным приоритетам, коими являются там
66: Уровень предсказуемости и скорости движения транспорта с 1 стороны, с другой стороны, комфорт пассажиров и также безопасность движения движения пассажиров и движения личного транспорта, который вокруг нашего общественного транспорта ездит тоже.
67: Соответственно, сейчас на в начале двадцатых, стало понятно, что у нас уровень сервиса уже настолько высок, что дальнейшее продвижение нам может помочь совершить исключительно какая-то автоматизация, потому что
68: Мы уже сильно упираемся в человеческий фактор если говорить, например, про метрополитен, то у нас при 90 секундном интервале кой является 1 из самых Коротких пиковых интервалов в мире среди метрополитенов исполняемость графика у нас 99.
69: 9%. То есть для того, чтобы дальше двигаться, мы уже должны как-то кардинально менять систему управления транспортом. При этом весь подвижной состав у нас обновлён, текущие поезда и текущие трамваи, которые ездят в Москве. Это уже довольно сильно напичканные электроникой, сложный
70: Приборы, которые вполне уже готовы к роботизации, там нужно доделать буквально малость, ну и soft написать, естественно, и было решено начать программу работы с беспилотным транспортом трамвай стал флагманским про.
71: Проектом 1, потому что он, с 1 стороны, ну там достаточно простой, потому что ездит по рельсам, с другой стороны, он ездит в городе, и там для города важно не только реализовывать какие-то продукты собственными руками, но и понимать потребности бизнеса, который зани,
72: Занимается в городе внедрением и разработкой беспилотных видов транспорта, чтобы там чутко реагировать на те проблемы, которые у коллег есть. Следовательно, ввиду этого наш центр открыл Сергей Семёнович собянин. В 23 году это было
73: Начало в 24 году, нам дали чудесное здание в кунцево, в котором мы на текущий момент работаем, и сейчас нас уже почти 200 человек. У нас уже есть целый портфель проектов и сам по себе беспилотный трамвай, кое наш.
74: Флагманский 1 проект 3 сентября минувшего года уже начал эксплуатироваться с пассажирами на 10 маршруте строгино мы первыми в мире начали возить пассажиров и как бы такая скорость.
75: То, что мы буквально за там меньше, чем 2 года, ну, может быть 2 с половиной создали уже продуктовое решение, которые ездят, это во многом заслуга того, что мы все-таки
76: Являемся частью структуры правительства Москвы, частью структуры Московского метрополитена, то есть, в отличие от всех других компаний, которые занимаются разработкой беспилотного трамвая, как правило, это производители беспилотного трамва.
77: Мы получаем мгновенный фидбэк, фидбэк от эксплуатации. Мы там чётко понимаем потребности, которые есть и там в рамках той же, в рамках экспериментального правового режима. Можем там тестироваться, как мы
78: Хотим как угодно. Если говорить про саму по себе разработку, то она полностью ведётся собственными силами. Мы в часть софта не привлекаем никаких внешних Подрядчиков. Ну, там стандартная схема работы без
79: Пилотного транспорта, когда мы выстраиваем системы компьютерного зрения, системы локализации, все находится у нас внутри. Я сказал, что трамвай проще, чем автомобиль. Да, это действительно так, потому что у нас
80: Нет латерального манёвра, мы едем по рельсам. В целом у нас достаточно выделенная инфраструктура. Мы там, ну, по крайней мере, в рамках 10 маршрута. Мы только на перекрёстках встречаемся с автомобилями, как иными агентами движения пешеходы, понятно, они везде могут выскочить, потому что, ну, тем более,
81: Такой район достаточно тихий, люди зачастую переходят дороги, где хотят, но тем не менее у нас есть ещё и пара нюансов. 1 нюанс это вес трамвая и то, что он движется по рельсам. Следовательно, у нас тормозной путь относи.
82: Автомобиля примерно в 4 5 раз выше в зависимости от скорости. И во вторых, это то, что наш транспорт все-таки транспорт общего пользования и вследствие чего у нас постоянное взаимодействие с пассажирами, а пассажир это очень серьёзный.
83: Источник хаоса в окружающем мире, начиная от того, что там людям очень нравится помахать каким-нибудь пакетиком, выскочить перед трамваем для того, чтобы проверить, там остановится он или нет. Ну и вплоть до того, что сами по себе вопросы посадки, вы
84: Очень важны. И более того, мы у нас сильно более, мы сильно более требовательны к плавности движения. Ввиду того, что-то, что происходит с пассажиром внутри, это тоже наша ответственность. Там упавший пассажир это для нас очень больша
85: Проблема в целом, мы продолжаем работать. Что ещё можно сказать на текущий момент? У нас какие результаты? Мы уже провезли? Почти 90000 пассажиров, 33000 километров прошли, и мэр нам продолжает
86: Давать достаточно мощные темпы дальнейшего движения, ввиду чего к концу этого года мы планируем, что в трагино у нас будет курсировать уже 15 трамвайных вагонов, а к 30 году 2 трети трамвайного парка столицы планируется оборудовать
87: Системами беспилотного движения, чтобы уже там, в ближайшем обозримом будущем, каждый москвич мог испытать опыт езды на беспилотном трамвае, а так в целом 10 маршрут курсирует каждый день, поэтому если кому-то интересно прокатить
88: Милости прошу в стандартном обычном маршрутном режиме. Наверное, это все, что я могу сказать по слайдам. Теперь, видимо, вопросы.
89: Павел, спасибо. Так, вопросы как будто нету. Так, сейчас давайте сюда, наверное, встану. Павел у меня. А, молодой человек, вопрос. Дайте, пожалуйста, микрофон.
90: Здравствуйте, меня зовут Руслан, компания т 1. Мне интересно, юридический аспект ответственности. То есть вот трамваем, получается, владеет какая-то 1 фирма?
91: Софтом владеет. Ну то есть есть какой-то разработчик, наверное, или лицензия. И вот в случае, допустим, какой-то аварии, вот кто в ответе за ущерб, смотрите, это тоже определённая
92: Преимущество того, что вы находитесь в структурах метрополитена, потому что метрополитен владеет всем, он трамвай купил, он им владеет, он разработал по, он им владеет и так далее. Если говорить про ответственность, то на текущий момент это регулируется экспериментальным правовым режимом. Но это инструмент юриди.
93: Который сейчас используется во многих, скажем так, инновационных сферах, в том числе в беспилотном транспорте. В минэкономразвития. Этот инструмент разработали и сейчас, по моему, они уже десятки этих экспериментально правовых режимов есть, в том числе наш, который мы разраб,
94: Работали и внедрили в Москве и Санкт-Петербурге. Сейчас он действует. Но если говорить про, ну понятно, экспериментальный правовой режим это на время. Если говорить про итоговую модель, то сейчас в минтрансе ведётся разработка закона о
95: Транспортных средствах, которые президент поручил разработать в, честно говоря, не помню когда, но я думаю, что в ближайшее время он уже появится. Наш экспериментальный правовой режим. В принципе, есть это публичный документ, это постановление правительства Российской Федерации. И я думаю, что
96: Проект закона, вполне возможно, тоже можно найти в сети, посмотреть на него.
97: Да, Павел, спасибо. У меня небольшой вопрос, если позволишь. Ну, поскольку в трамвае есть несколько камер, радаров, лидаров, да, и вычисления нужно фактически в онлайне проводить. Наверняка в трамвае есть какой-то свой сервер стоит, может быть, небольшой, да, там.
98: Локальный. Ну да, это промышленные компьютеры, там требуется определённая защита от вязки и тому подобных вещей. Да, и, собственно, вопрос в том, что, ну, наверняка нужно поддерживать условия там по влажности, температуре, чистоте, там тряска наверняка какая-то есть, вот как это
99: Трамвая удаётся сделать, ну, в 1 очередь специализированное по, то есть продаются промышленные компьютеры, которые можно купить и установить на транспортное средство. Вот. Ну, плюс там у нас есть определённые нюансы ввиду
100: Нишевого расположения и так далее. Но у нас есть команда инженеров, которая тоже прорабатывает вопросы качественного охлаждения, контроля, мониторинга и тому подобных вещей, то есть аппаратной частью непосредственно
101: Обеспечение автоведения. Тут тоже занимается целая команда, которая всем это все это реализует. Ну вот в этом плане, наверное, трамвай чуть чуть проще, чем машина, да, потому что machine его только в холодильник. Ой, в холодильник, в багажник. Ну, можно положить, скажем так, он проще, тем.
102: Что у нас 600 вольт висит сверху и у нас точно никакого недостатка в электричестве нет. Это да. Ещё 1 приятный бонус от того, что мы занимаемся именно трамваем. Понятно? Все, спасибо большое, Павел. Спасибо. Спасибо.
103: Так, а мы движемся дальше. И сейчас мы затронем тему, которая, пожалуй, ну, наверное, никогда не потеряет свою актуальность. Это front. И, соответственно, борьба с ним. И сегодня Татьяна Дешкина, заместитель директора по разви,
104: Продуктов компании vision labs поделится с нами своим опытом борьбы с фродом.
105: Так, раз, раз, микрофон, мама, так, все, меня слышно. Видно. Отлично. Друзья, добрый вечер. Расскажу вам про кейс.
106: По выявлению фейков, на практике собственно коротко слайд уважающего себя вендора кто мы такие? Компания vision labs 13 лет на рынке является мировым лидером вообще топ 1 по биометрической идентификации.
107: Помимо биометрической идентификации у нас вообще большой опыт в компьютерном зрении мы его успешно масштабируем на смежные технологии, включая антифрод, как раз-таки защиту от физической подмены лица и от цифровой
108: А именно от дипфейков. Именно детекцию дипфейков мы начали развивать с 21 года, но
109: Некоторое время назад проблема достаточно сильно выстрелила. Собственно, где-то, наверное, в конце 23 года, начале 24 мы стали наблюдать прям бум дипфейк атак и
110: И в прошлом году в Москве уже половина преступлений в целом было совершено с помощью каких-то информационных технологий, там часть как раз-таки существенную часть нагенерировал дипфейк, собственно, с точки зрения вообще мирового.
111: Ущерба от дипфейков только в 1 квартале 25 года, там порядка 200 000 000 $ был ущерб. То есть пока ещё нет какой-то официальной статистики за 26, но мы как бы нехитрыми прикидками считаем, что где-то миллиард
112: Набежит с точки зрения количества инструментов тоже в 25 году мы все наблюдали безумный бум именно конкретно генеративных моделей, которые умеют генерировать полное видео суммарно на момент
113: Начало 25 года. Конец 24 примерно 13000 инструментов для создания дипфейков было в доступе. И, скорее всего, в 26 году это число точно не станет меньше, а только будет больше.
114: Собственно, какие вообще дипфейки бывают и какие дипфейки конкретно отражает дипфейк детектор вижн лабс? Мы сосредоточились на как бы достаточно узкой задаче, но супер важной именно в контексте защиты лицевой
115: Биометрии в контексте антифрода это защита от дипфейков лиц. Дипфейки лиц делятся на 3 группы. Это перенос лица. Самый старый, который мы все ещё наблюдали в приложениях на iphone для того, чтобы
116: Картинки, там поменять лицо своё со своим другом, это перенос мимики, конкретно это все, что касается и липсинка, и в целом синхронизации мимики с аудио. То есть этот дипфейк чаще всего применяется, когда как раз-таки мы генерируем
117: Какое-то фейковое видео с человеком и хотим, чтобы это все выглядело складно. Ну и, наконец, синтез лиц, синтез осуществляется как раз-таки теми самыми генеративными модельками можно по текстовому описанию сгенерировать в принципе.
118: Любого человека и что мы наблюдали в 25 году. Помимо того, чтобы полностью создать какое-то лицо, часто мошенники применяли, прибегали к тому, чтобы заменить какой-то конкретный атрибут на лице, там цвет глаз или что
119: Тут ещё вот дипфейки, помимо лиц могут быть и голосовыми. Здесь логика очень похожая, можно голос склонировать, то есть на базе какого-то небольшого аудиофрагмента сгенерировать полный клон голоса.
120: Звучит по сути, там моим или вашим голосом все что угодно для этого не нужно много данных хватает аудио аудиосообщения, можно голос синтезировать, то есть создать полностью несуществующий и можно использовать конверсию, конвер.
121: Это когда мы меняем голос без замены текста. То есть, если, например, мою лекцию запишут, там моё выступление сейчас и после этого это озвучит мужчина, это будет пример конверсии.
122: Deepfake не следует путать с дешёвым фейком это достаточно распространённая ошибка при внедрении антифрод технологий, что мы пытаемся полечить проблему, но лечим не теми средствами, когда мы говорим про дешёвый фейк это, в принципе, любая манипуляция вообще.
123: Не обязательно, что это будет сделано с использованием ии. Это может быть и старый добрый фотошоп, и перерисовать что-то можно. В общем, это не имеет как бы ничего общего конкретно с дефейсом, поэтому следует от такого фейка защищаться.
124: Другими технологиями. К чему я это все веду. Я это веду к мошенничеству. Какое мошенничество вообще есть с deep фейками можно поделить на 2 большие категории. Это клиентские процессы.
125: И внутренние, когда мы говорим про клиентские процессы, здесь есть как мошенничество во время онбординга или получение доступа к каким-то удалённым сервисам под видом собственно жертвы, либо что хуже.
126: Самый частый, наверное, фрот, который самый страшный, это когда наша жертва под давлением добровольно все осуществляет, но давление на неё осуществляется с помощью дипфейка как раз-таки, то есть, условно бабушке звонит дипфейк.
127: Говорит, переведи все деньги. Вот, пожалуйста. Мы получили социальную инженерию с использованием дипфейка, и это очень частый сценарий. Он встречается чуть чаще, чем когда наш мошенник пытается с помощью дипфейка выдать себя
128: За реального клиента, но и с точки зрения внутренних атак. Здесь кейс очень похож на социальную инженерию, здесь тоже часто какое-то должностное лицо, значит, генерирует диппе должностного лица.
129: И просят от его имени что-либо сделать. Таких кейсов тоже достаточно много.
130: Помимо того, что дипфейк хорошо встраивается в мошеннические схемы. В целом, у него есть несколько элементов, которые делают его прям супер комплексной атакой. Это то, что дипфейки сейчас реалистичны, и я не говорю про
131: Красиво сгенерированные дипфейки. Я говорю на самом деле про максимально приближённые к реальности. То есть, что мы наблюдаем, например, в банковском секторе, там 1 кейс вообще внедрения детектора дипфейков был в 20
132: 3 году у меня, когда в банк под видом разных клиентов по видеосвязи звонил мошенник, он выдавал себя, собственно, за добросовестных клиентов, имея там какое-то, какой-то набор персональных данных, а это было
133: В стране, где единственный легальный способ, собственно, удалённо получить услугу, это видеоконференц связь. То есть нужно было оператору банка физически позвонить по видео, поговорить с ним. И тогда оператор отжимал операцию. Оператор на протяжении 3 недель.
134: Операторы, вернее, не понимали, что они разговаривают с дипфейком. Почему? Потому что он был супер реалистичным в том плане, что оператор делал скидку на задержку в изображении. Ну, плохой интернет. Такое бывает, или
135: Какие-то артефакты, которые в целом могут заставить засомневаться в картинке. Они могут также происходить от того, что камера, с которой ведётся разговор, она не супер высокого разрешения и от этого там какие-то пиксели возникают и так далее.
136: Оператор этого не знал и, соответственно, в какой-то момент банк уже спохватился, что ай яй яй, у нас уже кучу денег вывели. Почему это все возможно? Потому что дефеки можно уже генерировать в режиме реального времени большим количеством алгоритмов.
137: И люди в целом сначала были склонны доверять тому, что они видят сейчас, что мы видим. Мы проводили исследования по фейкам. Как раз-таки мы людям показывали реальные изображе.
138: И дипфейки, как бы, итог такой, что путали Ровно наоборот. То есть реальных, на всякий случай считали дипфейки, дипфейки считали реальными. И как бы вот эта вся история, что мы получили, и front, мы
139: Получили и эрозию доверия, она потребовала создания как бы диппе детектора, который как раз-таки вижнлабс реализовал, он универсален, он работает в режиме реального времени с фотографиями и с видео.
140: Он уже внедрён в большом количестве организаций. Там больше 15 кейсов в промышленной эксплуатации, там 5 стран уже точно есть, где он применяется. И, собственно, здесь приведён
141: Просто пример интерфейса, где мы подгружаем фотографию и получаем некоторое количество аналитик, что там лицо реальное. И ещё можно проверить на тот самый дешёвый фейк, что изображение модифицировано диппе детектор не
142: Работает соло, к нему нужно добавлять ещё дополнительные антифрод инструменты, в частности лайфнес лайфнес. Это такая технология, которая проверяет, что вот в момент съёмки я вот вроде я перед камерой, но я могу вот так вот фотографии
143: Чужую подставить и она как бы попадёт в кадр вот life нас проверяет наличие вот этого физического фейка перед перед камерой.
144: Собственно, это все добро мы и внедрили в МТС айди кваси. Это сервис, который позволяет удалённо проверить личность. То есть как это происходит, компания подключается к
145: МТС айди касси заключает договор и дальше засылает всех Физиков, с которыми клиент хочет работать на проверку МТС айди кайси проверяет паспорт, проверяет фотографию. Здесь как раз-таки подключается вижн Лапс проверяет.
146: Вот на лайфнес проверяет, на наличие дипфейков. Дальше проводят распознавание лица, то есть проверяет фотографию в паспорте против селфи и против фотографии, которая есть в базе данных. Таким образом, мы подтверждаем, что
147: Это тот самый человек. И дальше с этими результатами уже коллеги из МТС айди иваси ходят по разным базам и проверяют потенциального клиента на, собственно, там чёрные списки какие
148: То ещё по итогам мы получили очень неплохой эффект. Помимо того, что мы хорошо себя показали в реальной жизни. То есть мы прям была атака, 99% отбили, мы были очень рады, мы ещё полу,
149: Получили такой бизнес эффект, как повышение уровня одобрения Физиков на 55%. Вот это довольно приятно про себя рассказывать. На этом у меня все. Буду рада ответить на ваши вопросы, Татьяна.
150: Спасибо большое. Так, есть вопрос.
151: Здравствуйте. Спасибо за доклад. Очень интересно. Ну, у меня вот такой вопрос. Вот вы рассказывали кейс с бабушкой, да, когда могут позвонить дипфейк, там, по видео условно, вот моей бабушке я позвоню и буду там, ну, просить деньги. Вот.
152: Я у себя в семье внедрил кодовое слово. Ну, понятно, мы все знаем вот эти ситуации. Вот я внедрил кодовое слово, и вот в семье мы его, если что, не дай Бог, будем использовать. А какие ещё обывательские советы вы можете дать нам?
153: Вот про дип фейки, и как их избежать? Ой, на самом деле много. У меня просто была, было выступление 1 из самых сложных в моей жизни. Мне как раз-таки меня позвали на мероприятие мос ру и привели вот бабушек, и мне надо было бабушкам не употреблят.
154: Слово дипфейк, антифрод. И вот эти вот все объяснить, что такое дипфейк и как, как бы его вообще избежать. И там советы, на самом деле самые простые. Кодовое слово, отличный путь, как бы рабочий сам.
155: Можно посмотреть сам профиль в мессенджере, потому что наиболее частый канал атаки, вот с помощью дипфейков, это там кружочки, сообщения и прочее, прочее. Проверяем профиль, есть ли общие файлы, есть ли общие группы, что там с номером?
156: Телефона и так далее, потому что часто фейки вот эту историю игнорируют. 2, самый действенный способ перезвонить по телефону. Ну то есть вот буквально получили какое-то странное сообщение, позвонили по номеру.
157: Переспросили и что, наверное, ещё важно в целом, если есть какой-то запрос на срочные действия, ну то есть вот это давление там из серии, если ты сейчас не переведёшь мне.
158: Все свои деньги, что-то плохое произойдёт вот это прям повод задуматься и как раз-таки позадавать какие-то контрольные вопросы. Это очень перекликается просто вот с этим кодовым словом но там мы, например в компании спрашиваем там про футбольную команду, мы
159: Знаем ответ мошенник. Нет, плюс ещё важно обращать внимание на стиль. Сейчас нейронки в целом умеют его хорошо имитировать, но тоже попытка атаки, с которой мы сталкивались, это от имени нашего генерального директора начали рассылать сообщения. Супер.
160: Формальном стиле, типа дорогие друзья, просьба перевести. Никогда в жизни он так не напишет. Он пишет привет, как дела? Слушай, ну как бы и вот это характерный стиль, это прям тоже очень важная такая история.
161: Спасибо за вопрос, татьян, маленький вопрос. А у вас были реальные кейсы внедрения этой технологии в банках именно для борьбы с соц. Инженерией? Там скорее просто не выделяют отдельно соц.
162: Инженерию, как вот целевой кейс, там просто мошенничество, и нам надо защищаться от дипфейков. И здесь в социальной инженерии просто какая проблема основная? Вот вы банк, вы же банк к вам приходит.
163: Клиент, который подвергся как раз-таки социальной инженерии. Вы же не видите вот этот кусочек процесса, где бабушке звонила дипфейк внучка, вы видите бабушку, которая пришла, а она настоящая и это как раз-таки
164: Такой front, который компании сейчас пытаются отлавливать. Ну например сервис видеоконференц связи начали внедрять мессенджеры, есть боты, я не знаю, могу короче у ditto есть бот в обоих мессенджерах.
165: Вот куда можно провануть сообщение, там аудио, видео, даже текст, и он ответит, депей там или нет. Вот, то есть такими способами только, а именно на уровне банковского процесса. Ну, к сожалению, пока никак, кроме
166: Возможно каких-то уже социальная инженерия в ответ задавать вопрос. Это точно. Вы хотите деньги перевести? Ну то есть по сути, борьба именно с фордом в широком смысле там этого. Да, да, все понятно. Спасибо большое, Татьяна. Да, спасибо.
167: Ну что, у нас следующий доклад. Ну, большинство из нас активно используют online shopping, да, потому что это удобно. Мы можем заказать доставку на дом, померить одежду дома, отказаться от того, что нам не подошло купить то, что подошло фактически.
168: Не выходя из дома, и коллеги из вайлдберрис пошли немножко дальше и сделали этот процесс ещё проще. Теперь не обязательно знать ни бренд, ни название товара. Да, вообще ничего. Достаточно иметь фото. И этого будет достаточно для того, чтобы
169: Товар купить и найти приглашается на сцену Никита Романов, тимлид продукта поиск по фото компания wildberries
170: 1, 2, 1, 2. Ого. Хеллоу, привет. Я собрал презу на коленке, поэтому быстро вам её расскажу. Поехали. Кто вообще никогда не пользовался сервисом в 2 словах.
171: Очень простая история. Вы загружаете фотографию, мы там че то детектируем и предлагаем вам че то купить. Кто чаще всего вообще этим пользуется. Это те, кто никогда не любит вводить что-то текстом.
172: Те, кто не умеет искать что-то текстом, и мы до сих пор, у нас есть редкий датасет фотографии редких расписных вас за 2 года мы не смогли набрать промпт, который бы смог описать и найти их не через 1 поисковую систему.
173: Мира. Поэтому в целом задача актуальная, и пользователи активно этим пользуются.
174: Не пугайтесь, это единственная схема, которая показывает архитектуру. Больше таких не будет. Если коротко, у нас есть стадия предобработки. Там есть детекция сиар пайплайн, детекция. Мы детектим все основные катего.
175: Которые есть на ввб это одежда, мебель, сумки, там вплоть до автомобилей и предлагаем пользователю плюс отдельно есть cr пайплайн, который детектит именно артикулы почему именно артикулы? Потому что это основная штука, которую просили
176: Пользователи, они очень любят что-нибудь заскринить в соцсетях, отправить это поискать по артикулу ввб. Мы с этим им отлично помогаем. После этого сама картинка проваливается в общую кор модельку для изучения всех эмбедов.
177: Meta фичей и параллельно проваливается в 3 параллельных пайпа основной пайп посередине это как раз image трио задача она.
178: Сжимает вектор в нужный размер векторного пространства отправляет это в векторный индекс, который у нас собственный. Мы раньше пользовались квадратом, но давно от него отказались.
179: После этого кандидатов мы обогащаем фичами чуть чуть это доранж руем и финальная выдача. Ещё есть 2 стрелочки снизу, сверху выда, стрелочка сверху это генерация тегов по все.
180: Тому же вектору кор модели, дистиллированной на вилке, и нижняя часть тоже моделька обычная, на дистилляции ввёл модели для уточнения текста, как это работает в проде сейчас ещё чуть дойдём, тоже расскажу, чем вообще.
181: Успели сделать за год, да, появилась коротко, да, рисовалка артикулы, я уже сказал, мы перенесли модельку, детекции и оссар модель на локальные устройства пользователей, чтобы сэкономить немножко на инфре и
182: Ускорить сам пайплайн улучшили базовое качество самого поиска за счёт обучения моделек тоже коротко расскажу, добавили кастомные фильтры, что оказалось тоже непросто, и затащили само уточнение текстом, если вдруг кто активно пользуется, возможно.
183: Вы сейчас в b группе и можете поиграться с этим распознавание тиклов коротко уже рассказал пользователи очень хотели, даже особо не объявляли нигде, в новостях просто добавили это как есть и как.
184: Ни странно, на данный момент там где-то вот в марте больше 100000 запросов от пользователей приходит в день, просто чтобы поискать какие-то артикулы и что-то там заказать, что очень круто и очень радует. Там есть обычные артикулы, рекламные артикулы, в общем.
185: Те, которые есть на маркетплейсе, мы e используем рисовалка тоже отдельная история для тех, кто все ещё не любит вводить текст. Мы немножко ломаем стену и даём им возможность порисовать, научили модельку.
186: С этим работать. И теперь, если вам хочется такую же белую футболку, но с сердечком это вполне возможно. Пользователи начали нам грузить абсолютно все подряд. Обычно все, что рисуют на заборах. Теперь у нас есть в датасете. Спасибо большое, да.
187: Мы на этом тоже обучаемся. К сожалению, таких футболок у нас нет детекция, да, если коротко была моделька семейства йола и antent моделька, которая с осиом, она тоже была там детекция плюс распознавание.
188: Символов ту и другую мы затащили на мобилке большая часть того, что мы затащили на мобилке, она на мощных пользовательских устройствах, на которых есть npu юнит для обработки нейросетей чаще.
189: Всего это от 12, 13 айфона уже работает очень быстро, меньше, там 50 миллисекунд. И всех, у кого там есть какой-либо там снэпдрэгон 1, 2 версии, там уже тоже достаточно быстро все работает, это порядка.
190: 25, 30% пользователей и экономит нам примерно процентов 10 всех ресурсов, которые конкретно вот связаны с детекцией, разгружая тем самым нам видеокарты на другие задачи, что тоже приятно, Фил,
191: Выдачи базовая история. Коротко расскажу. Просто мы жили долгое время на отдельной инфре, которая работала независимо от общей. Поэтому там были костыль на костыле для того, чтобы, в принципе, хоть как-то обогатить выдач.
192: Ещё из feature, онлайн стора и затем все это можно было хоть как-то использовать в дальнейшей выдаче и так далее. Вот мелочь, но приятно как ни странно, пользователи этого тоже очень хотели, им не хватало и это мы тоже успели добавить вот вам такая жапка.
193: Уточнение текстом фича, которая прям сейчас идёт в б, это возможность текстом поискать по изображению. Если вот коротко на примере есть шапка, вы хотите такую же, но другого цвета.
194: Или, может быть, другой формы, или хотите такую же фигурку, но слона можете это дописать текстом, и моделька поймёт, что именно вы хотите, и совершит новый поиск, и найдёт это вот для тех, кому недостаточно рисовалки. Есть теперь такая фу.
195: Функция. Можно с этим тоже поиграться если коротко мы там подстили овали, вилм, модельку, это были квины, гемы и так далее. Получилась очень легковесная сетка. В итоге, которая отлично справляется с задачей, сложнее.
196: Конечно, было датку собирать бам техническое, но техническое, потому что это не видно.
197: В интерфейсе, но, видно, под капотом мы успели трижды обновить модель. Вот это 2 теста последних моделей, которые мы делали. Если коротко был большой перебор моделей по архитектурам, мы очень добавили много новых данных, в том числе
198: Из отзывов, из карточки товара и нагенерировали, че только туда не добавляли, чтобы оно работало лучше перебрали, наверное, весь lost, который вообще есть в пайторче. Вот, но пришли вот к таким хорошим выводам по моделям.
199: И успешно их раскатили 2 буквально вот в конце 25 года скоро будет новый аб. И последнее тоже онлайн ранжирование, которое я раньше рассказывал, если коротко, такой вот классный результат получили, там была модель.
200: Просто релевантности. Мы добавили туда учёт цены, рейтинга отзывов, логистики и всего всего, что есть в модельках, и теперь оно стало работать ещё лучше. Пользователи находят
201: Нужный товар чаще кликают, больше клик рейт у этого выше, потому что мы предлагаем самое актуальное, кажется, и все. А, да, самый главный слайд приятный. Да, за сколько мы успели подрасти? За 25 слэш 20.
202: Год. Если брать от года к году, то количество пользователей вышло выросло больше, чем на 100% в абсолютах каждый день. И уже чуть больше, чем 1 и 7000000 пользователей уникальных заходят в фотопоиск активно там че то заказывают, что не может.
203: Может не радовать и вот на почти 240% выросло Мау, то есть ежемесячное количество уникальных пользователей от года к году также и gmv доля рпу тоже супер подросла невероятно этим рад.
204: И будем продолжать делать стонкс по товарам. Ну, теперь точно все, спасибо.
205: Никита, спасибо. Так, микрофон есть. Так, есть 2 вопроса. Давайте 1 девушка.
206: Никит, спасибо за презентацию. Было очень интересно и понятно. Вас послушать. Скажите, пожалуйста, насколько некачественным может быть фото, которое пользователь загружает, чтобы модель поняла?
207: Что изображено и предложила варианты товаров, потому что понятно, если там скриншот из инстаграма на модели легко понять. А вот сфотографировала, я не знаю, сумку у девушки в метро с зумом икс 5 модель найдёт сумку.
208: По идее должна. Мы даже проводили эксперименты. Насколько можно, припросите уменьшать размер фотографии, чтобы хоть как-то работало.
209: Меньше 64 на 64 пикселя. Не рекомендую все, что больше модель даже почти без деградации справляется. То есть мы специально подкидываем в датасеты обучения, модели, немножко мыла и немножко даун семпли и потом обратно семпли, чтобы модель понимала, что
210: Оно в целом тоже очень хорошо работает.
211: Давайте девушку пустим. Да, я прошу прощения, очень было интересно. Ну, у меня такой вопрос. Вы говорили про квадрант достаточно, кстати, 1 из таких известных векторных баз, которые
212: Очень много где используется. Мне интересно, что способствовало вам принятию решения, что надо уходить от квадранта. Проблема была с кастомизацией и необходимыми доработками.
213: То есть, во первых, туда нужно было заливать большое количество метафически, которые уже есть в системе на feature онлайн датасторе, использовать и дублировать данные нехорошо, поэтому нужен какой-то 1 общий векторный индекс квадрат.
214: Не поддерживал. Вот на тот момент, когда мы тестировали такой уровень данных, которые мы туда заливаем. Плюс это дубликация, плюс кастомизация, если коротко, ну то есть кастомизация, наверное, самый базовый запрос был, то есть нужно был
215: Доработки, которые нужно делать внутри движка, а он был по на расте. А у нас гошный бэкэнд, там на 200 человек. Поэтому они взяли, да, и сделали сами. Понятно. Спасибо.
216: Так, и у молодого человека вопрос. Вопрос такой. Можете побольше рассказать про локальный поиск. Ну, на мобилке как это реализовано? Айос андроид? Как там моделька крутится? Да, если коротко мы квантизовал.
217: Меряли качество, чтобы понять, что оно в принципе не деградирует, потому что мы хотели залить модель, но так, чтобы ничего не потерять более детально. Наверное, сейчас могу за ней следить по рассказу, но обычный
218: X. Модель портацию использовали, потестировали на там десятки тестировочных устройств, поняли, где работает хорошо, где работает, плохо сделали не хочу так говорить слов белые списки телефонов, на которых
219: Работает замечательно, и на них катнули.
220: То есть а на других оно уже не работает и дальше чем он nix вы не заходили, ну то есть под конкретный нпу не оптимизировали, мы не заходили дальше, потому что там типа 50 100 миллисекунд по скорости нас более чем устраивает.
221: На устройствах слабее, оно работает, но это там от до секунды может доходить. Это не очень быстро. Пользователи могут расстраиваться от такого вот. То есть оно будет работать, оно окей, сейчас по технике, наверное, очень долго.
222: Надо рассказывать, чтобы можем потом отдельно поговорить. Спасибо. Спасибо. Никит, а какие категории товаров доставляют наибольшие проблемы? Вот с точки зрения детекции? Есть ли такие?
223: Женские шорты и мужские трусы это одно и то же с точки зрения модели всегда было. И, наверное, всегда будет, потому что ничем не отличается. Понятно. Спасибо. Все. Спасибо, никит. Большое спасибо. Так, ну что, у нас остался ещё 1 доклад.
224: Не менее интересный и не менее масштабный на сцену приглашаю Александра Жарикова, архитектора сервиса скан интерфакс, и Александр расскажет про ii сервис интеллектуального управления медиа ландшафтом.
225: Спасибо всем привет. Я расскажу про нашу систему анализа новостей.
226: И у нас кликер надо научиться пользоваться. Система называется скан интерфакс это b2b система. Сначала расскажу, зачем она вообще нужна, да, зачем люди анализируют новости. То есть
227: Поскольку это бизнес делает для бизнеса, то это не просто люди просто читают, есть 2 сегмента сегмент pr и сегмент безопасности, сегмент безопасности, он хочет это, например, крупный банк.
228: У крупного банка, не знаю, 10000, 100000 клиентов. ИНН, какие-то юрлица. Им нужно детектировать новости, риски в новостях. Автоматически что-то случается. Они хотят это знать сразу через там.
229: Через api, грубо говоря, а сегмент pierre это пиарщики, крупные компании, которые хотят анализировать медиаполе, а медиаполе очень большое, и они хотят его анализировать.
230: Автоматически, чтобы система им помогала понимать, что вообще происходит в медиаполе, как их контент распространяется по нему, как контент конкурентов распространяется по нему. То есть на самом деле это такая довольно неструктури.
231: Сфера, в которой никто ничего не понимает. То есть пиарщики сами не понимают, что они хотят анализировать медиаполе и как это там алгоритмизировать, как это структурировать. Вот они знают, как делать свою работу, каждый конкрет.
232: Пиарщик, а как это структурировать? В целом? Нет. Тоже самое. В общем, касается и сегмента безопасности. Они не всегда могут объяснить, а что, собственно, для них риск в новостях, да, вот эта проблема, а новостей много.
233: И их у нас, мы анализируем около полумиллиона публикаций в день. И, соответственно, надо что-то делать. И мы с 2007 года, де,
234: И поддерживаем систему, которая анализирует новости, читает её вместо как бы, вместо человека каждую публикацию прочитывает. Я лично занимаюсь компьютерной лингвистикой уже там с 2009 года ещё до хайпа и
235: И и поэтому прошёл как бы весь путь развития алгоритмов, анализа новостей. А что вообще за алгоритмы значит, что
236: Вообще, за алгоритмы для того, чтобы проанализировать новость, нужно ответить на 2 основных вопроса что произошло и с кем произошло, что произошло это некая фактография.
237: Да, могла случиться там какая-нибудь, какое-нибудь уголовное преступление. Кого-нибудь посадили, что-нибудь сгорело. То есть вот новости, да, это событийная информация.
238: И 2, с кем произошло, это так называемая задача антитлин инг.
239: Идентификации объекта физического мира. То есть у вас написано в новости ооо рога и копыта. Офис сгорел. Что это за рога и копыта и какое юридическое лицо ИНН, да, их много же одинаковых, они все одинаково называются.
240: Рога и копыта. Если вы думаете, что я придумываю Рогов и Копыт в России, ну, больше 50, а компаний ооо вектор больше 50000. Вот, и на них на все подписаны, значит, на
241: По ним подписаны банки, они хотят знать, когда именно с этими рогами и копытами что-то произошло.
242: Ну, это проблема скорее редко упоминаемых компаний, крупно упоминаемые компании, те же самые крупные компании, банки и так далее. Да, там другие проблемы, там не то, что их много одноимённых, зато там очень много.
243: Контекстов. Большая вариабельность контекстов. Ну так вот и теперь немножко про хайпи
244: Сейчас кажется, что ллм решают все задачи, да, они могут их можно привинтить к чему угодно, но на самом деле наша система, которую мы развивали с незапамятных.
245: Времён, да, в ней есть, в ней есть все местами мы используем алгоритмы местами мы используем подходы машинного обучения. Местами мы используем там, собственно,
246: То есть вот этих алгоритмов и микро проблем компьютерной лингвистики, их, ну, их сотни в этой системе, и все, они решаются по разному. Разные подходы эффективны.
247: Ту же проблему энтити линкинг идентификации юрлиц практически невозможно, ну, вернее, очень дорого решать такими подходами, как решают ллм и все наше алгоритмическое ядро теперь, когда искусственный
248: Интеллект появился, да, и действительно может понимать смысл лучше алгоритмов, но алгоритмы делают это тоже хорошо и типа в 1000 раз дешевле, поэтому огромная алгоритмическая база.
249: Стала таким инструментом оптимизации и эффективности бизнеса, который использует вот эти алгоритмы компьютерной лингвистики.
250: Тут, собственно, вот эта презентация, да, это про конкретный продукт на основе вот этого понимания контента. То есть, когда мы извлекли из публикации весь контент, когда мы поняли, как они связаны с кем про
251: Ходили события, чего цитировалось, какие источники кого цитировали. У нас есть вся информация, она структурирована, и она там где-то хранится. Можно строить разные продукты под разные задачи. Вот эта конкретная
252: Презентация эта премия, она рассказывает про медиа листы наш продукт, который мы сделали в прошлом году, здесь акцент на источниках, то есть это инструмент именно для pr, в основном не для безопасности.
253: И он фокусирует внимание pr специалистов на медиаплощадках, на том, какие они, что вообще можно о них узнать, потому что на самом деле, ну вот у нас, допустим, больше 80000 медиаплощадок, да, есть
254: Естественно, ни 1 пиарщик на самом деле не знает их все, он знает какие-то основные. Там идёт такое сарафанное радио. Сфера очень не структурирована, а мы пытаемся сделать инструмент, который структурирует эту
255: Информацию. Для этого вот мы сделали медиа листы, в которых вся информация сегрегирована в источнике.
256: Я тут ещё немножко порассуждаю. Понимаете, в чем дело, когда у вас задача. Ну, например, отличить изображение кошки от изображения собаки. Да, классическая задача. Имидж рекогнишн. У вас изна.
257: Изначально более или менее понятно, как её решать и как размечать корпус, потому что, грубо говоря, эмэль специалист, он сам знает и сам в основном может отличить кошку от собаки.
258: В этих сферах, в pr и безопасность, да, потому что нам нужно решать конечную задачу эффективно можно решать только задачу, которая хорошо поставлена. Так вот, эти задачи, они не хорошо поставлены, потому что что хорошо
259: Для pr и что хорошо для безопасности никто не знает, нет специалистов, которые это рассказывают, мы это придумываем сами и сами становимся сначала сами люди становятся специалистами в pr и в безопасности, а затем мы уже
260: Тренируем, значит, систему решать задачи автоматически.
261: Ну и, соответственно, медиа листы фокусируются на источниках, и что я могу про них рассказать? Расширенная аналитика по источникам можно проводить конкурентный анализ, да, поскольку мы теперь знаем в каком
262: В какой публикации, кто упоминался, чего с ним происходило. Мы можем все свести к источнику, посмотреть на такую общую таблицу. У меня тут была таблица. По сути, этот продукт это такая таблица, в котором можно посмо.
263: Смотреть и сравнить источники между собой, выбрать те источники, которые подходят под нужный контент, да, пиарщик, он заранее планирует pr компанию, он знает контент, который ему нужно вкинуть в сми, но
264: В принципе, не всегда знает, а куда эту pr компанию размещать вот этот инструмент позволяет сравнительным анализом, значит, подобрать площадки тоже самое можно делать и по контенту.
265: У меня был слайд про
266: Слайд про ii ну, грубо говоря, на основе контента именно содержимого можно подобрать площадки, которые пишут похожий контент, писали его ретроспективно, писали его о других для других компаний.
267: И, соответственно, можно рекомендовать таким образом медиа листы становятся системой рекомендации. Вот, наверное, у меня здесь все, я, ну, вот на эту аудиторию не хочу рассказывать про сами медиалист, потому что
268: Это специфический pr инструмент, мне было интересно поговорить именно про entity linking и про конкретные задачи компьютерной лингвистики которые за этим стоят они решаются не внутри media листов да не.
269: Внутри конкретного продукта, они, ну, решаются при поступлении публикации в систему. То есть вот источник публикует, мы её парсим и решаем все эти задачи, мы уже из этого делаем конечный
270: Продукты. Вот переходим к вопросам.
271: Александр, спасибо. Вопрос.
272: Спасибо. Мне было интересно, вот в какой связи с точки зрения применимости тоже имею отношение к отрасли поиска информации. Поэтому вопрос, существует ли бесплатный тариф и
273: И вообще, где ссылка, как посмотреть, что, ну то есть с точки зрения использования это довольно интересная штука. Спасибо.
274: Бесплатный тариф не существует, он существует только в рамках коллаборации. То есть, если вы, например, университет, я, кстати, рад в этом смысле присутствовать на площадке мгу, потому что я, ну, как бы тут учился, и мне интересно.
275: И я благодарен за это, да, если вы мгу, если вы там сколково, то, конечно, мы открыты к коллаборациям, и мы предоставляем данные, которые можно использовать там для каких-то некоммерческих проектов, это
276: Можно договориться. И и данные предоставляем, и доступ к системе предоставляем. А, ну, лично как бы в индивидуальном порядке. Ну, нет, не предоставляем только за деньги.
277: Ссылка есть, ссылка есть и вот вас, да, во первых, вот это, во вторых, вот девушки сидят, они вас проконсультируют.
278: Спасибо за вопрос, Александр, а вот вы упомянули, что анализируете порядка 80000 источников, да? А вот если, ну, появляется какой-то новый новостной портал, да, вот он вот сегодня появился, ну, конечно, постоянно, да, собственно, они постоянно появляются, а, ка,
279: Система понимает, что именно вот этот новостной портал, что это, в принципе, новостной портал, да, и то, что его вообще нужно анализировать, а не просто там какой-то сайт. Угу. Ну, смотрите, во первых, во первых, мы немножко живём в эпоху.
280: Кризисы новых новостных порталов у нас скорее закрываются, площадки, чем открываются. Я не говорю, что они совсем не открываются, но как бы 1000 в месяц это нечто, где автоматизация не очень нужна.
281: То есть мы, во первых, есть отдел, который действительно добавляет площадки руками, они смотрят, это хорошая площадка или нет, вплоть до того, что связываются с ними напрямую, да, и говорят с ними, кто они, потому что
282: Мы как интерфакс, в общем, несём ответственность за то, какую информацию мы размещаем. Вот. Но, конечно, там есть алгоритмические подходы, как вообще выявлять площадки. Ну, во первых, есть цитирование, да, на них же ссылаются на них.
283: Ссылаются по названиям в сми, ссылаются на telegram, в telegram есть репосты, то есть ну, легко вытащить новая площадка, которую никто не цитирует, это не площадка, она ещё не новостная.
284: Не состоялось, понятно. Ну, то есть доля ручного некого. Ну, у нас, у нас есть везде и ручной труд, и автоматизация. Все есть. Понятно. Спасибо, Александр. Ну что, подошёл?
285: К концу наш 1 день, дата фьюжен. Доклады, на мой взгляд, получились очень интересные и разные. Абсолютно из разных сфер. Ждём вас завтра на продолжение программы. Всем спасибо за внимание.