Десятки миллионов раундов игры в прятки | Как OpenAI обучает искусственный интеллект

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:00:16

Игра в прятки с искусственным интеллектом:

1. Обсуждалась тема развития и применения искусственного интеллекта, играющего в игры типа «прятки», где одна сторона ищет, другая прячет (красные и синие)
2. Упоминалось, что искусственный интеллект активно учится и совершенствуется благодаря многочисленным попыткам и ошибкам
3. Говорилось о компании Open AI, её создании и изначальных целях, связанных с пользой обществу и контролем над искусственным интеллектом

00:01:44

Эксперимент с искусственным интеллектом Open AI:

Компания OpenAI после ухода Маска зарабатывает самостоятельно и её оценка изменилась
В эксперименте с искусственным интеллектом участвуют две команды человечков (красные и синие), использующие стратегию поиска друг друга на игровой арене
Искусственный интеллект постепенно раскрывает ранее неизвестные уязвимости игрового мира, выявленные лишь в процессе многократных повторений игры

00:04:01

Обучение искусственного интеллекта методом проб и ошибок:

1. Выявлена проблема вылета пандуса за пределы арены вследствие контакта со стенкой под определенным углом (используется красными игроками)
2. Применяется методика машинного обучения через обучение с подкреплением, основанная на повторении успешных действий игрока после получения сигналов подкрепления
3. Для достижения эффективных результатов искусственному интеллекту необходимы миллионы попыток взаимодействия со средой

00:05:08

Использование искусственного интеллекта в играх и обучении:

1. Разработан сценарий игры, где ИИ управляет посадкой лунного модуля между двумя флажками
2. За успешную посадку модуль получает максимальное количество очков, ошибка снижает очки
3. В процессе тренировок точность посадки улучшается через 15 минут и час игрового времени

00:05:54

Инструменты и технологии Open AI:

Создан набор инструментов (OpenRL) для разработки и тестирования алгоритмов обучения с подкреплением
Набор OpenRL предназначен для обучения сложных моделей, включая симуляцию посадки лунного модуля и игры в космические захватчики
Для работы с набором необходимы знания написания алгоритмов и языка Python

00:06:25

Продукт Open AI — GPT-3:

1. Разработчики OpenAI считают необходимым зарабатывать деньги для финансирования разработки новых технологий ИИ, поскольку некоммерческая организация не способна обеспечить достаточные ресурсы для конкуренции с коммерческими компаниями
2. В 2017 году OpenAI затратила около $8 млн на облачные вычисления (почти четверть всех своих расходов), значительно меньше, чем аналогичная американская компания DipMind ($440 млн)
3. Microsoft получила эксклюзивную лицензию на использование GPT-3, работая напрямую с исходным кодом технологии, в отличие от остальных пользователей, работающих исключительно через API

00:08:27

Возможности и ограничения GPT-3:

GPT-3 способен генерировать текст высокого качества, схожий с человеческим, используется сотнями компаний и стартапов (например, Microsoft)
Алгоритм GPT-3 применяется для перевода разговорной речи пользователей в программный код, используется в браузерной игре AI Dungeon 2 и стартапе Othercide
GPT-3 применим для написания персонализированных электронных писем, однако имеет недостатки и ограничения, выявленные в тестировании медицинских чат-ботов

0: Сперва жертвы беспорядочно бились о стены, потом панически убегали от врагов, затем научились блокировать проходы с помощью коробок. А когда враги начали использовать пандус, чтобы перепрыгивать через стены жертвы спи.

1: Что этот пандус можно спрятать и почти гарантированно победить. Вот только потом искусственный интеллект научился мухлевать, не нарушая правила, но используя недочёты в их логике. Да, все верно. Речь про

2: Искусственный интеллект, который играет в прятки красные ищут синие прячутся и так миллионы, десятки миллионов и сотни миллионов попыток, во время которых искусственный интеллект ошибается, обучается и находит неожи.

3: Решение, которые удивляют даже самих разработчиков из open ai.

4: Всем привет, это канал онлайнер технологий в кадре, виталик Алехнович. Сегодня поговорим именно про этих передовиков в сфере разработки искусственного интеллекта. Компанию open ai. Она создавалась как некоммерческая органи.

5: Организация, которая должна была работать на благо общества в сфере создания и обуздания искусственного интеллекта. По крайней мере, такие смыслы закладывали в неё илон маск и другие сооснователи в 2015 году, но

6: Спустя пару лет маск ушёл из правления оупен эйай, а компания стала зарабатывать на своих разработках и оценивается уже не так однозначно положительно, как это было на старте, об этом позже, а пока вернёмся к игре в прятки.

7: С искусственным интеллектом. Наверное, это 1 из самых впечатляющих экспериментов оупен эйай. По крайней мере, он красочный, наглядный и простой для понимания. Есть 2 команды красных и Синих Человечков. Одни ищут другие.

8: Прячутся на игровой арене, есть стены, разбросаны разные предметы, искусственный интеллект отправляют на них абсолютно девственно. Он не знает, как использовать свои способности, как лучше укрываться. Однако благодаря миллионам

9: Повторений и командному вознаграждению участники игры открывают для себя все более сложные инструменты, различные стратегии и контрстратегии, адаптация под которые приводит к чрезвычайно сложному и интеллектуально.

10: Поведению. На арене. На арене есть комната и 2 двери, пара ящиков и пандус. Первые 2500000 игр проходят в беспорядочной беготне по арене. К 8 1000000 повторений. Команда Синих обнаруживает способность двигать я

11: И перекрывать ими проходы в комнату, пока красные в состоянии стазиса дают им фору ещё около 7000000 игр уходит на то, чтобы красные подобрали ключик ко взлому комнаты, они научились двигать пандус, чтобы с его помощью

12: Перепрыгивать через стену следующие 30000000 попыток понадобились команде Синих, чтобы научиться на старте уводить пандус в свою безопасную комнату. При этом обратите внимание, насколько скоординированными и отточенными оказывают

13: Действия команды Синих пандус бросают так, чтобы он не перекрывал траекторию коробкам, которыми будут закрывать двери, a1 из Синих участников команды даже пододвигает коробку для напарника, чтобы ему не пришлось тратить драгоценное.

14: Время на беготню к ней самое удивительное, что в ходе этих бесчисленных миллионов попыток искусственный интеллект обнаруживает уязвимости в логике своего мира, которые не задокументировали даже сами разработчики, они позволяют

15: Добиваться тем, кто прячется, или тем, кто ищет победы.

16: Синие в какой-то момент обнаружили, что контакт пандуса со стеной под определённым углом приводит к его вылету за пределы арены. Похожую уязвимость используют красные, когда обнаруживают, что удар пандусом о стену заставляет.

17: Их взлететь и поймать взглядом Синих это победная стратегия, её повторение с победным результатом приводит к закреплению. Такой способ машинного обучения называют обучением с подкреплением. Это метод проб.

18: И ошибок, когда агент игрок взаимодействует со средой и получает сигналы подкрепления в случае с прятками. Агент это синий или красный участник игры, а подкрепление это победные очки в конце партии и

19: Напоминает эффективные действия, которые принесли ему победу, и начинает их использовать. Правда, искусственному интеллекту нужны десятки миллионов попыток, чтобы начать демонстрировать эффективные результаты. Конечно, многое зависит от слож.

20: Окружения и задачи, которую перед этим ii ставят, например, есть простенькая задача по посадке лунного модуля между 2 флажками на игровом поле у модуля есть основной и 2 боковых двигателя исполь.

21: Эти двигатели. Искусственный интеллект должен аккуратно приземлиться между флажками, за что получит максимальное количество очков, крушение отнимает сотню очков, работа каждого двигателя отнимает по 0,3 очка.

22: Каждый игровой кадр спустя 15 минут тренировки лунный модуль уже приземляется на обе ноги, спустя час приземление становится более плавным, экономным и точным поиграться с тренировкой искусственного интеллекта.

23: Можно и самому. Опен реаль создала набор инструментов, джим, для разработки и сравнения алгоритмов обучения с подкреплением. Набор позволяет обучать агентов всему от той самой посадки лунного модуля до

24: Игры в космических захватчиков. Конечно, для этого нужны определённые знания в написании алгоритмов и собственно языке программирования питон, но кто знает, может, именно этот спортзал искусственного интеллекта и сподвиг

25: Вас к освоению таких навыков, но все озвученное выше это скорее игрушки. Забавный аттракцион, который демонстрирует возможности машинного обучения в ярких красках основной продукт опен эйай это gpt.

26: 3 алгоритм обработки естественного языка 3 поколения он умеет создавать тексты, практически неотличимые от того, что пишет человек эту систему ещё несколько лет назад разработчики считали слишком.

27: Опасный и отказывались обнародовать, хотя в изначальном уставе компании разработчика опен эйай декларировалась открытость разработчики переживали, что их алгоритм может использоваться людьми с грязными.

28: Помыслов в качестве наиболее безвредного примера называли генерацию фейковых отзывов в интернет магазинах, тем не менее это не помешало опен эйай лицензировать GPT-3 эксклюзивно для microsoft it гигант получил до.

29: К исходному коду технологий, тогда как все остальные довольствуются работой с GPT-3 через api программную прокладку и только после одобрения со стороны разработчиков open eye мотивировала это.

30: Тем, что для создания лучших в своей сфере продуктов компании нужно зарабатывать деньги и с их помощью финансировать разработку, чтобы не отставать от конкурентов в качестве некоммерческой организации, это делать было невозможно.

31: Например, только в 2017 году на облачные вычисления опен эйай потратили почти 8 000 000 $ четверть от всех своих расходов, тогда как другая известная ии лаборатория дип майнд, за которой стоит

32: Google в том же году позволила себе расходы в размере 440 000 000 $ переход на коммерческие рельсы позволит привлекать инвестиции в погоне за созданием настоящего искусственного интеллекта все, что

33: Пока есть у человечества это так называемые слабые ии, которые способны решать ограниченные задачи тот самый GPT-3 это слабый искусственный интеллект, название, возможно, выглядит уничижительно, но GPT-3.

34: Умеет генерировать текст, который сложно отличить от написанного человеком, с ним можно пообщаться на какие-то рядовые темы, его проза и даже поэзия могут быть одновременно удивительными и устрашающими все-таки это pug.

35: Пугающая демонстрация того, как программа движется по пути познания человеческой речи сегодня GPT-3 используют сотни различных компаний и стартапов майкрософт, например, прикрутила алгоритм к платформе разработки простых бизнес.

36: Приложений GPT-3 переводит разговорный язык в программный код для выполнения на этой платформе браузерная игра ai dungeon 2 это текстовая адвенчура, которая взяла GPT-3 на вооружение с целью генерации контент.

37: Наполнения для игры и подарила обширные, наполненные персонажами и мотивациями миры в различных популярных литературных сеттингах стартап othercide эйай использует GPT-3 для конвертации Коротких.

38: Ответов и заметок хорошо составленные и персонализированные электронные письма, которые выходят за рамки банальной функции автоответчика, у GPT-3 хватает недостатков, так как она учится на основе огромного количества.

39: Общедоступных текстов и её ответы могут быть некорректными или даже оскорбительными в ней уже заметили плохое поведение со словами чёрный или еврей, а тесты медицинского чат бота на основе gpt.

40: 3 привели к тому, что бот посоветовал условному пациенту с суицидальными мыслями покончить с собой искусственный интеллект прошёл большой путь, но все ещё в его начале до создания настоящего искусственного интеллекта.

41: Сильного нам ещё далеко. По крайней мере, я на это надеюсь. Спасибо, что смотрели. Поставьте лайк, если вам было интересно.