ИСТОРИЯ НЕЙРОСЕТЕЙ - ОТ ПЕРЦЕПТРОНА ДО CHATGPT

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:00:00

История возникновения нейронных сетей:

1. Первые нейронные сети начали развиваться в сороковых годах XX века
2. Термин «глубокое обучение» стал широко известен лишь в 2006 году
3. До 2006 года глубокое обучение называли коннекционизмом (восьмидесятые-девяностые), а ранее — кибернетикой (сороковые-шестидесятые)

00:00:46

Ранние модели нейронных сетей и кибернетика:

1. Первые модели нейронных сетей появились еще в сороковые годы благодаря пионерам эпохи кибернетики
2. Кибернетика возникла под влиянием нейронаук и исследований нейронов, изначально направляясь на создание упрощенных моделей работы мозга
3. Изначально целью первых работ в области кибернетики было получение первых прототипов ИИ-моделей

00:01:17

Работа Уоррена Маккалока и Уолтера Питтса:

1. Макало и Пицца разработали модель нейрона, представляющего собой элементарную логическую единицу, способную находиться в активном или неактивном состоянии и передавать сигналы другим нейронам
2. Авторы показали, что с помощью конечной сети нейронов возможно выполнение любой логической операции, приведя конкретные примеры реализации операций «и», «или»
3. Для выполнения операций отрицания использовались ингибирующие (запрещающие) связи между нейронами

00:03:34

Развитие перцептрона Фрэнка Розенблата:

1. Перцептрон стал первой полноценно обучаемой нейронной сетью, предложенной молодым учёным Фрэнком Розенблатом в середине XX века
2. В перцептроне каждый нейрон соединялся лишь с некоторыми ближайшими нейронами следующего слоя, а не со всеми, как в современных сетях
3. Обучение перцептрона осуществлялось через изменение весовых коэффициентов связей между нейронами, при этом использовался алгоритм усиления правильных связей и ослабления неправильных

00:06:37

Критика перцептрона Марвином Минским:

Марвин Минский и Сеймур Пейперт опубликовали работу, критикующую существующие модели искусственного интеллекта и ставящую под сомнение использование нейробиологических аналогий
Перцептроны были названы Минским спекулятивной биологией, и он привел пример, подчеркивающий один существенный недостаток перцептронов, связанный с линейной разделимостью классов
Работа Минского и Пейперта привела к снижению интереса к перцептронам и развитию альтернативных подходов в области искусственного интеллекта

00:10:26

Алгоритм обратного распространения ошибки:

Алгоритм обратного распространения ошибки (back propagation), также известный как бэкпропагейшн, объединяет градиентный спуск и правило дифференцирования сложных функций
Градиентный спуск используется для поиска параметров модели, минимизирующих отклонение модели от истинных значений на выборке обучения
Производная ошибки по каждому из параметров модели позволяет оценить вклад каждого параметра в общую ошибку модели

00:13:12

Когнитрон Кунихико Фукушимы:

Когнитрон Фукусимы имел четыре слоя с обучаемыми параметрами и отличался способностью самоорганизации процесса обучения
Нейроны когнитрона были небинарными, их сигнал зависел от силы входного сигнала и использовался для формирования специализированных нейронов, реагирующих на конкретные паттерны изображений
Процесс обучения когнитрона включал деление каждого слоя на участки и усиление связей одного наиболее активного нейрона, что способствовало специализации нейронов на определенных паттернах

00:15:15

Возрождение интереса к нейронным сетям в 80-х годах:

В 1986 году Дэвид Руммельхарт, Джеффри Хинтон и соавторы опубликовали две научные работы, ставшие основой для развития глубокого обучения и многослойных моделей
Работы Руммельхарта и Хинтона включали исследование представлений параллельных распределённых моделей (PDP), рассматривающих мышление и память через паттерны активации нейронов
Для обучения многослойных перцептронов впервые был использован алгоритм обратного распространения ошибки, предложенный Вербосом в 1974 году, однако признание первооткрывателя произошло позже

00:17:47

Современные архитектурные разработки:

1. Сформировались две новые архитектуры моделей: свёрточные нейронные сети для обработки изображений и рекуррентные нейронные сети для обработки естественного языка и последовательностей
2. Версия рекуррентных нейронных сетей авторов оказалась менее значимой по вкладу, чем предыдущие исследования, однако именно она закрепилась и стала стандартом
3. Предложено начать использовать предложенные модели в работе

00:18:18

Сверточные нейронные сети Ян Лекуна:

Ян Лекун в 1989 году предложил первую версию свёрточной нейронной сети, основанную на улучшенной архитектуре нейронных сетей
Модель Лекуна использовала синхронизацию весов нейронов одного слоя для обнаружения паттернов независимо от их положения на изображении
В предложенной модели информация поступала к нейронам через фиксированное окно (размером 3×3 или 5×5), что повышало эффективность обработки изображений

00:20:50

Рекуррентные нейронные сети Джеффри Элмана:

Модель нейронной сети правильно классифицирует объекты с точностью около 80%, использование перцептрона и обучаемых скрытых слоев не улучшает результат
Для обработки текста эффективно использовать рекуррентные нейронные сети благодаря наличию циклических связей, позволяющих сохранять контекст и накапливать важную информацию
Рекуррентная нейронная сеть Элмана способна запоминать и анализировать длинные последовательности слов, используя дополнительный рекуррентный слой и циклические связи

00:24:08

Проблемы и ограничения глубоких нейронных сетей:

Появление способа обучения многослойных моделей не означало возможности неограниченного увеличения количества слоев, практическое применение ограничивалось моделями из 3–4 слоев
Недостаток вычислительных мощностей и нехватка данных стали основными причинами замедления развития коннекционизма в конце XX века
В середине девяностых годов учёные объединились в одну исследовательскую программу, продолжив развитие существующих моделей и предложив новые подходы (например, LSTM)

00:26:55

Новая эпоха глубокого обучения:

1. Джеффри Хинтон опубликовал в 2006 году новую генеративную модель Deep Belief Network, состоящую из четырех слоев
2. Благодаря развитию игровой индустрии и росту требований к графике, появилась возможность эффективно обрабатывать тензоры на видеокартах
3. Рост объема доступных данных и появление больших открытых наборов данных (например, ImageNet), способствовал дальнейшему прогрессу глубокого обучения

00:30:14

Успехи глубокого обучения в обработке изображений:

1. Рассматривались достижения современных моделей компьютерного зрения и их развитие с 1990-х годов до 2019 года
2. Обсуждались ключевые прорывы в развитии моделей, начиная с Алекса Нет (2012), Виджи Джи (2014), Резнет (2015) и Эфишента Нет (2019)
3. Упоминалось, что прогресс в обработке текста значительно отставал от успехов в области компьютерного зрения

00:31:45

Преимущества и недостатки трансформеров:

1. Трансформеры стали основой успешных моделей обработки и генерации текста, включая современные LLM-агенты (например, ChatGPT), а также широко применяются в компьютерном зрении
2. Последующие версии трансформеров значительно превзошли сверточные модели по эффективности и продолжают доминировать в задачах компьютерного зрения и обработки естественного языка
3. Современные трансформеры продолжают активно развиваться и улучшаться, становясь крупнее и точнее, однако темпы роста уже не такие стремительные, как ранее

00:32:31

Возможности и перспективы искусственного общего интеллекта:

Исследователи разделяются во мнениях относительно достижимости ЕГИ (искусственного общего интеллекта), одни считают, что это реально достичь с помощью современных нейросетей и увеличения объемов данных и размеров моделей, другие утверждают, что потребуется принципиально новый подход
Несмотря на регулярные обещания о приближении ЭДЖАЙ (эмерджентный общий искусственный интеллект) в разные сроки, большинство специалистов полагают, что в ближайшее время его достижение маловероятно
Глубокое обучение уже успешно интегрировано в экономику и повседневную жизнь, обеспечивая работу рекомендательных систем, сервисов потокового видео и маркетплейсов, а также развитие автономных транспортных технологий

0: Всем привет, мы с вами тут активно разбираем нейронные сети, но сегодня я бы предложил отправиться в прошлое и выяснить, когда появились первые нейронные сети и с чего вообще начиналось глубокое обучение, мы отправимся дальше, чем вы могли себе представить, и проследим важные исторические тенденции.

1: Которые помогут нам понять текущую картину и даже аккуратно поспекулировать на тему будущего. Итак, наша история начинается ещё в 1900 сороковые годы. Вы можете сразу спросить, если глубокому обучению столько лет, почему оно на слуху только последние лет 10. Дело в том, что

2: Глубокое обучение имело много названий, и именно как глубокое обучение оно стало известно только в 2006 году до этого с восьмидесятых по девяностые, оно называлось коннекционизмом, а ещё раньше, с Сороковых по шестидесятые кибернетикой, вы могли заметить пробелы между этими датами.

3: Эти годы соответствуют 2 кризисам, во время которых по разным причинам наблюдался резкий спад популярности нейронных сетей и связанных исследований эти периоды называют зимами, но обо всем по порядку первые модели нейронных сетей были предложены пионерами эпохи кибернетики ещё в сороковые.

4: Сама кибернетика сформировалась под влиянием нейронаук исследований, нейронов и синоптических связей, а первые работы в области кибернетики были направлены на построение упрощённых математических моделей работы мозга, что потенциально позволило бы получить первые модели искусственного интеллекта успех.

5: Кибернетики обеспечила статья логическое исчисление идей, относящихся к нервной активности, вышедшая в 43 году в ней уоррен макало и уолтер пицца опубликовали свою модель нейрона она была не 1, но авторы ввели несколько удачных упрощений, которые позволили другим иссле.

6: Следователям взять их модель за основу нейрон макалоа пицца представлял собой элементарную логическую единицу он мог находиться либо в активном, либо в неактивном состоянии и передавать сигналы другим нейронам. Все сигналы были единичными, но у каждого нейрона был свой порог актив.

7: Если сумма входных сигналов его превышала, нейрон активировался, кроме стандартных возбуждающих связей были ингибирующие передача сигнала по такой связи предотвращала активацию нейрона вне зависимости от суммы других сигналов. В этой же работе макало и пицц привели до.

8: Доказательство того, что с помощью конечной сети нейронов можно выполнить любую логическую операцию, и привели несколько примеров посмотрим на самые простые, чтобы выполнить с помощью нейронов операцию а и б. Нужно использовать 2 возбуждающие связи и установить порог активации.

9: Ц равный 2. Обозначим его как тета. Тогда ц активируется только если оба нейрона а и б активны для операции а или б достаточно снизить порог активации ц до единицы, тогда он активируется, если активен хотя бы 1 из нейронов или если активн.

10: Оба операции отрицания можно реализовать с помощью ингибирующих связей, например, для операции а и не б. Достаточно изменить связь ц на ингибирующую ц активируется только если активирован, а и не активирован б. Вы можете увидеть тут аналогию с работой.

11: Транзистора транзистор тоже элементарная логическая единица, которая может пребывать только в 1 из 2 состояний, а благодаря грамотному объединению транзисторов в цепи можно создать процессор, способный выполнять любые вычисления. Аналогия становится ещё более интересной, если учесть, что

12: Транзисторы разрабатывали примерно в то же время, но макало и пицц интересовались только идеями из области чистой логики, а не электротехники пицц вообще видел мозг как идеальную систему нейронов, занятую центральной обработкой информации, поступающей от органов чувств как от сенсоров, но.

13: Главное, что вы можете заметить в этой работе она не имеет ничего общего с машинным обучением. У модели должна быть возможность вывести на основе данных зависимость, что позволит использовать модель для решения подобных задач. Это достигается за счёт обучаемых параметров и алгоритма обучения.

14: Но в статье нет ни того, ни другого, тем не менее нейрон макала-ка. Пицца приковал к себе внимание других исследователей, которые пытались построить на его основе обучаемые модели, и 1 такая модель появилась спустя 15 лет её опубликовал молодой учёный фрэнк Розенблат в 50.

15: Году в статье под названием перцептрон вероятностная модель хранения и организации информации в мозге, розенблату удалось объединить несколько наиболее удачных идей разных исследователей и создать, по сути, 1 обучаемую нейронную сеть. Перцептрон был моделью из нескольких сотен не

16: Макала Капица с несколькими важными модификациями вместо произвольной конфигурации перцептрон имел чёткую структуру, состоявшую из нескольких слоёв тут важный момент в отличие от современных нейронных сетей в перцептроне каждый нейрон не связывался со всеми нейронами в соседнем слое.

17: Это противоречило исследованиям о работе мозга, которые показывали избыточность такого количества связей. Кроме того, это привело бы к лишним вычислениям. Вместо этого каждый нейрон связывался с некоторым количеством случайных нейронов из числа ближайших соседей. Модель нейрона макала-ка пицца предполагал

18: Наличие у каждого нейрона своего порога, активации и простые связи, которые просто передавали сигналы между нейронами без изменений. Вместо этого Розенблат установил одинаковый порог активации для всех нейронов, но сделал все связи взвешенными веса связи были обучаемыми параметрами, наконец.

19: Розенблат предложил правила обучения, пока предположим, что нейроны слева содержат входные данные, так как перцептрон был моделью классификации в последнем слое был 1 или несколько нейронов, отвечавших за определённый класс, если нужный выходной нейрон не срабатывал все связи между ним.

20: И активированными нейронами во входном слое одинаково усиливались ожидалось, что в следующий раз взвешенной суммы их сигналов уже будет достаточно для активации, если выходной нейрон, наоборот, активировался по ошибке, все связи между ним и активированными нейронами во входном слое одинаково.

21: Расслаблялись. Это правило применялось ко всем нейронам в выходном слое, но самое удивительное в перцептроне было даже не то, что он был полноценной, обучаемой нейронной сетью в 58 году, а то, какие задачи он решал и как был реализован, перцептрон, был моделью компьютерного зрения в качестве

22: Входных данных использовались изображения размером 20 на 20 точек между входными и выходными нейронами был промежуточный слой из нескольких сотен нейронов. Он связывался со входными нейронами случайными связями с фиксированными весами, так как обучаемыми были только веса между

23: Промежуточными и выходными нейронами. Технически это все ещё была однослойная нейронная сеть, но наличие промежуточного слоя позволяло перцептрону анализировать не отдельные пиксели, а сочетание случайных групп пикселей более поздние модели зрения будут развивать ту же идею в процессе обуче.

24: Изображения обрабатывались по 1 и веса перцептрон обновлялись после каждого изображения, разные версии перцептрона могли различать до 8 классов объектов, например, перцептрон отлично справлялся с классификацией геометрических фигур, кроме того, перцептрон не был программой.

25: Это был реальный физический компьютер Марк Ван перцептрон с собственным мануалом на 65 страниц веса моделировались потенциометрами, которые автоматически настраивались с помощью системы Моторов в процессе обучения после такого яркого старта можно было бы ожидать бурное развитие.

26: Усложнение моделей и в какой-то степени это действительно произошло и до, и после публикации перцептронов шла активная работа над другими моделями, но это продолжалось недолго в 69 году бывший сокурсник розенблата марвин минский вместе с сеймуром пейпертом опубликовал книгу перце.

27: Трон, которая нанесла тяжёлый удар по кибернетике в этой работе, минский и пейперт, не только критиковали известные на тот момент модели, но и в целом ставили под сомнение целесообразность использования аналогий из нейронауки в искусственном интеллекте их идеалом был искусственный интеллект, построенный на чётки.

28: Логических правилах, а перцептроны минский называл спекулятивной биологией, но особенно болезненным был небольшой пример, который минский и пейперт привели для того, чтобы подчеркнуть 1 важный недостаток перцептронов. Этот недостаток был незаметен, когда данных было много или когда данные имели

29: Большую размерность, как в случае с изображениями, минский и пейперт, напротив, взяли очень простую задачу пусть у нас есть 2 переменные a и b, которые могут принимать только 2 значения истина или ложь, если перцептрон может решать настолько сложные задачи, как классификация изобра.

30: Вряд ли у него возникнут проблемы с тем, чтобы выучить зависимость. Ксор логическая, исключающая или, в отличие от обычного, или результат равен нулю. Когда обе переменные равны единице, чтобы понять, в чем здесь может быть проблема. Изобразим задачу, графически отложим значение, а?

31: Б по осям икс и игрек, а результат операции обозначен цветом, так как мы оказались в двумерном пространстве. У нас есть возможность увидеть, как принимается решение. По сути, перцептрон просто умножает входные данные на некоторые коэффициенты и сравнивает результат с порогом активации на плоскости.

32: Это эквивалентно тому, чтобы провести прямую и отнести все объекты по 1 сторону от прямой к 1 классу, а по другую сторону к другому в пространстве с большим количеством размерностей. Вместо этого границей будет плоскость или гиперплоскость, и вы уже можете заметить, в чем проблема ксор.

33: В отличие от других операций, например, логического и и логического, или разделить её результаты с помощью 1 прямой линии невозможно чувствуете, как магия перцептрона улетучивается для его идеальной работы все классы должны быть линейно разделимыми. Тут важно заметить, что все сказанное

34: Относится только к однослойным перцептроном, которые являются 1 из разновидностей линейных моделей решающая граница многослойного перцептрона будет состоять из полигонов и сможет изолировать нужные точки, так как уже в оригинальном перцептроне 58 года Розенблат пытался добавить больше слоёв.

35: Хотя и с частично зафиксированными связями вы можете спросить, что мешало ему пойти дальше? Проблема была в алгоритме обучения. Он позволял изменять веса связей только в последнем слое. Именно они напрямую влияли на ответ. Но каким было оптимальное состояние связей в предыдущих слоях, кото

36: Которые оказывали только опосредованное влияние на результат, было абсолютно непонятно все это контрастировало с амбициозными заявлениями розенблата о потенциальных возможностях перцептронов, при этом влияние работы минского и пейперта было столь велико, что интерес к перцептронами ачал угасать сам.

37: Розенблат трагически погиб всего 2 года спустя, a1 из авторов оригинальной модели нейрона, уолтер питтс исчез из научной жизни ещё раньше он был потрясён статьёй, что видит глаз лягушки, в которой сам принимал участие эта статья доказывала, что глаз не является просто сенсором.

38: Паттерны света анализируются ещё в сетчатке, и в мозг поступает уже в некоторой степени осмысленная информация о наличии объектов и движения, а не просто об уровне освещённости это пошатнуло взгляды пицца и его видение мозга как идеальной логической машины для централизованной обработки.

39: Информации. После выхода статьи пицц уничтожил свои исследования и фактически прекратил свою научную деятельность другие исследователи вслед за минским обращались к альтернативным подходам и моделям финансирование кибернетики резко сократилось, и началась 1 зима вместе с этим.

40: Могла бы окончиться и история нейронных сетей, которые навсегда остались бы перцептронами, интересными с исторической точки зрения, но бесполезными моделями. Но ирония в том, что всего через 5 лет после публикации перцептронов аспирант пол вербос опубликовал в своей докторской диссертации тот самый не

41: Алгоритм обучения многослойных моделей алгоритм обратного распространения ошибки в оригинале он назывался бэк пропагейшн или просто back проб. По сути, он был объединением градиентного спуска и правила дифференцирования сложных функций вообще градиентный спуск это универсальный алгоритм.

42: Ритм приближённого поиска минимума функции, который используют, когда точные методы оказываются неэффективными применительно к перцептроном градиентный спуск можно использовать для поиска параметров, которые минимизируют отклонение модели от истинных значений на выборке обучения, поиск минимумов.

43: Спуске выполняется с помощью серии Шагов, на каждом из которых вычисляют производную ошибки по каждому из параметров модели. Её значение характеризует вклад этого параметра в ошибку. Для уменьшения ошибки нужно вычесть из текущего значения параметра значение производной, умноженное на неё.

44: Большое число. Серия таких Шагов приведёт параметры к оптимальному состоянию, которое соответствует минимальному отклонению модели от истинных значений. Этот алгоритм звучит далеко не так понятно, как правила обучения розенблата, но у него есть значительное преимущество для градиентного спуска.

45: В отличие от правила розенблата, нет разницы между параметрами в последнем слое, которые напрямую влияют на ответ, и параметрами в более Глубоких слоях модели, их влияние в любом случае оценивается через производные, но есть разница в плане вычисления, производные по параметрам в Глубоких слоях вычислять.

46: Труднее именно для их поиска вербос и предложил использовать правило дифференцирования сложных функций. Попробуем вычислить производные отклонения модели по параметрам дабл ю 1 и дабл ю 2. Правило дифференцирования сложных функций заключается в том, чтобы выразить сложные производные через

47: Произведение более простых производных в данном случае рассматривая работу модели в обратном направлении, например, отклонение модели напрямую зависит от предсказания. Предсказание напрямую зависит от дабл ю 2, так как этот параметр находится в последнем слое для вычисления производной по дабл ю 1.

48: Понадобится на 1 шаг бооольше используем ту же логику отклонение модели зависит от предсказания предсказание зависит от x 2 а x 2 от дабл ю 1 если вы не уверены, что наше умозрительное заключение вообще корректные, можете просто зачеркнуть одинаковые множители и убедиться, что выражение

49: Слева и справа совпадают значение производных. Справа зависит от функции потерь и функции активации, и посчитать их, как правило, не трудно. Остаётся рассчитать аналогичным образом производные по всем параметрам и повторять циклы предсказаний и коррекции весов достаточное количество раз, пока отклонение

50: Модели не достигнет минимума, работа вербос была настолько удачной, что должна была изменить положение вещей и дать новый толчок развития кибернетики, но этому помешало стечение обстоятельств. Вербос занимался социальными науками и использовал алгоритм для обучения не перцептрона.

51: О похожей многослойной модели, так как научное сообщество на тот момент не могло так активно обмениваться информацией, этот алгоритм прошёл мимо других исследователей о нём снова вспомнят только спустя 12 лет, но в том же году кунихико фокусима опубликовал ещё 1 важную работу.

52: В ней был описан когнитрон модель, которая была способна различать объекты на изображении так же, как перцептрон розенблата, но, в отличие от перцептрона, она насчитывала 4 слоя с обучаемыми параметрами, и Фукусиме удалось обучить её вообще, не используя алгоритмы, основанные на коррекции ошибо.

53: Вместо этого он использовал подход, похожий на обучение без учителя, а процесс обучения называл самоорганизацией. На вход когнитрона подавалось изображение размером 12 на 12 точек. Все слои когнитрона имели такое же количество нейронов. Каждый нейрон соединялся с нейроном прямо на

54: Против. И ещё с несколькими нейронами поблизости, случайным образом, также как и в перцептроне розенблата, у каждой связи был случайный вес, который изменялся в процессе обучения. Но, в отличие от перцептрона, нейроны фокусимы были небинарными. Их сигналы были непрерывными числами, зависящими от

55: Входных сигналов. Позже от этого базового свойства нейрона, макала-ка, пиццы откажутся и другие исследователи, но фокусиме это было нужно для реализации правила самоорганизации. В ответ на каждое изображение нейроны активировались с разной силой алгоритм фокусимы делил каждый слой на небольшие

56: Участки и на каждом участке одинаково усиливал связи только 1 нейрона, того, который активировался сильнее остальных. Этот процесс повторялся в каждом слое и позволял постепенно формировать нейроны, которые специализировались на определённых паттернах в изображении и игнорировали все остальные.

57: Например, отдельные нейроны могли отвечать за углы, вертикальные или горизонтальные линии нейроны в более поздних слоях реагировали уже на уникальные комбинации паттернов на более крупных участках изображения, например, на геометрические формы, а исходя из анализа распределения на

58: Более сильных активаций в финальном слое можно было классифицировать объект на изображении. Предположим, что на единицы чаще всего реагировали вот эти нейроны на двойке эти, а на тройке эти. Тогда если новое изображение привело к Такому паттерну активации, то, скорее всего, на нём двойка

59: Следующие значительные успехи появились только спустя 12 лет, и это были не просто удачные статьи, а скорее абсолютно новый взгляд на нейронные сети, который лучше совпадал с духом нового времени дело в том, что за годы 1 зимы произошёл значительный сдвиг в научных исследованиях основное.

60: Внимание было приковано не только к устройству мозга и процессов в нейронах этим занимались нейронауки, но и изучению принципов мышления, памяти и сложного поведения человека этим занималась новая дисциплина когнитивистика иными словами, вместо ответа на вопрос, как устроен мозг.

61: Когнитивистика пыталась найти ответы на вопросы как мы думаем, запоминаем и учимся в 86 году Дэвид румельхарт, джеффри хинтон и соавторы опубликовали сразу 2 работы, благодаря которым стало возможным не только обучение многослойных моделей, но и получение ответов на многие

62: Вопросы когнитивистики 1 работой был двухтомник параллельные распределённые представления, или pdp это довольно объёмный труд, но к его основным положениям можно отнести видение процессов мышления и памяти как сложных паттернов активации нейронов. Этот процесс прослеживался в обо.

63: Учёных авторами моделях и мог быть успешно экстраполирован на работу мозга, следуя же классическому искусственному интеллекту, за который выступали минский и пейперт, когнитивистам пришлось бы поверить, что большая часть нейронов в мозге отвечает за хранение и распознавание сложных цельных образов, например,

64: Животных или предметов. Это было намного менее вероятно с вычислительной точки зрения. Это значило, что достаточно глубокие модели в процессе обучения способны без Явных инструкций выделять в сложных объектах различные признаки, такие как размер, форма, цвет или углы, и делать

65: Предсказания на основе обнаруженных комбинаций имеющихся и отсутствующих признаков вы могли увидеть в этом параллели с когнитрон м. Фокусимы, и это не случайно фокусима также вдохновлялся работами ранних когнитивистов 2 работой Руммель харта хинтона и соавторов была небольшая.

66: Статья изучение репрезентаций с помощью обратного распространения ошибки, вышедшая в том же году в ней, они продемонстрировали алгоритм обратного распространения ошибки, который открыли повторно, независимо от пола вербос, сделавшего это, как мы помним, ещё в 74 году позднее.

67: Которые признали за вербосом первенство в открытии. Но примечательно то, что в своей работе они применили этот алгоритм к обучению многослойных перцептронов. Раньше, как мы помним, их обучение считалось в принципе невозможным. Авторы также окончательно отказались от идеи бинарных нейронов, которые мешали реализо

68: Алгоритма обучения простую идею порога активации, просуществовавшую ещё со времён нейрона, макалка пицца заменили сигмоидальной активацией, при которой нейрон плавно переходил из неактивного состояния в активное, в отличие от пороговой функции, она была дифференцируемой, а так как алгоритм

69: Обучение наполовину состояло из вычисления производных, это было критично с решением проблемы обучения многослойных моделей, которая в своё время оказалась 1 из катализаторов 1 зимы и новыми открытиями о работе перцептронов. Глубокое обучение получило 2 Подъём под новым названием.

70: Коннекционизм оно лучше отражало суть подхода создание и обучение моделей на основе большого количества связанных элементарных вычислительных единиц нейронов в этот период также окончательно сформировались 2 новые архитектуры моделей свёрточные нейронные сети для обработки изображений.

71: И рекуррентные нейронные сети для обработки естественного языка, и других последовательностей работы, в которых они были впервые опубликованы, довольно схожи их авторы внесли меньший вклад, чем предыдущие исследователи, но именно их версия в итоге закрепилась и стала стандартом предлагаю начать.

72: Свёрточных нейронных сетей. Их 1 версию предложил ян лекун в 89 году в своей работе влияние архитектуры нейронных сетей на генерализацию в ней он подчеркнул недостаток ранних моделей зрения, таких как перцептрон розенблата и когнитрон фокусимы они были.

73: Схожее в том плане, что каждый нейрон объединялся с точками изображения набором обучаемых связей, это позволяло каждому нейрону реагировать на определённый паттерн в определённой области изображения, но у этой модели был явный недостаток одни и те же паттерны, например, углы, линии или замкнутые.

74: Фигуры могли появляться в разных частях изображения, и некоторый обмен знаний между нейронами мог бы сделать модель эффективнее кроме того, небольшой сдвиг или искажение изображения могли значительно понизить точность модели, так как в область видимости большинства нейронов могли попасть совершенно незнакомые.

75: Мы для них паттерны для решения этих проблем. Ликун предложил использовать несколько видоизменённую модель из более поздних работ фокусимы. Её основная идея заключалась в том, чтобы отвязать детекцию паттерна от позиции за счёт синхронизации весов всех нейронов в 1 слое. Кроме того.

76: Он сделал все связи более структурированными. Каждый нейрон получал информацию не от случайного набора ближайших точек, а от каждой точки в небольшом окне размером 3 на 3 или 5 на 5 точек, так как веса каждого нейрона были одинаковыми. Все нейроны реагировали на один и тот же паттерн, но.

77: На своём участке изображения, а чтобы детектировать несколько паттернов, нужно было просто увеличить количество слоёв веса нейронов в новом слое также были одинаковыми, но отличались от весов в других слоях, что позволяло каждому слою реагировать на свой паттерн нейроны в более Глубоких.

78: Слоях соединялись с соответствующим окном в каждом из предыдущих слоёв и реагировали на уникальные комбинации извлечённых паттернов слоёв. На этом уровне также могло быть несколько для определения разных комбинаций. Финальный слой, выполнявший классификацию, был похож на слой перцептрона он свя.

79: Со всеми нейронами предыдущих слоёв и выносил решение исходя из анализа комбинации паттернов на каждой позиции итоговая модель представляла собой 1 из ранних вариантов свёрточной нейронной сети она была нечувствительна к сдвигу и при этом имела намного меньше обучаемых параметров.

80: Чем перцептрон для обучения модели? Как вы могли догадаться, Ликун использовал алгоритм обратного распространения ошибки в процессе обучения. Более ранние слои обучались поиску наиболее важных паттернов, которые помогали решить задачу, а финальный слой выносить решение исходя из их наличия или

81: Или отсутствие в той же работе лекон сравнил точность классификации рукописных цифр с помощью разных моделей. Результаты модели, которую мы рассмотрели в последней строке. Она достигла невероятной точности в 98,4%. Для сравнения перцептрон наиболее бли.

82: К модели в 1 строке, верно классифицировал всего 80% объектов, причём перцептрону не помогло бы даже наличие обучаемых скрытых слоёв. Это модель во 2 строке. Теперь поговорим о 2 классе моделей рекуррентных нейронных сетях. К их появлению привело несколько особенностей Зада.

83: Обработки текста и других сложных последовательностей, из за которых существующие модели не могли адекватно с ними справиться, текст, в отличие от других типов данных, имеет чёткую последовательную структуру изменение последовательности может полностью поменять смысл, кроме того, при анализе текста.

84: Важно запоминать различные факты, которые могут быть необходимы для понимания более позднего контекста 1 из вариантов решения этих проблем было добавление в нейронные сети циклических связей это позволило бы обрабатывать текст, последовательно, обновляя на каждом шаге внутреннее состояние модели.

85: Это состояние могло бы содержать общее понимание текущего контекста и наиболее важные факты из прошлых операций, то есть работать как память это настолько старая идея, что её можно отследить ещё к оригинальной работе макалоа пицца, где циклы были 1 из возможных типов связей между ними.

86: Позже такие модели стали называться рекуррентными многие исследователи развивали эту концепцию и предлагали разные версии моделей, но наиболее каноничной считается версия джеффри элмана, описанная в статье поиск структуры во времени, опубликованной в 90 году в этой работе.

87: Elman продемонстрировал, что рекуррентные нейронные сети способны справляться не только с генерацией текста, но и обобщать синтаксическую и семантическую структуру языка без Явных инструкций, но прежде чем мы перейдём к самой модели, рассмотрим задачу, которую решал Элман более подробно словарь.

88: В языке элмана был упрощённым он состоял всего из 29 слов и пары спецсимволов, все слова кодировались с помощью 30 однобитных векторов, где только 1 bit был равен единице таким образом, часть речи, рот, возможный контекст и любая другая информация о каждом слове.

89: Полностью отбрасывались с помощью словаря Элман создал корпус синтетического текста, состоящего из простых предложений, тем не менее текст был не настолько простым, чтобы любое пропущенное слово можно было однозначно понять из контекста как и в обычном языке, контекст позволял только ограничить.

90: Круг возможных слов этот корпус использовался для обучения модели модель получала по 1 слову за раз и должна была предсказать следующее слово обычная нейронная сеть с 1 скрытым слоем в лучшем случае могла бы обучиться запоминать фразы из 2 слов. Поэтому для того, чтобы у модели

91: Была возможность работать с более длинным контекстом. Элман добавил ещё 1 скрытый рекуррентный слой, который был связан со скрытым слоем и с помощью циклической связи сам с собой. Циклические связи были зафиксированы и равны единице. Таким образом, информация после каждого

92: Обработанного слова добавлялось в память без изменений и постепенно формировала общий контекст. А связи между скрытыми слоями были обучаемыми. Так модель могла выбирать, что из контекста важно. В данный момент точность модели была достаточно высокой, насколько это возможно в задачах, где присутствует

93: Неопределённость, но удивительнее всего было не это память модели была достаточно большой, чтобы запомнить несколько предыдущих слов последовательности, но анализ активации скрытого слоя показал, что для сжатия информации и более эффективной генерации текста модель сформировала и использовала.

94: Синтаксическую и семантическую модель языка разница между активациями модели на различные слова следовала чёткой структуре все глаголы имели схожие паттерны активации, так же как и все существительные внутри этих групп модель выделяла группы со схожими значениями слов и даже более.

95: Группы. Но, несмотря на все успехи, взлёт коннекционизма продлился не больше 10 лет. Иронично, но его развитию помешали почти те же причины, что привели к спаду кибернетики. Во первых, то, что появился способ обучать многослойные модели, ещё не значило, что слоёв может быть сколько угодн.

96: На практике даже модели всего из 3 4 слоёв были практически необучаемыми. К этому приводила комбинация негативных факторов, которые на тот момент ещё не были обнаружены, но даже от тех моделей, которые поддавались обучению, было все ещё сложно добиться адекватных результатов из за

97: Нехватки данных и слабого железа большинство наборов данных не находилось в открытом доступе каждая группа исследователей собирала данные самостоятельно и редко могла выйти за пределы нескольких сотен и тысяч объектов, но даже при таком количестве данных и довольно Скромных размерах моделей для компьютеров.

98: Того времени объём вычислений был слишком большим, да, процессоры уже давно не строились на системе электронных ламп такие успел застать разве что Розенблат, но их производительность все ещё была ничтожной. По современным меркам я сделаю непростительную вещь и просто сравню мегагерцы в лоб, но просто

99: Для осознания 1 поколение интел пентиум, вышедшее в 95 году, имело тактовую частоту в районе 60 мегагерц это в 4 раза ниже, чем у современного копеечного микроконтроллера еспи 32, и яну ликону, например, потребовалось трое суток для обучения крошечной.

100: Современным меркам свёрточной нейронной сети на железе такого уровня, во вторых, большие успехи первых работ снова заставили исследователей делать преждевременно амбициозные заявления кто-то говорил даже о скором создании почти человеческого интеллекта, и инвесторы, которые поначалу были в восторге, но по итогу.

101: Не получили быстрых результатов, начали сворачивать финансирование. Все это сопровождалось активным развитием других моделей и подходов. Примерно в то же время появились машины опорных векторов и ядерные методы. Вы могли слышать о них как о не самых популярных на данный момент моделях из области классика.

102: Но в то время им удалось показать отличные результаты в основном за счёт более низких требований как к количеству данных, так и к железу все это привело к началу новой зимы с середины девяностых, но, по счастью, в этот раз удар по исследованиям был не настолько сокрушительным работы продолжались, а канадскому институту продви.

103: Исследований сифар даже удалось объединить учёных из разных университетов под 1 исследовательской программой эта группа вместе с другими исследователями продолжила улучшать существующие модели и открывала новые подходы в 97 году вышла работа по lstm улучшенной

104: Версии рекуррентных нейронных сетей с дополнительным треком для долгосрочной памяти он позволял моделям работать с текстами и другими последовательностями намного большей длины, что раньше было большой проблемой, годом позже, в 98, ян лекун собрал немыслимый для того времени по размерам.

105: И качеству набор данных мнист, состоявший из 70000 рукописных символов, им пользуются до сих пор. В качестве бенчмарка для новых моделей он также непрерывно улучшал свёрточные нейронные сети в последующих работах на протяжении 10 лет 1 из последних операций его модели.

106: Ленеет 5, вышедшая также в 98 году, практически не отличалась от современных моделей, но финальным шагом, после которого произошёл прорыв, стала работа, опубликованная джеффри хинтоном в 2006 году в ней он представил новую генеративную модель под названием deep belief network.

107: Но нам важна не сама модель, а то, что в ней было 4 слоя, и хинтону удалось её обучить. Его стратегия была разновидностью жадного алгоритма и заключалась в обучении модели по 1 слою за раз. Параметры остальных слоёв при этом фиксировались. После этого модель обучалась ещё раз, но уже целиком.

108: Алгоритм хинтона показал отличную сходимость и позволил обучать более глубокие модели, но, как всегда, дело было не только в этой работе за время 2 зимы произошло 2 важных изменения, которые позволили исследователям перейти к 3 и финальному подъёму. 1, как ни странно, это

109: Бурное развитие игровой индустрии практически в 1 год. С выходом работы хинтона появились такие легенды, как ассасин, Скрит, баюшок, крайсис, портал и mass effect требования игр постоянно росли, а работа с графикой была настолько тяжёлой, что выполнялась отдельно от просчёта мира на видеокартах.

110: Которые были оптимизированы под параллельную обработку тысяч графических примитивов в реальном времени, налаженное производство и постоянное улучшение видеокарт для рынка игр позволило исследователям использовать быстрые графические ядра, но уже для параллельной обработки тензеров и на порядке

111: Ускорить обучение нейронных сетей. Наибольший вклад здесь внесла энвидиа ещё в 2007 году она выпустила фреймворк qudo для вычислений общего назначения на видеокартах, затем линейки специализированных видеокарт с тензерными ядрами. А начиная с 20 серии тензерные ядра по

112: Появились и в видеокартах потребительского сегмента в играх они используются для дилс 2 важное изменение, которое поспособствовало подъёму резкий рост объёма доступных данных с развитием интернета готовые наборы данных вышли за пределы университетов, а количество доступной информации

113: Практически экспоненциально. Набор данных мнист, созданный в 98 году под руководством Яна лекуна, был прорывом для своего времени, но его 70000 изображений ничто по сравнению с десятью миллионами изображений в наборе имиджнет, появившемся всего 10 лет спустя, его

114: Здание потребовало колоссального объёма ручной работы, но оно было бы в принципе невозможным без наличия такого количества изображений в интернете, а современным генеративным моделям разметка в некоторых случаях вообще не требуется, поэтому так же как google и яндекс, в своё время без спроса скачали и проиндексировали.

115: Большую часть доступных на тот момент страниц в интернете для создания поисковиков айти компании сейчас без спроса выкачивают содержимое YouTube, github и других ресурсов для обучения своих моделей 2 этих обстоятельства вместе с работой хинтона, которая показала возможность обучения по настоящему.

116: Сложных моделей вместе послужили началом новой эпохи хинтон впервые начал использовать в своих работах термин глубокое обучение, подчёркивая сложность и количество слоёв в новых моделях название закрепилось, и все задачи, так или иначе связанные с нейронными сетями, так называют до сих пор.

117: С этого момента открытия происходили так часто, что многие подходы успевали пройти полный цикл от появления и полного доминирования до полной утраты актуальности всего за 5 лет лучше всего это проиллюстрирует тот факт, что алгоритм хинтона, ставший катализатором прогресса, перестал быть актуальным.

118: Уже примерно к 2012 году с переходом на более удачные алгоритмы инициализации весов. Функции активации без насыщения, такие как рылу и более сложные алгоритмы оптимизации вроде Адам модели стали сходиться без дополнительных действий. Предлагаю кратко пройтись по основным

119: Достижениям в ключевых областях без фамилий и подробных описаний, так как речь пойдёт про современные модели, вы либо о них уже знаете, либо ещё будете их изучать. Начнём с моделей компьютерного зрения. Работы в этой области показали настоящий потенциал масштабирования моделей после довольно небольших

120: Моделей из 4 5 слоёв, разработанных ликоном на рубеже девяностых и нулевых. Следующим прорывом стала алекс нет. Опубликованная в 2012. Она состояла из 8 слоёв и была 1 из первых моделей, обученных на видеокартах, что дало ей огромное преимущество уже через

121: 2 года, в 2014 алекс, нет, превзошла новая модель виджи джи, состоявшая из 19 слоёв, а в 2015 была опубликована, резнёт, авторы которой смогли довести глубину до 152 слоёв. Позже, в 2019, авторы новой модели эфишент нет.

122: Показали, что эффект от увеличения количества слоёв может быть усилен, если грамотно сбалансировать его с увеличением разрешения изображения и количества свёрточных фильтров, и в очередной раз превзошли все предыдущие модели, и если успехи свёрточных нейронных сетей были значительными, и позволяя

123: Фокусироваться в основном на преодолении ограничений масштабирования и небольших доработках уже существующей архитектуры с обработкой текста дела обстояли гораздо хуже несмотря на ранние успехи, долгое время ни steam, ни другие рекуррентные модели не могли эффективно справиться с длинными.

124: Текстами, но именно эти неудачи и привели, возможно, к самому важному прорыву в истории глубокого обучения. На текущий момент я говорю о работе 2017 года. Все, что нужно, это внимание, которое предложило нерекурсивно тями и открыло эпоху новых

125: Моделей трансформеров. Трансформеры оказались настолько удачными и универсальными, что позволили не только создать модели обработки и генерации текста, включая современные ллм агенты вроде chat gpt, но и перейти на территорию компьютерного зрения. Модель вид, опубликованная в 2020 году, не

126: Смотря на отличные результаты, все ещё была спорной из за огромного количества параметров и затрат на обучение по сравнению со свёрточными моделями, но последующие трансформеры окончательно превзошли свёрточные модели и до сих пор продолжают доминировать как в задачах зрения, так и в задачах обработки языка.

127: Сейчас трансформеры продолжают активно масштабироваться, хотя и не такими взрывными темпами, как раньше. Новые модели становятся больше, точнее, лучше на основных бенчмарках, но это все больше напоминает выход новой линейки айфонов по настоящему амбициозной следующей целью сейчас являетс.

128: Egi или искусственный общий интеллект? Одни исследователи считают, что egi вполне достижим с помощью нейросетей и что основное ограничение это объём данных и размеры моделей. Другие уверены, что для настоящего egi потребуются принципиально новые подходы и идеи. Тем временем.

129: Регулярно звучат обещания о близости эджай то в конце 2023, то в 2024, то теперь вот в 2026 тут легко провести параллели с заявлениями розенблата и перегревом ожиданий в эпоху коннекционизма. И совершенно логично предположить, если станет очевидно.

130: Что айджиай недостижим в ближайшие годы нас может ждать новая зима. На самом деле эти опасения преувеличены, и в целом судьба большинства рядовых эмэль инженеров и дата саентистов слабо зависит от айджиай. Все потому, что глубокое обучение уже успело интегрироваться в экономику. Технологии и повседневны.

131: Жизнь, если ещё в девяностые 1 из лучших достижений нейронных сетей была возможность оцифровки рукописных индексов на письмах, то сегодня на них построена работа крупнейших компаний мира от рекомендательных систем на стриминговых сервисах и маркетплейсах до автономных автомобилей и

132: Даже если революции не случится, эти алгоритмы будут продолжать развиваться ещё долгие годы. Ну а если эджай все-таки будет достигнут, тогда нас с вами ждёт скайнет. Хотя, если честно, мне кажется, будущее скорее будет похоже на идеократию. Ещё 1 важный момент, который хотелось бы обсудить, это.

133: Аналогия между нейронными сетями и работой мозга сегодня мы много о ней говорили, причём эта аналогия работала в обе стороны сначала кибернетика вдохновлялась работой нейронов, потом достижения кибернетики и коннекционизма использовались для построения гипотез о работе мозга, но на сегодняшний день важно.

134: Понимать эти 2 области давно пошли разными путями математическое моделирование работы мозга это отдельная дисциплина со своим аппаратом, задачами и моделями. Эти модели создают не для предсказания роста акций на фондовом рынке или генерации изображений, их цель исключительно в понимании нейрофизиологии.

135: И когнитивных процессов. Нейронные сети, в свою очередь, сегодня имеют очень поверхностное сходство с реальными моделями мозга. Более того, если вы проследите происхождение ключевых идей последних лет, например, трансформеров или диффузионных моделей, то увидите, что они берутся из других областей, а

136: Многие ранние биологические аналогии вроде ступенчатых функций активации, наоборот, последовательно вычищаются, хотя нельзя исключать, что в будущем открытия о работе мозга могут дать новые идеи для глубокого обучения, возможно, даже для создания эджай на данный момент это 2 очень далёкие области.

137: На этом предлагаю заканчивать. Надеюсь, вам было интересно пройти весь этот путь вместе со мной и познакомиться с нашими героями. Немногим из них посчастливилось увидеть, к чему приведут их идеи. Но именно благодаря им все наши сегодняшние достижения оказались возможными. Многих исследователей я упомя.

138: Ну, здесь только словом соавторы, а многих не упомянул совсем, чтобы вы не потерялись в потоке фамилий. В любом случае, спасибо за просмотр. А если вам интересна не только история нейронных сетей, заходите на канал. Увидимся в code review. Всем пока.

139: Я бы сказал так если машины и переживут человека, а они могут, они будут лишь продолжать.

140: В каком-то смысле тоже направление, общее направление, по которому пошёл бы сам человек, понимаете?

141: В некотором Роде машины будут стоять на наших плечах.

142: Мне кажется, что даже у самой сложной и умной машины не может быть настоящей цели когда человека не станет, машина утратит всякий смысл.

143: Сомневаюсь, наоборот, я бы сказал, у них будет цель.

144: И вы считаете, что с уходом человека мир ничего не потеряет?

145: А мир что-то потерял, когда исчезли динозавры, но я имею ввиду что-то действительно важное. А разве динозавры были не важны?

146: В 1 можно быть уверенным человек не проживёт вечно.

147: Судя по тому, что мы знаем о солнце и других звёздах, это было бы крайне маловероятно.

148: Придёт что-то ещё.

149: Думаете, это что-то будет создано человеком, да?