🦾🤖 Мощь ИИ в вашем ПК: генеративные модели на потребительском оборудовании

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:01:18

Развитие больших языковых моделей:

С 2020 года популярность языковых моделей резко возросла после выхода GPT-3, который привлек большое число пользователей (до 1 млн)
В 2022 году появились первые успешные опенсорс-модели, среди которых выделяются Lama, Alpaca и другие, хотя они уступали закрытым моделям по качеству
В 2023 году вышла улучшенная версия Lama (Lama v2), показавшая высокое качество, сопоставимое с GPT-3.1, однако коммерческое использование этой модели запрещено

00:04:57

Преимущества опенсорс моделей:

1. Рассматривается возможность перехода на опенсорс-модель для обеспечения безопасности данных и контроля над ними
2. Использование собственной модели позволяет избежать блокировки аккаунта и контролировать обновления программного обеспечения
3. Современные open-source модели демонстрируют высокие показатели производительности, превосходящие некоторые коммерческие аналоги

00:06:35

Архитектура и возможности современных моделей:

Разработана новая архитектура языковой модели, позволяющая увеличить контекстное окно до 128 тысяч токенов (вместо 8 тыс.), что значительно повышает возможности обработки текста
Для работы модели с параметрами 5 млрд необходима конфигурация из 11 графических карт NVIDIA H100 и 810 ГБ видеопамяти, суммарная стоимость оборудования составляет около 150 млн рублей
Языковая модель обладает возможностями zero-shot запросов, способна решать сложные математические задачи, эффективно тренировать другие модели и создавать синтетические данные, а также генерировать код

00:09:02

Дистилляция и квантизация моделей:

Разработана новая модель Llama-3 (1.8B и 70B), конкурирующая с моделями типа Jemmala 2 и Mistrall, показывающая хорошие результаты в решении повседневных задач
Новая модель работает быстрее, снижает требования к железу и значительно уменьшает стоимость эксплуатации
Предложена архитектура с использованием векторной базы данных для поиска наиболее релевантных ответов на запросы пользователей

00:13:38

Использование моделей на маломощных устройствах:

Разработана методика уменьшения размеров модели машинного обучения за счет квантизации (преобразования весов и активаций модели в низкоразрядные значения), что снижает требования к памяти и ускоряет выполнение инференса
Использование квантизации позволило значительно сократить объем памяти, необходимой для хранения модели, например, версия модели на 8 би потребовала вдвое меньше памяти и ресурсов по сравнению с предыдущей версией на 16 би
Предложено два подхода к использованию моделей: локальное развертывание моделей через Docker или доступ к готовым моделям через интерфейс онлайн-сервисов, таких как Hacking Face и Replika Firewoks

00:28:24

Инференс моделей на CPU vs GPU:

1. Рассматривается возможность выполнения инференса (предсказания) на CPU без использования GPU, однако качество моделей при таком подходе будет снижено и скорость значительно упадет
2. Использование GPU обеспечивает скорость обработки в сотни раз большую по сравнению с CPU, позволяя обрабатывать до 30 токенов в секунду вместо менее одного токена на CPU
3. Упоминаются модели LAMA и SIPIPI, использующиеся в контексте обсуждения

00:29:10

LM Studio и работа с моделями:

1. Участники обсуждения остановились на выборе платформы LM Studio для демонстрации разработки моделей
2. Обсуждалось использование инструмента LANA, однако участники ранее не работали конкретно с ним
3. Предложено определить источники показателей и выделить фаворитов среди возможных арен

00:29:53

Выбор моделей и источники независимых исследований:

Разработчики часто тренируют модели на отдельных парковочных площадках для демонстрации лучших результатов
Для подбора локальных моделей используется сайт Хадин фейс и сравнение различных дашбордов по метрикам
Рассматривается возможность развертывания локальной LLM-модели внутри компании для обеспечения безопасности и помощи разработчикам

00:34:37

Проблемы закрытых моделей и перспективы развития:

Участники обсуждения затронули проблему контроля версий закрытых моделей машинного обучения, указывая на риски ухудшения результатов работы после обновления моделей
Обсуждалось использование собственных моделей и опенсорс решений, подчеркивая преимущества стабильности и возможности настройки последних
Рассматривались методы дистилляции и квантования моделей для оптимизации их размеров и производительности, сохраняя необходимые знания и параметры

0: Всем привет, спасибо, что смогли подключиться и послушать нашу новую лекцию. Сегодня её прочитает Александр Константинов, технический директор компании рафт сегодня.

1: Александр нам расскажет о том, как развернуть генеративную модель на вашем компьютере. Ну и, конечно, предыдущую лекцию Александра вы можете найти у нас уже можете найти у нас на канале. Также прошу задавать все свои вопросы в чате.

2: Ответим на них сразу после основной части лекции в конце эфира и, конечно, подписывайтесь на наш telegram канал аи. Фадеев ссылка на него есть в описании под этим видео, а сейчас, Александр, спасибо вам слово.

3: Всем привет, рад вас приветствовать на нашей лекции. А сегодня мы поговорим о том, как использовать всю мощь искусственного интеллекта на вашем компьютере и как можно запускать модели на потребительском оборудовании.

4: Давайте начнём немного с истории, посмотрим, как развивались лм модели и почему сейчас происходит такой бум этих моделей сами модели вышли достаточно давно, но они стали достаточно популярными с выходом GPT-3.

5: В 2020 году. Далее в 22 году выходит GPT-3 с половиной. И благодаря тому, что он вышел в виде интерфейса, он стал очень популярным. Много людей его попробовало. И аудитория gpt очень быстро

6: Росла до 1000000 пользователей и стало намного. И с этого момента очень хорошо стали развиваться опенсорс модели. В 22 году уже начали выходить такие модели, как лама.

7: Больше.

8: Росла до 1000000 пользователей и стало намного больше. И с этого момента очень хорошо стали развиваться опенсорс модели. В 22 году уже начали выходить такие модели, как лама.

9: Альпака и другие. Однако они были по качеству очень сильно уступающими моделям от закрытых Вендеров, но уже в 23 году выходит лама версии 2. Её, правда, нельзя использовать для

10: Коммерческого использования, но она уже показала очень хорошее качество, сопоставимое с 3 с половиной, однако в то же время уже вышел джити 4, которая в разы мощнее была, и самое интересное происходит в 2024 году.

11: Такие модели, как и 4 о ссора, и недавно вышедшая оо 1, которая по факту та же и 4 о, но работает как агент здесь вышли 2 интересные модели это lana 3, лама 3 1.

12: Игрок 2. Мы посмотрим, почему они такие очень интересные и прорывные на следующем слайде.

13: Закрытые модели основные игроки это open is chat, gpt клот, антропка и кукол джеминай эти модели, они в лидерах всех дашбордов, однако закрытых моделей есть.

14: Несколько плохих, так сказать, параметров. Во первых, это вендер лог, это значит, что если вы построите свой бизнес вокруг какой-то из этих моделей, то в случае блокировки аккаунта

15: Бизнес будет под угрозой, также приходится передавать данные в облако, из за этого страдает безопасность, ну и если потребление небольшое, то есть смысл работать с облачными моделями, однако при большом потреблении счёт их использование

16: Будет очень высоким и есть большое количество, но моделей сейчас это lana, грок, мистраль и экспертная версия мистраль викуна фи и queen. На самом деле моделей больше, но

17: Эти модели, они наиболее выдающиеся. Давайте сравним их с лидерами рынка. Для сравнения существует ллм арена м арена работает таким образом, что производится слепое тестирование всех моделей.

18: Задаётся вопрос. Выходит 2 ответа от различных моделей, и пользователь выбирает, какой ответ наиболее подходящий таким образом, формируется лидерборд. И давайте взглянем на него. Конечно же, на 1 месте это чат джи.

19: Модель 4 o однако, если посмотреть дальше в десятку, то с небольшим отставанием здесь находится и опенсорс лама 3 1 от мета, кроме того, там находится гроб 2 и queen, то есть 3 опенсорс.

20: Модели, они входят в 10 самых лучших моделей и, между прочим, очень много моделей делят, 8 место, 6 штук.

21: Давайте поговорим, почему стоит рассмотреть опенсорс модель. Во первых, это безопасность, так как модель можно развернуть в контуре. Это значит, что данные не будут передаваться в облако. Они остаются под вашим контролем, и никто о них никогда не узнает независимости от вендора.

22: Здесь мы можем не беспокоиться за наш бизнес. Если мы используем со модель, то, построив своё решение на ней, мы будем уверены, что никто наш бизнес не отнимет. Заблокировав наш аккаунт. Также мы можем контролировать обновления в облачных моделях.

23: Это невозможно, так как вендор может сделать обновление и сломать все.

24: И ественно финансы мы контролируем сколько мы используем ресурсов, мы можем масштабироваться и мы полностью контролируем, какое количество финансов мы можем потратить.

25: В 24 году вышла в августе модель llama 3 1 с количеством параметров 405 миллиардов. Давайте посмотрим на бенчмарк эта модель конкурирует с такими моделями, как gt 4 джи.

26: 4. Омник и клод 3 5. Вот. Соответственно, по многим бичмарк эта модель показывает себя намного лучше. И здесь очень показательный бичмарк это математика модели. Очень плохо.

27: Умели считать математические задачи раньше, однако современные модели вот даже опенсорсная, показывает отличные результаты и обыгрывает всех вендоров.

28: Модель супер, она открытая, её можно использовать, но есть небольшое но но сначала давайте посмотрим на архитектуру благодаря новой архитектуре, в которой используется потеншен и feat.

29: Network получилось сделать контекстное окно 128000 токенов по сравнению с 8000 токенов, которые были у lana 3 0 это огромный прорыв, теперь можно обрабатывать намного большее количество текста.

30: Вот здесь появляются те, но о которых я говорил требования по инференса модель с 400 пятью миллиардами параметров требует 810 гигабайт джипию для своей максимальной версии в пи 16.

31: Что потребуется сервер с одиннадцатью карточками, часто запуском мульти ноут режиме. Это только для запуска 1 модели. Соответственно, для того, чтобы обеспечить отказоустойчивость нашего решения, надо хотя бы 2 таких сервера поставить.

32: Ну, вроде, кажется да, цифры небольшие, однако посмотрим, сколько такой сервис стоит да, есть предложение на рынке это сервера от nvidia с карточками эйч 100 в этом сервере.

33: 8 карточек. Соответственно, чтобы запустить модель, нам нужно 2 таких сервера и в сумме это получается 100 000 000 ₽ вложений для того, чтобы запустить эту модель у себя. И если ещё нужно сделать отказоустойчивость, то нужно уже развернуть 3 таких сервера.

34: Получается 150000000. Очень большие вложения. Не все могут позволить себе такое. Однако давайте сначала посмотрим, зачем вообще нужны именно такие большие большие языковые модели. Извиняюсь за тавтологию.

35: 1 это zero shot запросы когда модель может выступать базой знаний, она обучена практически на всем материале в интернете, и можно спросить все, что угодно, то есть модель может выступать в качестве google здесь она может решать сложные математические задачи также.

36: У неё есть advance тренинг значит, что модель может заниматься как решением задач в медицине, в науке и в других трудоёмких и наукоёмких областях, также эта модель может использоваться для генера.

37: Синтетических данных для тренировки других моделей, и она отлично справляется с написанием кода.

38: Для перехода к более меньшей модели используется принцип, который называется дистилляция, дистилляция. Такой процесс оптимизации, который позволяет уменьшить размеры, вычислительные требования модели без значительной потери точ.

39: Однако здесь мы теряем знания для того, чтобы сделать дистилляцию. У нас есть модель учитель, и мы делаем процесс, который называется перенос знаний. Мы переносим именно те знания, которые нам необходимы, и мы получаем наименьшую модель с тем набором.

40: Умений, которые нам нужно. И таким образом мы можем уменьшить размер модели. Мы можем ускорить инференс. Также мы снизим требования к железу для запуска этой модели. И, конечно же, стоимость эксплуатации у нас упадёт, однако у нас будет

41: Потеряны некоторые знания, и теперь модель не сможет, например, использоваться как zero shot в качестве базы знаний.

42: И таким образом, дистилляции сделана модель llama 3, 1 8 би и 70 би модель 3 1 8 би. Она соперничает с моделями, такими как Джемма 2, но показывает.

43: Результаты, чем мистраль. Однако здесь стоит заметить 2 важных показателя. Это следование инструкциям ива. Здесь мы получаем 80%. Скор также отличный

44: В решении математических задач и в ризонинг. Значит, что модель может использоваться для решения повседневных задач, таких как сомализация текста и другие. Мы рассмотрим чуть дальше и

45: Посмотрим на требования к инференса. Теперь модель требует всего лишь 16 гигабайт джипию своей максимальной версии. Да, но если мы хотим большое контекстное окно, то потребуется 24 30 гигабайт джипию.

46: Это существенно ниже, чем было для модели 405 миллиардов параметров. И теперь стоимость сервера очень сильно снижается. То есть мы можем запустить эту модель на карточки, такие как 30 90 либо 40 90. Вот.

47: И уже можно вложиться в сервера там, но 200000 пойти и купить этот сервер. Если мы хотим сделать с репликацией, да, то мы можем запустить 2 сервера и получить отказоустойчивое решение.

48: Стоимость вложений сильно ниже может позволить себе каждый. И какие же задачи может решить эту модель? Конечно же, это чат боты кьюэй системы, такие как рагги, можно делать sentiment analysis, анализировать текст

49: Делать перевод, генерировать отчёты, создавать контент, классифицировать текст или делать на мете кондишн, вытаскивать различные метаданные из текста.

50: Давайте немножко рассмотрим, как обойти ограничения того, что мы удалили большое количество знаний из модели, и есть небольшие требования к модели для того, чтобы она работала в rock системах, она должна понимать язык.

51: Она должна грамотно писать на том языке, на котором мы хотим с ней пообщаться. На самом деле у неё должны отсутствовать лишние знания, потому что лишние знания, они могут стать проблемой при генерации по контексту. Модель может

52: Что-то взять из своих знаний и использовать вместо того, что мы положили в контекст. И также модель должна уметь думать. Это свойство. Называется ризонинг на основе ризонинг. Мы можем строить агентные системы и модель

53: Будет понимать, какое действие нужно предпринять для решения конкретной задачи. Немножко посмотрим на архитектуру, рак приложения. Наверное, уже все об этом знают, все видели, но ещё раз, да, как решить проблему того, что мы используем маленькую модель.

54: У неё нет определённых знаний, мы делаем векторную базу данных. Она может собираться из интернета из api из документов. Когда мы делаем запрос к модели, мы идём в нашу векторную базу данных, находим максимально релевантный ответ.

55: И подкладываем их в контекст запроса. Соответственно, используя эти контекстные данные, модель уже генерирует ответ на наш вопрос.

56: Давайте посмотрим, да, что можно сделать, если нет таких мощностей. Да, теоретически может быть такой сценарий, что мы хотим запустить нашу модель на устройстве с меньшим количеством джипию. 1 мы можем найти модели.

57: Меньшего размера это 1 или 2 би. Ну или мы можем найти способ снизить ещё требования к железу, чтобы запустить эту модель. Я думаю, вывод очевиден. Нам нужен способ запустить эту модель на меньшем количестве железа. Здесь появляется ещё 1

58: Процесс, который называется квантизация, это метод сжатия, который преобразует веса активации модели из высокоточных значений в значения с более низкой точностью, и это нам позволяет уменьшить размеры модели, снизить.

59: Требования к памяти и сильно ускорить выполнение инференса. Ну то есть на примере мы видим, что вот у нас была точность, например, 33 точка 76. Мы делаем округление и точность становится 34. Счёт такого небольшого округления.

60: Мы существенно снижаем размер модели. Давайте посмотрим на требования джипию памяти для понтонных моделей. Здесь они существенно снижаются для той же модели с 405 ди на максимальный

61: Версию требуется 810 гигабайт, а на эф пи 8 уже требуется 405 гигабайт, то есть в 2 раза меньше денег и в 2 раза меньше. Тоже самое происходит и для других размерностей модели. Таким образом мы можем

62: Железа.

63: Версию требуется 810 гигабайт, а на эф пи 8 уже требуется 405 гигабайт, то есть в 2 раза меньше денег и в 2 раза меньше железа. Тоже самое происходит и для других размерностей модели. Таким образом мы можем

64: Пустить некоторые модели даже на мобильных устройствах.

65: А преимуществами нетизации могут являться уменьшение размера модели, да, что позволяет нам запускать её на любых устройствах. Можно более быстро выполнять задачи за счёт снижения требований к памяти и к ресурсам. И, конечно, у нас возрастает

66: Энергоэффективность из за того, что мы уменьшаем вычислительные затраты, но также есть недостатки. Возможна потеря точности, особенно при агрессивной монетизации. Если мы до 4 или 2 бит снижаем, то здесь будут серьёзные точности.

67: Является достаточно оптимальным решением и конечно же, конализация бывает достаточно сложной да, есть такие методы, как q 3, которые требуют очень много ресурсов для дообучения модели после коната.

68: И благодаря монетизации удалось запустить модель с 405 миллиардов параметров на 2 макбуках последней версии. Вот из за того, что снижается количество ресурсов, требуемых, то алекс, он очень любит.

69: Запускать модели, и он запустил их на 2 макбуках, показал отличную скорость конференции.

70: И давайте немного поговорим о контекстном окне. Контекстное окно это количество токенов, которые может обработать модель за 1 запрос, да, вот в текущей версии модели лама третим поддерживает контекстное окно до 120000 токенов. Это при

71: Примерно 1, 2 Тома война и мир. Очень большое количество информации можно обработать за 1 запрос, однако чем больше контекстное окно, тем больше размер модели вот, соответственно, модель 8, би на 128000.

72: Она будет иметь 16 гигабайт, что требует несколько больше ресурсов по gp, и регулируя размер контекстного окна если нам не требуется обрабатывать очень большие данные, то мы можем снизить треб.

73: По железу, на котором мы разворачиваем модель.

74: Давайте немного сравним квантизации. Мы проводили в раке тестирование нашей ренни лаборатории и сравнивали скорость работы и предельный контекст на 1 карточке джитиикс 40 92 модели вама 3 1 8 би.

75: Автоматизация в fp fp 16 размер модели был 15 гигабайт, мы добились скорости работы 1857 токенов в секунду на чтение и 30 токенов в секунду на за.

76: И предельный контекст был 61000 токенов на матизации пи 8 размер модели уже 8 с половиной гигабайт мы добились большей скорости на запись, однако скорость

77: Несколько упало, что на самом деле не является очень критичным, модель работает быстрее и при этом у неё увеличился контекст, теперь он 112000 на 4 model уже весит 5 гигабайт и нам удалось добить.

78: Максимально определительного контекста, который даже больше заявленных 128000, это было 131072 токена. Однако здесь по какой-то причине скорость на чтение и запись, она очень сильно упала.

79: И давайте сравним скорость работы инференса на разных карточках мы делали тестирование на 40 90 здесь получилось 1857 на чтение и 30 токенов на запись в fp 8532 на чтении.

80: И 42 на запись однако, на инференс на асто он не даёт огромного прироста, несмотря на то, что 100 то карточки, оптимизированные специально под i, и они очень дорогие.

81: Вот инференс на 4 100, он показал скорость 1500 токенов на чтение и 47 токенов на запись.

82: Также пробовали запускать на 2 карточках 30 90 и получили хорошую скорость 34. Так, секунду.

83: Давайте немножко сравним решение задач суммаризации в различных автоматизация и какой результат из этого получается? Сравним, какие потери есть при использовании различных авоматизации. На данном примере мы используем

84: Технику. У нас есть документ, есть промт. Мы отправляем наш документ с промтом в м и получаем сгенерированный саммари. Дальше мы использовали джити 4 как арбитра. Давали ему 2 примера.

85: Пример 1 пример 2 и просили оценить эти текста по некоторым критериям это полнота информации, ясность изложения, организация текста и степень детализации вот на тизации пи 16, которая максима.

86: Мы получили максимальную степень детализации, очень логичную структуру, ясное, чёткое изложение, и были охвачены все ключевые аспекты.

87: Мы получили макси максимальную степень детализации, очень логичную структуру, ясное, чёткое изложение, были охвачены все ключевые аспекты.

88: Соответственно, на и 8 получилась некоторая потеря качества, хотя изложение было чётким, но детализация была без некоторых цифр да, она делает текст.

89: Доступно для широкой аудитории, однако текст становится менее подробным. Вот. То есть, если мы хотим делать более точные данные, например, научные, то нам подойдёт 16, если мы хотим писать статьи, делать контент для более

90: Аудитории то 8 нам подойдёт лучше.

91: И 2 сценарий это two step чейн, мы выделяем инсайты и делаем саммари ацию здесь документ мы берём инсайды из промта и скармливаем это лм и делаем наш саммари результат.

92: Здесь получился такой же пи 16 лучше подходит для аудитории, которая требует глубокого понимания темы, так как содержит более подробную структурированную информацию. P. 8 лучше подходит для широкой аудитории да, которая ценит-ка.

93: Но готов пожертвовать деталями опять-таки, если мы хотим писать контент, который подходит широкой аудитории, то лучше взять тизацию 8.

94: Как запустить модель? Локально можно использовать Хагин фейс. Это репозиторий для в моделей. Они все опенсорс. Модель можно запустить через docker. Мы.

95: По нашим и запускаем его при помощи команды Токер сект. На самом деле все очень просто. И дальше мы можем посылать запросы на чат комплишен поинт.

96: А что такое хакинг? Фейс? Да хакинг фейс это репозиторий для моделей. Туда каждый день выкладывается огромное количество различных моделей в различных монетизация, натренированные модели. Вы можете использовать дашборды для того, чтобы найти

97: Модель под свою задачу, либо список задач. Открываете задачу, например, суммаризация. Смотрите, какая модель доступна для суммаризации, какая обеспечена лучшее качество. И так можно найти модель под решение любой конкретной задачи, также используя подписку

98: Можно попробовать початиться с моделью прямо в интерфейсе инфейс. Здесь есть окошко, там можно написать своё сообщение, отправить и получить ответ. И не требуется разворачивать модель локально.

99: Есть другой простой способ, как можно попробовать модель локально это лм студия лм студия может запускать различные модели. Есть подборка моделей, которая уже встроена в саму студию. Также можно запустить

100: Любую из моделей, которая находится на phase, для этого её можно скачать и развернуть через on студию. Кроме того, н студию можно использовать для можно использовать как сервер для инференса.

101: Можно разрабатывать свои приложения, используя api api полностью совместимо с тем api, который предлагает они очень удобно можно использовать свои приложения, например, если вы пишите на chain, то просто подключа.

102: Локальную модель, передав ссылку на эту локальную модель в open конструктор. И ваше приложение будет полностью работать с локальным, с локальной моделью. И давайте посмотрим небольшое демо.

103: Студия, можно, пожалуйста, переключиться на скриншаринга?

104: Отлично. Так, да, сама студия выглядит таким образом. Здесь есть 4 основных раздела. 1 раздел это дискавер. Мы можем найти какую-нибудь модель, например, lana 3, 2 3 би для того, чтобы загрузить модель.

105: Нужно жать дело. Этот процесс занимает некоторое время, поэтому у меня уже есть несколько предзагруженных моделей. Саму модель можно выбрать в интерфейс чата. Да, здесь можно выбрать любую из тех моделей, которые вы загрузили. Давайте

106: Переключимся на

107: Lana 8 би нажимаем вот model проходит небольшое время для того, чтобы загрузить эту модель.

108: И мы готовы к тому, чтобы початиться.

109: Давайте дадим небольшую задачку написать код для игры змейка. Видите, что скорость инференса достаточно быстрая. Она сравнима с тем, что мы видим в интерфейсах опен эй, например, это примерно.

110: 30 токенов в секунду. Вот. Соответственно мы получаем полностью наш ответ.

111: Модели умеют работать как с английским, так и с русским языком.

112: Я могу попросить тебя перевести на русский?

113: А и модель начинает отвечать уже.

114: Используя русский язык в комментариях.

115: Также очень удобно, можно пользоваться вкладкой девелопер. Здесь мы можем выбрать любую модель, мы загружаем модель после того, как модель загружен.

116: Мы можем её выбрать.

117: Нажимаем start server и у нас запущен сервер на порте 1234, номер порта мы тоже можем поменять, соответственно здесь можно посмотреть какая скорость работы модели какие были.

118: Вопрос и какое использование этого было?

119: Давайте переключимся обратно на презентацию.

120: Спасибо.

121: Давайте переключимся обратно на презентацию. Спасибо.

122: И вот это код, который можно использовать для того, чтоб использовать модель, развёрнутую стадио как инференс да, здесь вы видите, что мы создаём клиент топе, передаём туда url, передаём туда apk это может быть любой k. Он игнорирует?

123: И, используя библиотеку опен ияй, мы можем работать с нашей моделью локально.

124: Итак, как можно попробовать модели без развёртывания локально мы уже обсудили, как это сделать face. Заходим в интерфейс, выбираем модель и запускаем, также можно воспользоваться сервисами репликейт фаерворкс эти сервисы платные, они также.

125: Предоставляет удобный сервис в виде чата и также можно инференсить опен сорс модели для разработки.

126: Предоставляет удобный сервис в виде чата и также можно инференсить опенсорс модели для разработки.

127: Какие основные выводы можно сделать? Локальные модели показывают качество на уровне закрытых моделей. Локальные модели обеспечивают безопасность, могут работать в контуре. Вам не нужно передавать данные в облако модели.

128: Могут быть запущены на обычном железе, показывать хорошую скорость работы и достаточно таких карточек, как и 30 90 или gtx 40 90 процесс дистилляции помогает уменьшить размер модели и перенести требуемые знания.

129: Из модели учителя в модель студента монетизация позволяет снизить требования к железу для запуска определённой модели n studio, позволяет нам удобно пообщаться с моделью и запустить сервер для разработки.

130: Спасибо за внимание, жду вопросов.

131: Александр, спасибо большое за такую интересную лекцию. Сейчас у нас с вами действительно вопросы, и 1 наш подписчик просит нас вас рассказать нам о

132: Спасибо за внимание. Жду вопросов. Александр. Спасибо большое за такую интересную лекцию. Сейчас у нас с вами действительно вопросы, и 1 наш подписчик просит нас вас рассказать нам о

133: В инференсе на рм.

134: Угу. Да, инференс нам вы наверное имели ввиду инференс на cpu без использования gpu такое возможно существуют модели лама, они также требуют тоже самое количество памяти, которое те.

135: Карточек сипипи.

136: Угу. Да, инференс нам вы наверное имели ввиду инференс на cpu без использования gpu карточек. Такое возможно, существуют модели лама сипипи, они также требуют тоже самое количество памяти, которое те,

137: Для

138: Видеокарточки и это будет рам. Но здесь есть нюансы, что качество таких моделей будет уменьшено из за того, что они будут квантизованный. И, во вторых, скорость такого интереса в разы меньше, потому чт

139: Для видеокарточки и это будет рам. Но здесь есть нюансы, что качество таких моделей будет уменьшено из за того, что они будут квантизованный. И, во вторых, скорость такого интереса в разы меньше, потому чт

140: Токена в

141: Gpu работает в сотни раз быстрее, то есть вместо того, чтобы получать скорость 30 токенов в секунду на cpu, вы будете получать меньше 1.

142: Секунду. Спасибо. Н студио или олама. Почему?

143: Gpu работает в сотни раз быстрее, то есть вместо того, чтобы получать скорость 30 токенов в секунду на cpu, вы будете получать меньше 1 токена в секунду спасибо н. Студио или олама почему?

144: Вы выбрали пока что именно лм. Студию, по крайней мере для демонстрации.

145: Да, lm studio мне очень нравится, она удобная, через неё можно делать разработку, можно пробовать разные модели, подгружая прямо из интерфейса, так и из

146: Вы выбрали пока что именно лм студию, по крайней мере, для демонстрации, да, lm studio. Мне очень нравится, она удобная, через неё можно делать разработку, можно пробовать разные модели, подгружая прямо из интерфейса, так и из

147: А, улама пробовали? Работал. Угу. Поняла. Спасибо.

148: Нет, с lana я не работал, но наслышан о таком инструменте, пока что именно с ним не.

149: А улама пробовали? Нет, с lana я не работал, но наслышан о таком инструменте, пока что именно с ним не работал. Угу, поняла. Спасибо, ког.

150: Да, вам нужно выбрать модель показателям, каких источников вы больше всего доверяете. Может быть, выделите какие-то конкретные арены, ваши фавориты?

151: Да, конечно, когда я выбираю модель, ориентируюсь на lvm арену, она показывает независимые исследования, и там невозможно подогнать модель под какой-то из Парков такие ситуации бывали.

152: Некоторые разработчики специально тренируют модели на определённых парках, чтобы показать лучшие результаты там, но в основном при подборе локальной модели я использую хакинг фейс и при код.

153: Эти 2 сайта содержат всю необходимую информацию, которая позволяет выбрать модель под определённый кейс, да, например, если нам нужно выбрать какую-нибудь вижн модель, мы заходим на Хадин фейс, выбираем задачу. Там 1 задача сиар смо,

154: Смотрим различные дашборды, выбираем модель, которая нам максимально подходит по нашим метрикам, и дальше сравниваем локально, насколько эти модели хорошо работают.

155: А как вы относитесь к чат бот бот арене? Пользуетесь ей?

156: Да, я уже про неё говорил, вот. И она была даже в слайдах, конечно, я ей пользуюсь. Она показывает независимое исследование всех этих моделей.

157: А как вы относитесь к чат бот бот арене? Пользуетесь ей? Да, я уже про неё говорил. Вот. И она была даже в слайдах. Конечно, я ей пользуюсь. Она показывает независимое исследование всех этих моделей и

158: Там иногда можно увидеть, да, какие-нибудь есть, так сказать, инсайты, перед тем, как произойдёт выпуск какой новой модели, он, к примеру, там выпускали свою модель. Часто у нас чат gpt или

159: Вот gpt и они сразу врывались в лидеры, можно было понять, что в ближайшее время стоит ожидать выпуск какой-то интересной модели.

160: Угу, спасибо. А чего, на ваш взгляд, не хватает опенсорс моделям, чтобы ещё?

161: Вот gpt. И они сразу врывались в лидеры, можно было понять, что в ближайшее время стоит ожидать выпуск какой-то интересной модели. Угу. Спасибо. А чего, на ваш взгляд, не хватает опенсорс моделям, чтобы ещё

162: Больше там догнать, перегнать, да, закрытые разработки, где их

163: Ну, на самом деле, я думаю, что в ближайшее время это произойдёт, потому что илон маск уже построил самый крупный дата центр и обучает новую.

164: Больше там догнать, перегнать, да, закрытые разработки, где их? Ну, на самом деле, я думаю, что в ближайшее время это произойдёт, потому что илон маск уже построил самый крупный дата центр и обучает новую.

165: Крока, которая, скорее всего, должна превзойти все модели, которые сейчас есть. Однако вендеры тоже не уступают. Они постоянно совершенствуют свои модели. Да, и мы все ждём выход джити 5, например, в ближайшее

166: Ждём там ближайшее время здесь.

167: Крока, которая, скорее всего, должна превзойти все модели, которые сейчас есть. Однако вендоры тоже не уступают. Они постоянно совершенствуют свои модели. Да, и мы все ждём там выход джити 5, например, в ближайшее время здесь

168: Самая большая проблема, что эти модели, которые с большим количеством параметров, они недоступны для запуска всем, ну, не у каждого человека найдётся там 150000000, чтоб купить сервера для пуска такой модели. Однако большие корпорации

169: Они могут себе позволить, и для них эти модели будут доступны и уже доступны.

170: Вы технический директор компании. Если бы вы узнали, что ваш сотрудник для генерации кода или

171: Они могут себе позволить, и для них эти модели будут доступны и уже доступны. Угу. Вы технический директор компании. Если бы вы узнали, что ваш сотрудник для генерации кода или

172: Используют закрытые облачные модели, как бы вы к этому отнеслись? Вот в плане безопасности.

173: Все зависит от проекта, да, если есть какой-то жёсткий энди, то здесь обязательно нужно будет использовать и локальную модель. Но я обычно на самом деле поощряю у нас, мы используем такую практику, что мы разрешаем всем своим сотрудникам.

174: Использовать все современные модели и наши разработчики, они используют чат gpt, они используют клод наиболее продвинутые. Они используют полностью курсор, который интегрируется с разными моделями.

175: Использовать все современные модели и наши разработчики, они используют чат gpt. Они используют клод наиболее продвинутые. Они используют полностью курсор, который интегрируется с разными моделями и умеет там

176: Работать в режиме архитектора. Это позволяет компании писать код намного быстрее и, соответственно, получать преимущество на рынке из за того, что мы можем выпустить продукт не за полгода, например, а за 2 месяца, а не хо.

177: Хотели бы внутри компании развернуть такую локальную ллм и вашим разработчикам помощь и безопасность?

178: Да, мы на самом деле смотрим в эту сторону, у нас уже настроен

179: Хотели бы внутри компании развернуть такую локальную ллм и вашим разработчикам помощь и безопасность. Да, мы на самом деле смотрим в эту сторону. У нас уже настроен

180: Свои сервера и наверное, в ближайшее время будем их запускать и интегрировать свою локальную модель с курсор. Это тоже можно сделать. Де позволяет

181: Очень круто, очень интересно. А можно ли по api обращаться к lm studio? Да, конечно, именно презентацию. Вот, да, вот.

182: Да, конечно, я это даже показывал и был пример кода. Вот если мы включим, можно презентацию включить.

183: Очень круто, очень интересно. А можно ли по api обращаться к lm studio? Да, конечно, я это даже показывал и был пример кода. Вот если мы включим, можно презентацию включить. Да, конечно, именно презентацию. Вот, да, вот.

184: Есть такой код, да, то есть мы используем его студию, как инференс, и по апи мы можем обращаться к ней как через интерфейс open ияй. Все поинты полностью соответствуют тому, что предоставляет опен ияй и очень просто интегри.

185: Модель своё приложение.

186: Спасибо, в своей, в своей презентации вы говорили, что 1 из слабых, 1 из слабых мест закрытых моделей. То, что мы не можем контролировать их версии.

187: Модель, своё приложение. Спасибо в своей, в своей презентации вы говорили, что 1 из слабых, 1 из слабых мест, закрытых моделей. То, что мы не можем контролировать их версии.

188: А вот вы сами при работе с закрытыми моделями сталкивались с ситуацией, когда вышло обновление модели, у вас условно все сломалось, прежние промты не работают и так далее.

189: Ну, именно то, что все сломалось, такого не было, но мы у нас есть.

190: А вот вы сами при работе с закрытыми моделями сталкивались с ситуацией, когда вышло обновление модели, у вас условно все сломалось, прежние промты не работают и так далее. Ну, именно то, что все сломалось, такого не было, но мы у нас есть

191: Собственный продукт, который делает аналитику аудио, и мы временами смотрим даже модели, которые якобы должны быть снэпшот у пения. Временами они начинают показывать худшие результаты на тех же данных и есть

192: Подозрение, что все равно, хоть они и говорят это snapshot, то, но версия обновляется, модель каким-то образом эволюционирует со временем. Поэтому, да, здесь есть вот такой нюанс, что используя облачные модели,

193: Что?

194: Подозрение, что все равно, хоть они и говорят, что это snapshot то, но версия обновляется, модель каким-то образом эволюционирует со временем. Поэтому, да, здесь есть вот такой нюанс, что используя облачные модели,

195: Мы не можем контролировать версии, у нас есть вероятность того, что в 1 из моментов пронты станут работать хуже. Их придётся дорабатывать, и это придётся делать постоянно. Используя опенсорс модели, мы можем зайти 1 версию настроить.

196: Продукт на работу с ней, и мы всегда уверены, что мы работаем с той моделью, и она никогда не

197: Изменится. Угу. А подскажите, что нужно учесть при дистилляции ллм? И вообще, как вы определяете для себя, где этот баланс между точность?

198: Продукт на работу с ней, и мы всегда уверены, что мы работаем с той моделью, и она никогда не изменится. Угу. А подскажите, что нужно учесть при дистилляции ллм? И вообще, как вы определяете для себя, где этот баланс между точность?

199: И уменьшением размера, прочими преимуществами.

200: Да, это 2 разные точность уменьшения размера. Это 2 разных процесса. Да, дистилляция позволяет нам уменьшить размер, то есть имея модель учителя.

201: Модели?

202: И уменьшением размера, прочими преимуществами. Да, это 2 разные точность уменьшения размера, это 2 разных процесса. Да, дистилляция позволяет нам уменьшить размер модели, то есть имея модель учителя,

203: 405 миллиардов. Процесс дистилляции позволяет сделать не модель на 8 миллиардов параметров, но здесь нужно контролировать именно перенос тех знаний, которые требуются меньше модели. Этот процесс достаточно сложный, и им как раз занимаются обычные компании, которы

204: Модель выпускает, конечно, можно самостоятельно дистилировать модель, если у вас есть мощности.

205: И есть дата сайнс команда, которая может это сделать. Вы можете перенести именно те знания из модели, которые вам нужны, и сделать там максимально компактную модель, которая может хорошо решать определённые задачи, например, там суммаризировать текст или там выделять

206: Сущности, а процесс конизации это немножко другой процесс. Он за счёт уменьшения точности модели позволяет существенно сократить её размер, но при этом знания модели, они остаются те же. Здесь нам нужно использовать модель именно вот с этим набором

207: Знаний, которые, например, есть в 405 миллиардов, и мы хотим его оставить, но готовы немножко пожертвовать качеством работы самой модели, то мы можем её кантовать или использовать уже готовую квантованную версию.

208: Процесс монетизации он в принципе достаточно простой, но иногда в некоторых случаях он может требовать большого количества ресурсов, и здесь нужно выбирать, какой именно подход лучше использовать, если вы хотите.

209: Решать определённую задачу, то нужно выбрать инстилляцию. Если вам нужна именно эта модель, но нужно запустить её на железе полегче, то нужно выбрать автоматизацию. Но если вы хотите решать там какую-то определённую задачу на устройстве, например, на мобильном, то

210: Вам лучше выбрать комбо этих подходов и сначала дистиллировать модель, чтоб она решала какую-то задачу, а потом понтовать её, чтобы запустить на устройстве поменьше.

211: Поняла?

212: Вам лучше выбрать комбо этих подходов и сначала дистилировать модель, чтоб она решала какую-то задачу, а потом понтовать её, чтоб запустить на устройстве поменьше. Поняла?

213: Какой фреймворк вы используете для учёта импута ауто токен?

214: Мы используем лонгчен. Вот у них есть интеграция с облачной платформой Ланг смит, в которой можно смотреть всю статистику. Но обычно для сервисов, если мы не подключаем Ланг смит, то

215: Сохраняем импорт токенов в свою базу, попробуйте on студию и разверните.

216: Угу. А что бы вы посоветовали человеку, который впервые решил развернуть модель на своём компьютере?

217: Сохраняем импорт токенов в свою базу. Угу. А что бы вы посоветовали человеку, который впервые решил развернуть модель на своём компьютере? Попробуйте on студию и разверните.

218: Через студию поиграйтесь, початитесь.

219: С.

220: Ним. Ага. Сделайте, пожалуйста, небольшой прогноз. Как, по вашему, будут развиваться ллм? И вообще, что нас ждёт в этой сфере в ближайшем будущем?

221: Через студию поиграйтесь, початитесь с ним. Ага. Сделайте, пожалуйста, небольшой прогноз. Как, по вашему, будут развиваться ллм? И вообще, что нас ждёт в этой сфере в ближайшем будущем?

222: Да, вопрос интересный. Он всех прям постоянно интересует. Ну, лм, они стараются двигаться к тому, что называется эджай, когда модели станут полностью автономными, и мы сможем дать им задачу, и они её выполнят.

223: Соответственно, изначально было выделено 5 Шагов для достижения джай 1 шаг это был модель gp 3 с половиной, что-то вроде этого, 2 шаг это агентные системы, сейчас вот очень популярны.

224: Агентная система. 3 шаг это дать моделям возможность видеть, слышать. Да, сейчас мы видим, уже появляется большое количество мультимодальных моделей, которые могут работать с аудио. Например, мы можем с ней пообщаться. Также она сразу

225: Отвечать на в формате аудио и это именно 1 модель, она натренирована на восприятие не только текста, но также есть вот следующие 2 шага. Пока что мы их не понимаем. То есть сейчас развитие стоит

226: На 3 шаге до достижения эйай, что мы ждём, когда кто-то его достигнет. Но есть вероятность, что в опенсорс это не попадёт, потому что технология будет очень крутая и вряд ли кто-то захочет ей делиться. Поняла?

227: Спасибо большое, Александр, за такую интересную лекцию, за ответы на вопросы. У нас, к сожалению, закончилось время. Благодарю всех, кто посмотрит эту лекцию в записи, и всех, кто смог подключиться непосредственно на нашу трансляцию, задавал вопросы.

228: Конечно, если вы желаете, хотите, чтобы Александр пришёл к нам в студию снова в гости, ставьте лайк этому видео, пишите комментарии и, конечно, подписывайтесь на наш telegram канал аиф одев. Напоминаю, ссылка на него.

229: Есть в описании под видео, ну а сейчас?

230: Александр, простите, нам пришёл ещё 1 вопрос. Давайте мы чуть чуть задержимся, да, немножко под занавес. Тем не менее, если в задачах нализации нужно выделять специфические сущности,

231: Давайте, конечно, я с радостью отвечу.

232: Александр, простите, нам пришёл ещё 1 вопрос. Давайте мы чуть чуть задержимся. Давайте, конечно, я с радостью отвечу. Да, немножко под занавес. Тем не менее, если в задачах нализации нужно выделять специфические сущности,

233: Для лучшего качества потребуется размещать и обучать её.

234: Все зависит от того, какие специфические сущности вы хотите, если это, например, какие-то справочники, то можно использовать техники prompting.

235: Для лучшего качества потребуется размещать и обучать её. Все зависит от того, какие специфические сущности вы хотите, если это, например, какие-то справочники, то можно использовать техники, prompting.

236: Техника прома. Соответственно, вы в контекст подкладываете возможные значения, описываете, при каком случае нужно выбрать это значение, и используете подход сос, при котором модель

237: Может подумать и выбрать корректное значение пока что я не встречал задач суммаризации или задач выделения сущностей, которых требовалось бы именно до обучения модели все решает техника.

238: Может подумать и выбрать корректное значение. Пока что я не встречал задач суммаризации или задач выделения сущностей, которых требовалось бы именно до обучения модели. Все решается техникой протина. Угу.

239: Спасибо большое. Нас тоже благодарят за стрим. Ещё раз напоминаю, что вы можете поставить лайк этому видео. Пишите свои вопросы в комментариях. Мы попросим Александра, передадим ему, попросим ответить на них подписы.

240: Сайте на наш telegram канал по ссылке и на этом мы прощаемся, Александр, спасибо. Увидимся да, хорошего дня.

241: Всем большое спасибо.

242: Сайте на наш telegram канал по ссылке. И на этом мы прощаемся. Александр. Спасибо всем большое. Спасибо. Увидимся. Да, хорошего дня.