ym104432846
Вставьте ссылку на видео из Youtube, Rutube, VK видео
Задайте вопрос по видео
Что вас интересует?
00:00:05
Установка и настройка программы:
  • 1. Необходимо скачать программу с гитхаба Cobal cpp, найти раздел релизы и перейти на страницы Cobal и Cobal cpp
  • 2. В Cobal cpp отсутствует пресет CUBLAS для оптимизации работы на видеокартах NVIDIA
00:00:29
Форматы весов и их совместимость:
  • Существуют разные форматы весов моделей (точка pt эйч, Хагин фейс, Lana cpp), совместимые друг с другом частично
  • Для достижения наилучшей производительности рекомендуются версии весов не ниже 4 бит
  • Формат 5 beat оптимален по соотношению размера и качества, однако требует максимального объема доступной памяти для корректной работы
00:03:33
Работа с моделями и пресетами:
  • 1. Разработаны и внедрены технологии avi_икс_2, fail_safe (для старых процессоров), cell_blast (работа на любых видеокартах NVIDIA, AMD, Intel)
  • 2. Созданы и используются видеопресеты для видеокарт Rodion и Volkan (форки Rock), дополнительно разработан пресет Metal для Apple Silicon
  • 3. Все представленные решения ориентированы исключительно на нужды тестирования и отладки (дибаг)
00:03:59
Параметры генерации текста:
  • 1. Повышение количества токенов для обработки единовременно приведет к увеличению скорости генерации текста
  • 2. Новая функция Sable emap уменьшает потребление видеопамяти и ускоряет работу моделей Q4 и Q0
  • 3. Настройка ограничения контекста модели увеличивает полезное ограничение контекста до 8192 токенов с минимальными потерями качества
00:07:20
Дополнительные настройки и рекомендации:
  • 1. Участники обсудили рекомендуемые настройки для работы на процессоре и видеокарте
  • 2. Настройки были применены, после чего участники кликнули на раздел «lounge»
  • 3. Ожидают загрузки модели и появления веб-интерфейса (web-ui)
00:07:39
Веб-интерфейс и управление сессиями:
  • В веб-интерфейсе программы реализованы следующие разделы: new session (новая сессия), scenarios (сценарии), сейф (сохраняет историю диалога и настройки)
  • Опция пользования на других устройствах в локальной сети включает режимы чат-история, ответы в режиме ожидания, автоматическое отправление новых ответов после паузы пользователя
  • Для улучшения качества общения пользователей предусмотрен режим продолжения ответов бота («продолжить ответ»), который позволяет боту завершать незавершённые мысли и продолжать разговор в одном сообщении
0: Для начала нужно скачать программу. Переходим на страницу гитхаба Кобаль цпп, находим релизес и кликаем. Далее проматываем до кобал цп и кобал цпп, но куда отличия между ними заключаются в том,
1: Что последней нет пресета кубла для более быстрой работы на видеокартах nvidia.
2: Сейчас существует несколько версий весов, несовместимых между собой 1 оригинальные точка pt эйч файлы работают только с оригинальным репозиторием формат имени консолидейтед точка 0 0.
3: Точка pt эйч вторые веса, сконвертированные в формат Хагин фейс формат имени пайторч модел 1, эф 33, точка бин, третьи веса квантизировать, работают на процессоре.
4: Чем больше число бит, тем выше точность и расход памяти зачастую, чем новее версия, тем лучше рекомендуется скачивать версии не ниже 4 бит. Четвёртые джигу это новый формат, представленный коман.
5: Lana цпп 21.08.2023 это замена digimortal ше не поддерживается лама цпп пятые веса квантизировать кью работают на.
6: Видеокарте наивысшая производительность, но сложности с олодом возможность распределить по нескольким видеокартам, суммируя их память, имеют имя типа lana 7 b4 beat точка сейф тенсес формат до.
7: 5 скачивать не стоит при себе содержат конфиги, которые нужны для запуска их тоже качаем могут быть квантованные в 3 4 8 bit квантование отличается по числу групп 32 60.
8: 54 128 в порядке возрастания качества и расхода ресурсов основными форматами являются джиджи, эмэль джиджи и эф и gpt кью. Оптимальным по соотношению размер-ка.
9: Является 5 beat по размеру брать максимальную, что помещается в память видео или оперативную для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1000.
10: Текста, то есть для 7 би модели, g, gm весом в 4,7 гигабайт и контекста в 2000 нужно примерно 7 гигабайт оперативной на сегодня основным поставщиком является квантова.
11: Моделей деблок на Хагин фейс.
12: Теперь разберём интерфейс программы на вкладке quick launch присутствует меню выбора пресета разберём пресеты опен Блас для работы на процессоре, но Блас тоже работает на процессоре, но с очень низкой скоростью.
13: Существуют только для дибага, но avi икс 2 и fail safe для старых процессоров, cell бласт для работы на любых видеокартах nvidia, amd intel, кубла для видеокартах.
14: Видео пресеты, которые представлены в форках рок и volkan для видеокартах Родион и, наконец, метал для apple silicon.
15: Теперь перейдём к остальным настройкам на вкладке quick launch трёс количество ядер процессора Блас бэч сайз количество токенов, которые будут обработаны единовременно повышение количества токенов на мощных про.
16: Должно приводить к увеличению скорости лоунж браузер, открытие страницы стриминг моуд выводит ответ по мере генерации анен токенс для некоторых моделей помогает от бессвязной.
17: Генерации бессвязно писать после того, как должен был прекратить генерировать хай проорити, задаёт высокий приоритет процесса юз смарт контекст увеличение токенов работает плохо.
18: Sable эмап отключает чтение частей модели с диска в оперативную память по требованию контекст сайз количество токенов контекста гпу айди это номер видеокарты, которая будет задействована лоу.
19: Vrrum позволяет загружать больше слоёв для видеокарты с малым количеством видеопамяти юз ммк экспериментально это использует немного меньше памяти и немного быстрее для q 4 и 0.
20: Layers количество слоёв, которые будут обрабатываться на видеокарте, на вкладке hardware разберём ещё пару настроек сутил, сет, третс, количество потоков процессора для обработки по умолчанию выбира.
21: Все физические ядра процессора, бласт трёс, количество потоков, которые будут использоваться для вывода, по умолчанию выбирает все физические ядра процессора млок. Это опция. Позволяю
22: Модели оставаться в оперативной памяти после её загрузки в некоторых системах, особенно при нехватке оперативной памяти ос может слишком часто запускать подкачку памяти, что снижает производительность на вклад.
23: Tokens юз миростат решает проблему при генерации текстов ловушки скуки, когда генерируемый текст становится повторяющимся, и ловушку недоумения, когда генерируемый текст теряет связность очень.
24: Просто позволяет генерировать высококачественный текст без необходимости ручной настройки параметров кастом роуп конфиг это новый метод, позволяющий расширить полезный контекст существующих моделей без тонкой
25: Настройки его можно использовать для увеличения ограничения контекста модели более чем в 4 раза, например, с 2048 до 8192 с незначительным или умеренным ухудшением.
26: Качества на вкладке model расположены модел путь к модели лама Лора путь к Лора, которая позволяет провести более тонкую настройку модели на вкладке network port port у страницы хост.
27: Адрес у страницы конфиге фор Хорт, настройка, эйай Хорт это распределённый кластер, где люди могут делиться своей вычислительной мощностью для создания изображений и текста для других пользователей.
28: Рекомендуемые мной настройки для работы на процессоре и видеокарте.
29: После того, как настроили кликаем на lounge и ждём, пока модель загрузится и мы увидим веб ui.
30: В веб интерфейсе программы имеются такие основные разделы, как new session, новая сессия стирает все диалоги, scenarios, сценарии, сейф сохраняет всю историю диалога и настройки.
31: В json file load позволяет выбрать путь к файлу json для загрузки истории диалога и настроек settings открывает меню настроек шер создаёт ссылку для иис.
32: Пользование на других устройствах в локальной сети. Основные режимы чат история ответы в режиме ожидания. Включение этой опции позволяет ии автоматически отправлять новые ответы после то,
33: Того, как пользователь бездействует в течение нескольких секунд, что полезно для имитации разговора в чате в реальном времени, чат многострочные ответы. Эта опция позволяет ии отвечать на ваши
34: Сообщение в чате более чем 1 строкой это может привести к более многословным и длинным ответам в чате, но вывод также может стать совершенно бессвязным и непредсказуемым, или ii может даже начать говорить, как кто-то.
35: Другой не рекомендуется новичкам чат продолжить ответы Бата. Эта опция позволяет ии прекратить говорить на полпути неполный ответ, а затем возобновить речь в том же сообщении, когда вы
36: Снова нажмёте кнопку отправить. Если этот параметр отключён, каждый ответ от ии будет начинаться с новой строки с добавленным префиксом имени ии стиль ирси. Включение продолжить ответ.
37: Бота может привести к тому, что ii откажется говорить, если он не знает, что сказать, не рекомендуется новичкам чат ваше имя, имя ii, вы можете установить отображаемое имя и имя.
38: И и для текущего сеанса чата, что полезно для отыгрывания определённых персонажей, чат, эстетический чат, переключение на пользовательский интерфейс в стиле чата для режима чата, в отличие от обычного.
39: Текстового редактора. Инструкция начальная и конечная последовательность. Установите для этого параметра начальную и конечную последовательность инструкций, на которых модель обучалась для достижения наилучшего качества, для
40: Это ичадие инстракшн и key response, что обычно хорошо работает для большинства моделей инструкций. При желании вы можете добавить новые строки рн.
41: Инструкция включить уценку. Это позволяет режиму инструкции генерировать форматированные уценки, такие как списки элементов таблицы и блоки кода. Полезно для задач кодирования. Приключение улу.
42: Подсказка. Эта опция вводит предварительную подсказку для ии, чтобы заставить его более серьёзно относиться к режиму приключений, что полезно. Особенно если ваша подсказка короткая, настоятельно рекомендую.
43: Оставить включённым новичкам, если только вы не используете собственный сценарий Макс токенс, какой объём текста модель может сохранить и обработать, если вы используете контекст более 2000?
44: Токенов вручную введите то же количество, что и в лаунчере топ p. Самплинг используется для удаления маловероятного текста в процессе выборки.
45: Меньшие значения сделают текст более предсказуемым, но он может стать повторяющимся установите значение 1, чтобы отключить его repetition пеналти пытается сделать так, чтобы модель меньше повторялась.
46: Значения, превышающие значение по умолчанию, могут привести к тому, что модели начнут болтать эстетик чат юай, эстетичный пользовательский интерфейс чата Малтин реплайс, многострочные ответы, континиум.
47: Бот реплайс продолжить ответы бота айдол responses, пустые ответы температуре чем выше температура, тем более творческий ответ, но может привести к бессвязному ответу.
48: To jane максимальный размер генерации для работы интеллектуального контекста это значение, возможно, должно быть меньше пятиста 12, например, 400 аутокрови, аттическая прокрутка.
49: Trim sentences сокращать предложения трим вайт спейс обрезать пробелы, персист сешен, сохранение сеанса, экспорт сеттингс настройки экспорта инвертед калорс, перевёрнутые цвета auto.
50: Generate. Автогенерация алаун разрешить эф интернет жаргон. Сокращение от not safe for work позволяет генерировать контент без цензуры. Сейф, имиджес, сохранение изображений би.
51: Он дан звуковой сигнал о завершении tts. Включите преобразование текста в речь, чтобы ваша история автоматически читалась вам.
52: Пример работы на i, 5 9 600 кф и gtx 10 80 тиай.