Полный гайд по запуску llama1-2-3 на koboldcpp

Вставьте ссылку на видео из Youtube, Rutube, VK видео

Задайте вопрос по видео

Что вас интересует?

00:00:05

Установка и настройка программы:

1. Необходимо скачать программу с гитхаба Cobal cpp, найти раздел релизы и перейти на страницы Cobal и Cobal cpp
2. В Cobal cpp отсутствует пресет CUBLAS для оптимизации работы на видеокартах NVIDIA

00:00:29

Форматы весов и их совместимость:

Существуют разные форматы весов моделей (точка pt эйч, Хагин фейс, Lana cpp), совместимые друг с другом частично
Для достижения наилучшей производительности рекомендуются версии весов не ниже 4 бит
Формат 5 beat оптимален по соотношению размера и качества, однако требует максимального объема доступной памяти для корректной работы

00:03:33

Работа с моделями и пресетами:

1. Разработаны и внедрены технологии avi_икс_2, fail_safe (для старых процессоров), cell_blast (работа на любых видеокартах NVIDIA, AMD, Intel)
2. Созданы и используются видеопресеты для видеокарт Rodion и Volkan (форки Rock), дополнительно разработан пресет Metal для Apple Silicon
3. Все представленные решения ориентированы исключительно на нужды тестирования и отладки (дибаг)

00:03:59

Параметры генерации текста:

1. Повышение количества токенов для обработки единовременно приведет к увеличению скорости генерации текста
2. Новая функция Sable emap уменьшает потребление видеопамяти и ускоряет работу моделей Q4 и Q0
3. Настройка ограничения контекста модели увеличивает полезное ограничение контекста до 8192 токенов с минимальными потерями качества

00:07:20

Дополнительные настройки и рекомендации:

1. Участники обсудили рекомендуемые настройки для работы на процессоре и видеокарте
2. Настройки были применены, после чего участники кликнули на раздел «lounge»
3. Ожидают загрузки модели и появления веб-интерфейса (web-ui)

00:07:39

Веб-интерфейс и управление сессиями:

В веб-интерфейсе программы реализованы следующие разделы: new session (новая сессия), scenarios (сценарии), сейф (сохраняет историю диалога и настройки)
Опция пользования на других устройствах в локальной сети включает режимы чат-история, ответы в режиме ожидания, автоматическое отправление новых ответов после паузы пользователя
Для улучшения качества общения пользователей предусмотрен режим продолжения ответов бота («продолжить ответ»), который позволяет боту завершать незавершённые мысли и продолжать разговор в одном сообщении

0: Для начала нужно скачать программу. Переходим на страницу гитхаба Кобаль цпп, находим релизес и кликаем. Далее проматываем до кобал цп и кобал цпп, но куда отличия между ними заключаются в том,

1: Что последней нет пресета кубла для более быстрой работы на видеокартах nvidia.

2: Сейчас существует несколько версий весов, несовместимых между собой 1 оригинальные точка pt эйч файлы работают только с оригинальным репозиторием формат имени консолидейтед точка 0 0.

3: Точка pt эйч вторые веса, сконвертированные в формат Хагин фейс формат имени пайторч модел 1, эф 33, точка бин, третьи веса квантизировать, работают на процессоре.

4: Чем больше число бит, тем выше точность и расход памяти зачастую, чем новее версия, тем лучше рекомендуется скачивать версии не ниже 4 бит. Четвёртые джигу это новый формат, представленный коман.

5: Lana цпп 21.08.2023 это замена digimortal ше не поддерживается лама цпп пятые веса квантизировать кью работают на.

6: Видеокарте наивысшая производительность, но сложности с олодом возможность распределить по нескольким видеокартам, суммируя их память, имеют имя типа lana 7 b4 beat точка сейф тенсес формат до.

7: 5 скачивать не стоит при себе содержат конфиги, которые нужны для запуска их тоже качаем могут быть квантованные в 3 4 8 bit квантование отличается по числу групп 32 60.

8: 54 128 в порядке возрастания качества и расхода ресурсов основными форматами являются джиджи, эмэль джиджи и эф и gpt кью. Оптимальным по соотношению размер-ка.

9: Является 5 beat по размеру брать максимальную, что помещается в память видео или оперативную для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1000.

10: Текста, то есть для 7 би модели, g, gm весом в 4,7 гигабайт и контекста в 2000 нужно примерно 7 гигабайт оперативной на сегодня основным поставщиком является квантова.

11: Моделей деблок на Хагин фейс.

12: Теперь разберём интерфейс программы на вкладке quick launch присутствует меню выбора пресета разберём пресеты опен Блас для работы на процессоре, но Блас тоже работает на процессоре, но с очень низкой скоростью.

13: Существуют только для дибага, но avi икс 2 и fail safe для старых процессоров, cell бласт для работы на любых видеокартах nvidia, amd intel, кубла для видеокартах.

14: Видео пресеты, которые представлены в форках рок и volkan для видеокартах Родион и, наконец, метал для apple silicon.

15: Теперь перейдём к остальным настройкам на вкладке quick launch трёс количество ядер процессора Блас бэч сайз количество токенов, которые будут обработаны единовременно повышение количества токенов на мощных про.

16: Должно приводить к увеличению скорости лоунж браузер, открытие страницы стриминг моуд выводит ответ по мере генерации анен токенс для некоторых моделей помогает от бессвязной.

17: Генерации бессвязно писать после того, как должен был прекратить генерировать хай проорити, задаёт высокий приоритет процесса юз смарт контекст увеличение токенов работает плохо.

18: Sable эмап отключает чтение частей модели с диска в оперативную память по требованию контекст сайз количество токенов контекста гпу айди это номер видеокарты, которая будет задействована лоу.

19: Vrrum позволяет загружать больше слоёв для видеокарты с малым количеством видеопамяти юз ммк экспериментально это использует немного меньше памяти и немного быстрее для q 4 и 0.

20: Layers количество слоёв, которые будут обрабатываться на видеокарте, на вкладке hardware разберём ещё пару настроек сутил, сет, третс, количество потоков процессора для обработки по умолчанию выбира.

21: Все физические ядра процессора, бласт трёс, количество потоков, которые будут использоваться для вывода, по умолчанию выбирает все физические ядра процессора млок. Это опция. Позволяю

22: Модели оставаться в оперативной памяти после её загрузки в некоторых системах, особенно при нехватке оперативной памяти ос может слишком часто запускать подкачку памяти, что снижает производительность на вклад.

23: Tokens юз миростат решает проблему при генерации текстов ловушки скуки, когда генерируемый текст становится повторяющимся, и ловушку недоумения, когда генерируемый текст теряет связность очень.

24: Просто позволяет генерировать высококачественный текст без необходимости ручной настройки параметров кастом роуп конфиг это новый метод, позволяющий расширить полезный контекст существующих моделей без тонкой

25: Настройки его можно использовать для увеличения ограничения контекста модели более чем в 4 раза, например, с 2048 до 8192 с незначительным или умеренным ухудшением.

26: Качества на вкладке model расположены модел путь к модели лама Лора путь к Лора, которая позволяет провести более тонкую настройку модели на вкладке network port port у страницы хост.

27: Адрес у страницы конфиге фор Хорт, настройка, эйай Хорт это распределённый кластер, где люди могут делиться своей вычислительной мощностью для создания изображений и текста для других пользователей.

28: Рекомендуемые мной настройки для работы на процессоре и видеокарте.

29: После того, как настроили кликаем на lounge и ждём, пока модель загрузится и мы увидим веб ui.

30: В веб интерфейсе программы имеются такие основные разделы, как new session, новая сессия стирает все диалоги, scenarios, сценарии, сейф сохраняет всю историю диалога и настройки.

31: В json file load позволяет выбрать путь к файлу json для загрузки истории диалога и настроек settings открывает меню настроек шер создаёт ссылку для иис.

32: Пользование на других устройствах в локальной сети. Основные режимы чат история ответы в режиме ожидания. Включение этой опции позволяет ии автоматически отправлять новые ответы после то,

33: Того, как пользователь бездействует в течение нескольких секунд, что полезно для имитации разговора в чате в реальном времени, чат многострочные ответы. Эта опция позволяет ии отвечать на ваши

34: Сообщение в чате более чем 1 строкой это может привести к более многословным и длинным ответам в чате, но вывод также может стать совершенно бессвязным и непредсказуемым, или ii может даже начать говорить, как кто-то.

35: Другой не рекомендуется новичкам чат продолжить ответы Бата. Эта опция позволяет ии прекратить говорить на полпути неполный ответ, а затем возобновить речь в том же сообщении, когда вы

36: Снова нажмёте кнопку отправить. Если этот параметр отключён, каждый ответ от ии будет начинаться с новой строки с добавленным префиксом имени ии стиль ирси. Включение продолжить ответ.

37: Бота может привести к тому, что ii откажется говорить, если он не знает, что сказать, не рекомендуется новичкам чат ваше имя, имя ii, вы можете установить отображаемое имя и имя.

38: И и для текущего сеанса чата, что полезно для отыгрывания определённых персонажей, чат, эстетический чат, переключение на пользовательский интерфейс в стиле чата для режима чата, в отличие от обычного.

39: Текстового редактора. Инструкция начальная и конечная последовательность. Установите для этого параметра начальную и конечную последовательность инструкций, на которых модель обучалась для достижения наилучшего качества, для

40: Это ичадие инстракшн и key response, что обычно хорошо работает для большинства моделей инструкций. При желании вы можете добавить новые строки рн.

41: Инструкция включить уценку. Это позволяет режиму инструкции генерировать форматированные уценки, такие как списки элементов таблицы и блоки кода. Полезно для задач кодирования. Приключение улу.

42: Подсказка. Эта опция вводит предварительную подсказку для ии, чтобы заставить его более серьёзно относиться к режиму приключений, что полезно. Особенно если ваша подсказка короткая, настоятельно рекомендую.

43: Оставить включённым новичкам, если только вы не используете собственный сценарий Макс токенс, какой объём текста модель может сохранить и обработать, если вы используете контекст более 2000?

44: Токенов вручную введите то же количество, что и в лаунчере топ p. Самплинг используется для удаления маловероятного текста в процессе выборки.

45: Меньшие значения сделают текст более предсказуемым, но он может стать повторяющимся установите значение 1, чтобы отключить его repetition пеналти пытается сделать так, чтобы модель меньше повторялась.

46: Значения, превышающие значение по умолчанию, могут привести к тому, что модели начнут болтать эстетик чат юай, эстетичный пользовательский интерфейс чата Малтин реплайс, многострочные ответы, континиум.

47: Бот реплайс продолжить ответы бота айдол responses, пустые ответы температуре чем выше температура, тем более творческий ответ, но может привести к бессвязному ответу.

48: To jane максимальный размер генерации для работы интеллектуального контекста это значение, возможно, должно быть меньше пятиста 12, например, 400 аутокрови, аттическая прокрутка.

49: Trim sentences сокращать предложения трим вайт спейс обрезать пробелы, персист сешен, сохранение сеанса, экспорт сеттингс настройки экспорта инвертед калорс, перевёрнутые цвета auto.

50: Generate. Автогенерация алаун разрешить эф интернет жаргон. Сокращение от not safe for work позволяет генерировать контент без цензуры. Сейф, имиджес, сохранение изображений би.

51: Он дан звуковой сигнал о завершении tts. Включите преобразование текста в речь, чтобы ваша история автоматически читалась вам.

52: Пример работы на i, 5 9 600 кф и gtx 10 80 тиай.