📋 Model Description
license: other license_name: yandexgpt-5-lite-8b license_link: LICENSE language:
- ru
- en
YandexGPT-5-Lite-Instruct-GGUF
Квантизованная версия YandexGPT 5 Lite 8B Instruct. Информация о модели доступна в основном репозитории: YandexGPT-5-Lite-8B-instruct.UPD: Мы обновили .gguf файл в изначальном репозитории на наиболее близкий по качеству к оригинальной модели.
llama.cpp
Для начала нужно собрать llama.cpp (или обновить, если уже есть):git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build --config Release
cd ..
Можно ускорить сборку если позволяют ресурсы: cmake --build build --config Release -j 10
Запуск модели в интерактивном режиме:
llama.cpp/build/bin/llama-cli -m YandexGPT-5-Lite-8B-instruct-Q4KM.ggufМы рекомендуем использовать интерактивный режим только для ознакомления с моделью.
Запуск сервера:
llama.cpp/build/bin/llama-server -m YandexGPT-5-Lite-8B-instruct-Q4KM.gguf -c 32768Если позволяют ресурсы, можно ускорить инференс, добавив
-t 10.
Ollama
Запуск модели в интерактивном режиме:ollama run yandex/YandexGPT-5-Lite-8B-instruct-GGUF
Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.
Особенности шаблона
Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательностиАссистент:[SEP], завершая её токеном . При этом диалог в промпте может быть любой длины.
Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.
📂 GGUF File List
| 📁 Filename | 📦 Size | ⚡ Download |
|---|---|---|
|
YandexGPT-5-Lite-8B-instruct-Q4_K_M.gguf
Recommended
LFS
Q4
|
4.58 GB | Download |