Сервер для ИИ: какое железо нужно и сколько это стоит
Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ
Мы в eddp.ru продаём серверное оборудование и сами разворачивали ИИ на собственной инфраструктуре. Эта статья — не теория, а то, с чем реально столкнулись.
Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ
Почему ИИ — это в первую очередь про видеокарту
Большинство руководителей, когда слышат «сервер для ИИ», представляют что-то вроде мощного компьютера с быстрым процессором. Это не совсем так. Языковые модели живут в видеопамяти GPU и выполняют вычисления именно там. Процессор при этом почти не при делах — он загружает модель, обрабатывает запросы на входе и выходе, но сама «магия» происходит на видеокарте.
Практический вывод: обычный мощный сервер без GPU под задачи ИИ не подходит. Точнее, подходит — но будет работать в 20–50 раз медленнее, чем с GPU. Для тестов и экспериментов терпимо, для рабочей нагрузки — нет.
Когда мы в eddp.ru разворачивали первую локальную модель, именно это стало первым сюрпризом: купили хороший сервер, запустили модель на CPU — и получили 2–3 токена в секунду вместо ожидаемых 50+. Добавили GPU — всё встало на место.
Три сценария: облако, аренда или своё железо
Прежде чем выбирать конфигурацию, нужно определиться со сценарием. Их три, и у каждого своя логика.
Облачные GPU (AWS, Azure, Yandex Cloud)
Запускаете виртуальную машину с GPU в облаке, платите за часы работы. Никаких капзатрат, никакой возни с железом. Удобно для старта и нерегулярных задач. Проблема одна: при постоянной нагрузке цена быстро становится неприятной. Час работы NVIDIA A100 в облаке стоит $3–5, то есть $2 000–3 500 в месяц при круглосуточной работе.
Аренда GPU-сервера
Берёте в аренду физический сервер с GPU у хостинг-провайдера. Дешевле облака в 3–5 раз при той же конфигурации, но данные всё равно находятся у третьей стороны. Хороший компромисс, если покупать своё железо пока рано, а облако уже дорого.
Собственный сервер
Разовые вложения, полный контроль, данные никуда не уходят. После окупаемости — практически бесплатная эксплуатация. Подходит компаниям с постоянной нагрузкой и требованиями к приватности данных.
| Сценарий | Старт | Стоимость при нагрузке | Контроль данных | Сложность |
|---|---|---|---|---|
| Облако | Мгновенно | Высокая | У вендора | Минимальная |
| Аренда сервера | 1–3 дня | Средняя | У хостера | Средняя |
| Свой сервер | 1–4 недели | Низкая (после окупаемости) | У вас | Выше |
Что внутри сервера для ИИ: разбираем по компонентам
GPU — главный компонент
Ключевой параметр видеокарты для ИИ — объём видеопамяти (VRAM), а не игровые fps. Вся модель должна поместиться в VRAM целиком, иначе она либо не запустится, либо будет работать с частичной выгрузкой на RAM — и скорость падает в разы.
На рынке две основные линейки для ИИ-задач, и у каждой своя ниша:
NVIDIA RTX-серия (RTX 4090, RTX 3090) — потребительские видеокарты с отличным соотношением цена/VRAM. RTX 4090 даёт 24 GB VRAM за ~150 000–180 000 рублей. Формально это «игровые» карты, но для инференса (запуска готовой модели) работают прекрасно. Ограничение одно: нет ECC-памяти и нет официальной поддержки для серверных корпусов — при многокарточных конфигурациях могут возникнуть нюансы с охлаждением и питанием.
NVIDIA A-серия (A100, A40, A30) — профессиональные datacenter-карты. A40 даёт 48 GB VRAM, A100 — 80 GB. Есть ECC-память, поддержка NVLink для объединения нескольких карт, официальные серверные форм-факторы. Цена — от 600 000 рублей за A40 до 2–3 млн за A100. Оправданы при высокой нагрузке, многопользовательском доступе или работе с моделями 70B+ без квантизации.
Для большинства задач МСБ RTX-серия — разумный старт. A-серия нужна тогда, когда RTX упирается в потолок.
RAM — системная память
Правило простое: RAM должно быть не меньше, чем VRAM, а лучше вдвое больше. При загрузке модели она сначала попадает в RAM, потом переносится в VRAM. Если RAM меньше — процесс превращается в мучение. Минимум для рабочего сервера с одной RTX 4090: 64 GB RAM. Комфортный уровень: 128 GB.
CPU — меньше важен, чем кажется
Процессор при инференсе загружен слабо — он управляет очередью запросов и занимается препроцессингом текста. Достаточно современного серверного CPU с 8–16 ядрами. Переплачивать за флагманский процессор не имеет смысла — деньги лучше вложить в GPU или RAM.
Хранилище — SSD обязателен, но не любой
Модель весит от 4 до 140 GB в зависимости от размера. При каждом старте сервера она загружается с диска в RAM, потом в VRAM. На HDD загрузка модели 70B занимает 15–20 минут. На NVMe SSD — 2–3 минуты. Для рабочего сервера NVMe SSD — не опция, а требование.
Но здесь есть важный нюанс, который часто упускают: не каждый NVMe SSD выдержит нагрузку. При работе ИИ-модели диск не просто хранит файлы — он регулярно читает большие объёмы данных при загрузке модели и пишет логи, кэш и временные файлы. Потребительские SSD рассчитаны на небольшой суточный объём записи (TBW — Terabytes Written). Типичный бюджетный NVMe вроде WD Blue или Kingston NV2 имеет ресурс 150–300 TBW за весь срок службы. При интенсивной работе сервера это может исчерпаться за год-полтора.
На что смотреть при выборе:
- TBW (Total Bytes Written) — суммарный ресурс записи за весь срок службы. Для рабочего сервера берите от 600 TBW и выше. Серверные и enterprise-модели (Samsung PM9A3, Micron 7450, Kingston DC600M) начинаются от 1 DWPD (Drive Writes Per Day) — это значит, можно перезаписывать весь объём диска каждый день в течение 5 лет.
- Последовательное чтение — должно быть от 5 000 МБ/с (PCIe 4.0 NVMe). Именно этот параметр определяет скорость загрузки модели. Диски PCIe 3.0 дают 3 000–3 500 МБ/с — приемлемо, но заметно медленнее.
- IOPS при случайном чтении — важен при одновременных запросах от нескольких пользователей. Смотрите на значение 4K Random Read: хороший серверный SSD даёт от 700 000 IOPS, потребительский — 50 000–100 000 IOPS.
- Форм-фактор и интерфейс — для серверных платформ убедитесь, что материнская плата поддерживает нужный слот: M.2 2280, U.2 или PCIe Add-in Card. Серверные диски часто идут в U.2 — в обычный десктопный M.2 не встанут.
Практическая рекомендация: для стартовой конфигурации с умеренной нагрузкой подойдёт Samsung 990 Pro или WD Black SN850X — потребительские, но с нормальным ресурсом (600–1200 TBW). Для сервера с постоянной нагрузкой берите enterprise-класс: Micron 7450, Samsung PM9A3 или аналоги. Объём: минимум 1 TB, лучше 2 TB — несколько моделей одновременно занимают место быстро.
Сеть
Для одиночного сервера внутри офиса достаточно гигабитного подключения. Если сервер будет обслуживать запросы из интернета — думайте о пропускной способности канала. Каждый ответ модели — это несколько килобайт текста, при 1000 одновременных запросов в секунду нагрузка на канал становится ощутимой.
Квантизация: как запустить большую модель на скромном железе
Это один из самых практичных лайфхаков для МСБ, о котором редко говорят в обзорных статьях.
По умолчанию модели хранятся в формате FP16 или BF16 — каждый параметр занимает 2 байта. Модель Llama 70B весит ~140 GB в этом формате и требует минимум два A100 по 80 GB. Звучит как «не для нас».
Квантизация — это сжатие модели с минимальной потерей качества. Формат Q4 (4 бита на параметр вместо 16) сжимает ту же 70B до ~40 GB. Формат Q4_K_M — до 38–42 GB, при этом качество падает незначительно: на большинстве практических задач разница между FP16 и Q4 не заметна на глаз.
Что это значит на практике: модель Llama 3 70B в квантизации Q4_K_M запускается на двух RTX 4090 (2 × 24 GB = 48 GB VRAM суммарно). Стоимость двух RTX 4090 — около 300 000–360 000 рублей против 4–6 млн за два A100. Разница в 10–15 раз при сопоставимом качестве для большинства задач.
Инструменты, которые умеют в квантизацию: llama.cpp, Ollama, vLLM. Все бесплатные и с открытым кодом.
Конкретные конфигурации под конкретные модели
Переходим от теории к практике. Вот три уровня конфигураций под реальные задачи МСБ.
Лёгкие модели: 7B–13B параметров
Mistral 7B, Llama 3.1 8B, Qwen 7B — отличный выбор для чат-ботов, генерации текстов, классификации. В квантизации Q4 весят 4–8 GB, умещаются на любой современной видеокарте от 8 GB VRAM.
Минимальная конфигурация: сервер с RTX 3060 12 GB или RTX 4060 Ti 16 GB, 32 GB RAM, 500 GB NVMe SSD. Стоимость сборки: 150 000–200 000 рублей. Скорость: 40–80 токенов в секунду — достаточно для обслуживания 5–10 одновременных пользователей.
Средние модели: 30B–70B параметров
Рабочая лошадка для большинства задач МСБ. Mistral 32B, Llama 3.3 70B в квантизации — здесь качество уже сопоставимо с GPT-4 уровня 2023 года для большинства практических задач.
Оптимальная конфигурация: сервер с 2× RTX 4090 (48 GB VRAM суммарно), 128 GB RAM, 2 TB NVMe SSD. Стоимость: 550 000–700 000 рублей. Скорость: 20–40 токенов в секунду при запросах один за другим.
Тяжёлые модели: 70B+ без квантизации
Когда нужна максимальная точность — юридический анализ, медицинская документация, сложная аналитика. Здесь без профессиональных карт не обойтись.
Конфигурация: сервер с 1–2× NVIDIA A40 (48 GB VRAM каждая), 256 GB RAM, 4 TB NVMe SSD. Стоимость: от 1 500 000 рублей. Скорость: 15–30 токенов в секунду.
| Модель | VRAM (Q4) | GPU | Стоимость сервера | Скорость |
|---|---|---|---|---|
| 7B–13B | 4–8 GB | RTX 3060 / 4060 Ti | 150–200 тыс. руб. | 40–80 т/с |
| 30B–70B (Q4) | 20–42 GB | 2× RTX 4090 | 550–700 тыс. руб. | 20–40 т/с |
| 70B (FP16) | 140 GB | 2× A40 / A100 | от 1 500 тыс. руб. | 15–30 т/с |
Считаем окупаемость честно
Возьмём средний сценарий: сервер с 2× RTX 4090 за 600 000 рублей против облачного GPU.
Операционные расходы своего сервера
Электричество: сервер с двумя RTX 4090 под нагрузкой потребляет 700–900 Вт. При круглосуточной работе — около 600 кВт·ч в месяц, это ~4 000–5 000 рублей по коммерческому тарифу. Обслуживание и амортизация: ещё ~5 000–10 000 рублей в месяц. Итого операционные расходы: 10 000–15 000 рублей в месяц.
Сравнение с облаком при разной нагрузке
| Запросов/день | Облако GPT-5 mini | Свой сервер | Окупаемость |
|---|---|---|---|
| 1 000 | ~15 000 руб/мес | ~13 000 руб/мес | ~4 года |
| 5 000 | ~75 000 руб/мес | ~13 000 руб/мес | ~10 месяцев |
| 10 000 | ~150 000 руб/мес | ~15 000 руб/мес | ~4–5 месяцев |
Вывод очевиден: при нагрузке от 5 000 запросов в день свой сервер окупается меньше чем за год. При 10 000 — за полгода. При меньшей нагрузке лучше стартовать с облака или аренды, и переходить на своё железо по мере роста.
Что ещё влияет на решение кроме цифр
Приватность данных может быть важнее математики. Если в запросах — персональные данные клиентов или коммерческая тайна, собственный сервер становится обоснованным даже при нагрузке 500 запросов в день. Это не расходы, а стоимость контроля.
Вместо вывода
Не нужен суперкомпьютер. Нужна правильная конфигурация под задачу. Модель 70B на двух RTX 4090 с квантизацией закрывает 80% задач МСБ — при стоимости вдесятеро меньше профессиональных карт. Начать можно скромно: сервер с одной RTX 4060 Ti за 150 000 рублей уже позволяет запустить рабочего ИИ-ассистента для небольшой команды.
Главное — не тянуть до идеального момента. Лучший способ понять, что нужно именно вам, — запустить первую модель и посмотреть, как она работает на реальных задачах.
Подобрать конфигурацию под вашу задачу — не так просто, как кажется.
В eddp.ru есть серверы под ИИ-задачи — от компактных решений с RTX до профессиональных конфигураций с A-серией. Сами через это прошли, знаем подводные камни. Смотрите каталог или напишите — поможем не переплатить и не ошибиться с железом.
Следующая статья цикла:
«Внедрение ИИ в бизнес-процессы» — пошаговый план пилотного проекта, типичные ошибки и как их избежать.

