Контактная информация

г. Москва, ул. Илимская д.3, к. 1, подъезд 2, оф. 103

Сервер для ИИ: какое железо нужно и сколько это стоит

01.06.2026

// Объясняем

Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ
Мы в eddp.ru продаём серверное оборудование и сами разворачивали ИИ на собственной инфраструктуре. Эта статья — не теория, а то, с чем реально столкнулись.

Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ

Почему ИИ — это в первую очередь про видеокарту

Большинство руководителей, когда слышат «сервер для ИИ», представляют что-то вроде мощного компьютера с быстрым процессором. Это не совсем так. Языковые модели живут в видеопамяти GPU и выполняют вычисления именно там. Процессор при этом почти не при делах — он загружает модель, обрабатывает запросы на входе и выходе, но сама «магия» происходит на видеокарте.

Практический вывод: обычный мощный сервер без GPU под задачи ИИ не подходит. Точнее, подходит — но будет работать в 20–50 раз медленнее, чем с GPU. Для тестов и экспериментов терпимо, для рабочей нагрузки — нет.

Когда мы в eddp.ru разворачивали первую локальную модель, именно это стало первым сюрпризом: купили хороший сервер, запустили модель на CPU — и получили 2–3 токена в секунду вместо ожидаемых 50+. Добавили GPU — всё встало на место.

Три сценария: облако, аренда или своё железо

Прежде чем выбирать конфигурацию, нужно определиться со сценарием. Их три, и у каждого своя логика.

Облачные GPU (AWS, Azure, Yandex Cloud)

Запускаете виртуальную машину с GPU в облаке, платите за часы работы. Никаких капзатрат, никакой возни с железом. Удобно для старта и нерегулярных задач. Проблема одна: при постоянной нагрузке цена быстро становится неприятной. Час работы NVIDIA A100 в облаке стоит $3–5, то есть $2 000–3 500 в месяц при круглосуточной работе.

Аренда GPU-сервера

Берёте в аренду физический сервер с GPU у хостинг-провайдера. Дешевле облака в 3–5 раз при той же конфигурации, но данные всё равно находятся у третьей стороны. Хороший компромисс, если покупать своё железо пока рано, а облако уже дорого.

Собственный сервер

Разовые вложения, полный контроль, данные никуда не уходят. После окупаемости — практически бесплатная эксплуатация. Подходит компаниям с постоянной нагрузкой и требованиями к приватности данных.

Сценарий	Старт	Стоимость при нагрузке	Контроль данных	Сложность
Облако	Мгновенно	Высокая	У вендора	Минимальная
Аренда сервера	1–3 дня	Средняя	У хостера	Средняя
Свой сервер	1–4 недели	Низкая (после окупаемости)	У вас	Выше

Что внутри сервера для ИИ: разбираем по компонентам

GPU — главный компонент

Ключевой параметр видеокарты для ИИ — объём видеопамяти (VRAM), а не игровые fps. Вся модель должна поместиться в VRAM целиком, иначе она либо не запустится, либо будет работать с частичной выгрузкой на RAM — и скорость падает в разы.

На рынке две основные линейки для ИИ-задач, и у каждой своя ниша:

NVIDIA RTX-серия (RTX 4090, RTX 3090) — потребительские видеокарты с отличным соотношением цена/VRAM. RTX 4090 даёт 24 GB VRAM за ~150 000–180 000 рублей. Формально это «игровые» карты, но для инференса (запуска готовой модели) работают прекрасно. Ограничение одно: нет ECC-памяти и нет официальной поддержки для серверных корпусов — при многокарточных конфигурациях могут возникнуть нюансы с охлаждением и питанием.

NVIDIA A-серия (A100, A40, A30) — профессиональные datacenter-карты. A40 даёт 48 GB VRAM, A100 — 80 GB. Есть ECC-память, поддержка NVLink для объединения нескольких карт, официальные серверные форм-факторы. Цена — от 600 000 рублей за A40 до 2–3 млн за A100. Оправданы при высокой нагрузке, многопользовательском доступе или работе с моделями 70B+ без квантизации.

Для большинства задач МСБ RTX-серия — разумный старт. A-серия нужна тогда, когда RTX упирается в потолок.

RAM — системная память

Правило простое: RAM должно быть не меньше, чем VRAM, а лучше вдвое больше. При загрузке модели она сначала попадает в RAM, потом переносится в VRAM. Если RAM меньше — процесс превращается в мучение. Минимум для рабочего сервера с одной RTX 4090: 64 GB RAM. Комфортный уровень: 128 GB.

CPU — меньше важен, чем кажется

Процессор при инференсе загружен слабо — он управляет очередью запросов и занимается препроцессингом текста. Достаточно современного серверного CPU с 8–16 ядрами. Переплачивать за флагманский процессор не имеет смысла — деньги лучше вложить в GPU или RAM.

Хранилище — SSD обязателен, но не любой

Модель весит от 4 до 140 GB в зависимости от размера. При каждом старте сервера она загружается с диска в RAM, потом в VRAM. На HDD загрузка модели 70B занимает 15–20 минут. На NVMe SSD — 2–3 минуты. Для рабочего сервера NVMe SSD — не опция, а требование.

Но здесь есть важный нюанс, который часто упускают: не каждый NVMe SSD выдержит нагрузку. При работе ИИ-модели диск не просто хранит файлы — он регулярно читает большие объёмы данных при загрузке модели и пишет логи, кэш и временные файлы. Потребительские SSD рассчитаны на небольшой суточный объём записи (TBW — Terabytes Written). Типичный бюджетный NVMe вроде WD Blue или Kingston NV2 имеет ресурс 150–300 TBW за весь срок службы. При интенсивной работе сервера это может исчерпаться за год-полтора.

На что смотреть при выборе:

TBW (Total Bytes Written) — суммарный ресурс записи за весь срок службы. Для рабочего сервера берите от 600 TBW и выше. Серверные и enterprise-модели (Samsung PM9A3, Micron 7450, Kingston DC600M) начинаются от 1 DWPD (Drive Writes Per Day) — это значит, можно перезаписывать весь объём диска каждый день в течение 5 лет.
Последовательное чтение — должно быть от 5 000 МБ/с (PCIe 4.0 NVMe). Именно этот параметр определяет скорость загрузки модели. Диски PCIe 3.0 дают 3 000–3 500 МБ/с — приемлемо, но заметно медленнее.
IOPS при случайном чтении — важен при одновременных запросах от нескольких пользователей. Смотрите на значение 4K Random Read: хороший серверный SSD даёт от 700 000 IOPS, потребительский — 50 000–100 000 IOPS.
Форм-фактор и интерфейс — для серверных платформ убедитесь, что материнская плата поддерживает нужный слот: M.2 2280, U.2 или PCIe Add-in Card. Серверные диски часто идут в U.2 — в обычный десктопный M.2 не встанут.

Практическая рекомендация: для стартовой конфигурации с умеренной нагрузкой подойдёт Samsung 990 Pro или WD Black SN850X — потребительские, но с нормальным ресурсом (600–1200 TBW). Для сервера с постоянной нагрузкой берите enterprise-класс: Micron 7450, Samsung PM9A3 или аналоги. Объём: минимум 1 TB, лучше 2 TB — несколько моделей одновременно занимают место быстро.

Сеть

Для одиночного сервера внутри офиса достаточно гигабитного подключения. Если сервер будет обслуживать запросы из интернета — думайте о пропускной способности канала. Каждый ответ модели — это несколько килобайт текста, при 1000 одновременных запросов в секунду нагрузка на канал становится ощутимой.

Квантизация: как запустить большую модель на скромном железе

Это один из самых практичных лайфхаков для МСБ, о котором редко говорят в обзорных статьях.

По умолчанию модели хранятся в формате FP16 или BF16 — каждый параметр занимает 2 байта. Модель Llama 70B весит ~140 GB в этом формате и требует минимум два A100 по 80 GB. Звучит как «не для нас».

Квантизация — это сжатие модели с минимальной потерей качества. Формат Q4 (4 бита на параметр вместо 16) сжимает ту же 70B до ~40 GB. Формат Q4_K_M — до 38–42 GB, при этом качество падает незначительно: на большинстве практических задач разница между FP16 и Q4 не заметна на глаз.

Что это значит на практике: модель Llama 3 70B в квантизации Q4_K_M запускается на двух RTX 4090 (2 × 24 GB = 48 GB VRAM суммарно). Стоимость двух RTX 4090 — около 300 000–360 000 рублей против 4–6 млн за два A100. Разница в 10–15 раз при сопоставимом качестве для большинства задач.

Инструменты, которые умеют в квантизацию: llama.cpp, Ollama, vLLM. Все бесплатные и с открытым кодом.

Конкретные конфигурации под конкретные модели

Переходим от теории к практике. Вот три уровня конфигураций под реальные задачи МСБ.

Лёгкие модели: 7B–13B параметров

Mistral 7B, Llama 3.1 8B, Qwen 7B — отличный выбор для чат-ботов, генерации текстов, классификации. В квантизации Q4 весят 4–8 GB, умещаются на любой современной видеокарте от 8 GB VRAM.

Минимальная конфигурация: сервер с RTX 3060 12 GB или RTX 4060 Ti 16 GB, 32 GB RAM, 500 GB NVMe SSD. Стоимость сборки: 150 000–200 000 рублей. Скорость: 40–80 токенов в секунду — достаточно для обслуживания 5–10 одновременных пользователей.

Средние модели: 30B–70B параметров

Рабочая лошадка для большинства задач МСБ. Mistral 32B, Llama 3.3 70B в квантизации — здесь качество уже сопоставимо с GPT-4 уровня 2023 года для большинства практических задач.

Оптимальная конфигурация: сервер с 2× RTX 4090 (48 GB VRAM суммарно), 128 GB RAM, 2 TB NVMe SSD. Стоимость: 550 000–700 000 рублей. Скорость: 20–40 токенов в секунду при запросах один за другим.

Тяжёлые модели: 70B+ без квантизации

Когда нужна максимальная точность — юридический анализ, медицинская документация, сложная аналитика. Здесь без профессиональных карт не обойтись.

Конфигурация: сервер с 1–2× NVIDIA A40 (48 GB VRAM каждая), 256 GB RAM, 4 TB NVMe SSD. Стоимость: от 1 500 000 рублей. Скорость: 15–30 токенов в секунду.

Модель	VRAM (Q4)	GPU	Стоимость сервера	Скорость
7B–13B	4–8 GB	RTX 3060 / 4060 Ti	150–200 тыс. руб.	40–80 т/с
30B–70B (Q4)	20–42 GB	2× RTX 4090	550–700 тыс. руб.	20–40 т/с
70B (FP16)	140 GB	2× A40 / A100	от 1 500 тыс. руб.	15–30 т/с

Считаем окупаемость честно

Возьмём средний сценарий: сервер с 2× RTX 4090 за 600 000 рублей против облачного GPU.

Операционные расходы своего сервера

Электричество: сервер с двумя RTX 4090 под нагрузкой потребляет 700–900 Вт. При круглосуточной работе — около 600 кВт·ч в месяц, это ~4 000–5 000 рублей по коммерческому тарифу. Обслуживание и амортизация: ещё ~5 000–10 000 рублей в месяц. Итого операционные расходы: 10 000–15 000 рублей в месяц.

Сравнение с облаком при разной нагрузке

Запросов/день	Облако GPT-5 mini	Свой сервер	Окупаемость
1 000	~15 000 руб/мес	~13 000 руб/мес	~4 года
5 000	~75 000 руб/мес	~13 000 руб/мес	~10 месяцев
10 000	~150 000 руб/мес	~15 000 руб/мес	~4–5 месяцев

Вывод очевиден: при нагрузке от 5 000 запросов в день свой сервер окупается меньше чем за год. При 10 000 — за полгода. При меньшей нагрузке лучше стартовать с облака или аренды, и переходить на своё железо по мере роста.

Что ещё влияет на решение кроме цифр

Приватность данных может быть важнее математики. Если в запросах — персональные данные клиентов или коммерческая тайна, собственный сервер становится обоснованным даже при нагрузке 500 запросов в день. Это не расходы, а стоимость контроля.

Вместо вывода

Не нужен суперкомпьютер. Нужна правильная конфигурация под задачу. Модель 70B на двух RTX 4090 с квантизацией закрывает 80% задач МСБ — при стоимости вдесятеро меньше профессиональных карт. Начать можно скромно: сервер с одной RTX 4060 Ti за 150 000 рублей уже позволяет запустить рабочего ИИ-ассистента для небольшой команды.

Главное — не тянуть до идеального момента. Лучший способ понять, что нужно именно вам, — запустить первую модель и посмотреть, как она работает на реальных задачах.

Подобрать конфигурацию под вашу задачу — не так просто, как кажется.

В eddp.ru есть серверы под ИИ-задачи — от компактных решений с RTX до профессиональных конфигураций с A-серией. Сами через это прошли, знаем подводные камни. Смотрите каталог или напишите — поможем не переплатить и не ошибиться с железом.

Следующая статья цикла:
«Внедрение ИИ в бизнес-процессы» — пошаговый план пилотного проекта, типичные ошибки и как их избежать.