• О компании
  • Блог
  • Как добраться
  • Контакты
  • Войти/Личный кабинет
  • ...
    +7 (499) 288-88-37
    +7 (499) 288-88-37
    Заказать звонок
    Оптовый поставщик компьютерной и цифровой техники в Москве
    Сервера
    • Сервера Dell Poweredge
    • Сервера HPE
    • Сервера Hiper
    • Huawei
    • Lenovo
    • Сервера Gooxi
    • Сервера Asus
    • Intel
    • LSI/Broadcom
    • Картридж LTO
    • NetApp
    • Блоки питания Delta
    • Жесткие диски Seagate
    • Жесткие диски Hitachi
    • Supermicro
    • Серверные процессоры
    • Материнские платы
    • Системы охладжения
    • Программное обеспечение
    • Brocade
    Сетевое
    • Cisco
    • HPE
    • Huawei
    • D-Link
    • MikroTik
    • Н3С
    • Ubiquiti
    Запчасти
    • HP
    • Canon
    • Запасные части Xerox
    • Brother
    • Dell
    • Запасные части Oki
    • Kyocera
    • Lenovo
    • Lexmark
    • Ricoh
    • T2
    • CET
    • Блоки питания к ноутбукам
    • Салазки для HDD и SSD
    Аккумуляторы
    • Аккумуляторы HP
    • Аккумуляторы Dell
    • Аккумуляторы Asus
    • Аккумуляторы Lenovo
    • Аккумуляторы Acer
    • Аккумуляторы MSI
    • Аккумуляторы XIAOMI
    • Аккумуляторы Sony
    • Аккумуляторы Toshiba
    • Аккумуляторы Samsung
    • Аккумуляторы Fujitsu
    • Аккумуляторы Clevo
    • Аккумуляторы Apple
    • Аккумуляторы для ТСД
    Периферия
    • Мониторы
    • Проекторы и экраны
    • Принтеры
    • IP-телефоны
    Расходные материалы
    • Для лазерных принтеров
    • Материалы CACTUS
    • Материалы CET
    • Расходные материалы G&G
    • Расходные материалы T2
    PC
    • Ноутбуки
    • Моноблоки
    • Системные блоки
    ИБП
    • Ippon
    • CyberPower
    • Huawei
    • Powercom
    • POWERMAN
    • APC
    • CBR
    • Crown
    • ExeGate
    • Sven
    • Бастион
    • Импульс
    Ещё
      Оптовый поставщик компьютерной и цифровой техники в Москве
      Оптовый поставщик компьютерной и цифровой техники в Москве
      Телефоны
      +7 (499) 288-88-37
      Заказать звонок
      • +7 (499) 288-88-37
      Контактная информация
       г. Москва, ул. Илимская д.3, к. 1, подъезд 2, оф. 103
      info@eddp.ru

      Сервер для ИИ: какое железо нужно и сколько это стоит

      Главная
      -
      Блог
      -Сервер для ИИ: какое железо нужно и сколько это стоит
      01.06.2026
      // Объясняем
      Сервер для ИИ: какое железо нужно

      Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ
      Мы в eddp.ru продаём серверное оборудование и сами разворачивали ИИ на собственной инфраструктуре. Эта статья — не теория, а то, с чем реально столкнулись.


      Разбираем GPU, RAM, CPU и считаем реальную стоимость под разные модели ИИ

      Почему ИИ — это в первую очередь про видеокарту

      Большинство руководителей, когда слышат «сервер для ИИ», представляют что-то вроде мощного компьютера с быстрым процессором. Это не совсем так. Языковые модели живут в видеопамяти GPU и выполняют вычисления именно там. Процессор при этом почти не при делах — он загружает модель, обрабатывает запросы на входе и выходе, но сама «магия» происходит на видеокарте.

      Практический вывод: обычный мощный сервер без GPU под задачи ИИ не подходит. Точнее, подходит — но будет работать в 20–50 раз медленнее, чем с GPU. Для тестов и экспериментов терпимо, для рабочей нагрузки — нет.

      Когда мы в eddp.ru разворачивали первую локальную модель, именно это стало первым сюрпризом: купили хороший сервер, запустили модель на CPU — и получили 2–3 токена в секунду вместо ожидаемых 50+. Добавили GPU — всё встало на место.

      Три сценария: облако, аренда или своё железо

      Прежде чем выбирать конфигурацию, нужно определиться со сценарием. Их три, и у каждого своя логика.

      Облачные GPU (AWS, Azure, Yandex Cloud)

      Запускаете виртуальную машину с GPU в облаке, платите за часы работы. Никаких капзатрат, никакой возни с железом. Удобно для старта и нерегулярных задач. Проблема одна: при постоянной нагрузке цена быстро становится неприятной. Час работы NVIDIA A100 в облаке стоит $3–5, то есть $2 000–3 500 в месяц при круглосуточной работе.

      Аренда GPU-сервера

      Берёте в аренду физический сервер с GPU у хостинг-провайдера. Дешевле облака в 3–5 раз при той же конфигурации, но данные всё равно находятся у третьей стороны. Хороший компромисс, если покупать своё железо пока рано, а облако уже дорого.

      Собственный сервер

      Разовые вложения, полный контроль, данные никуда не уходят. После окупаемости — практически бесплатная эксплуатация. Подходит компаниям с постоянной нагрузкой и требованиями к приватности данных.

      Сценарий Старт Стоимость при нагрузке Контроль данных Сложность
      Облако Мгновенно Высокая У вендора Минимальная
      Аренда сервера 1–3 дня Средняя У хостера Средняя
      Свой сервер 1–4 недели Низкая (после окупаемости) У вас Выше

      Что внутри сервера для ИИ: разбираем по компонентам

      GPU — главный компонент

      Ключевой параметр видеокарты для ИИ — объём видеопамяти (VRAM), а не игровые fps. Вся модель должна поместиться в VRAM целиком, иначе она либо не запустится, либо будет работать с частичной выгрузкой на RAM — и скорость падает в разы.

      На рынке две основные линейки для ИИ-задач, и у каждой своя ниша:

      NVIDIA RTX-серия (RTX 4090, RTX 3090) — потребительские видеокарты с отличным соотношением цена/VRAM. RTX 4090 даёт 24 GB VRAM за ~150 000–180 000 рублей. Формально это «игровые» карты, но для инференса (запуска готовой модели) работают прекрасно. Ограничение одно: нет ECC-памяти и нет официальной поддержки для серверных корпусов — при многокарточных конфигурациях могут возникнуть нюансы с охлаждением и питанием.

      NVIDIA A-серия (A100, A40, A30) — профессиональные datacenter-карты. A40 даёт 48 GB VRAM, A100 — 80 GB. Есть ECC-память, поддержка NVLink для объединения нескольких карт, официальные серверные форм-факторы. Цена — от 600 000 рублей за A40 до 2–3 млн за A100. Оправданы при высокой нагрузке, многопользовательском доступе или работе с моделями 70B+ без квантизации.

      Для большинства задач МСБ RTX-серия — разумный старт. A-серия нужна тогда, когда RTX упирается в потолок.

      RAM — системная память

      Правило простое: RAM должно быть не меньше, чем VRAM, а лучше вдвое больше. При загрузке модели она сначала попадает в RAM, потом переносится в VRAM. Если RAM меньше — процесс превращается в мучение. Минимум для рабочего сервера с одной RTX 4090: 64 GB RAM. Комфортный уровень: 128 GB.

      CPU — меньше важен, чем кажется

      Процессор при инференсе загружен слабо — он управляет очередью запросов и занимается препроцессингом текста. Достаточно современного серверного CPU с 8–16 ядрами. Переплачивать за флагманский процессор не имеет смысла — деньги лучше вложить в GPU или RAM.

      Хранилище — SSD обязателен, но не любой

      Модель весит от 4 до 140 GB в зависимости от размера. При каждом старте сервера она загружается с диска в RAM, потом в VRAM. На HDD загрузка модели 70B занимает 15–20 минут. На NVMe SSD — 2–3 минуты. Для рабочего сервера NVMe SSD — не опция, а требование.

      Но здесь есть важный нюанс, который часто упускают: не каждый NVMe SSD выдержит нагрузку. При работе ИИ-модели диск не просто хранит файлы — он регулярно читает большие объёмы данных при загрузке модели и пишет логи, кэш и временные файлы. Потребительские SSD рассчитаны на небольшой суточный объём записи (TBW — Terabytes Written). Типичный бюджетный NVMe вроде WD Blue или Kingston NV2 имеет ресурс 150–300 TBW за весь срок службы. При интенсивной работе сервера это может исчерпаться за год-полтора.

      На что смотреть при выборе:

      • TBW (Total Bytes Written) — суммарный ресурс записи за весь срок службы. Для рабочего сервера берите от 600 TBW и выше. Серверные и enterprise-модели (Samsung PM9A3, Micron 7450, Kingston DC600M) начинаются от 1 DWPD (Drive Writes Per Day) — это значит, можно перезаписывать весь объём диска каждый день в течение 5 лет.
      • Последовательное чтение — должно быть от 5 000 МБ/с (PCIe 4.0 NVMe). Именно этот параметр определяет скорость загрузки модели. Диски PCIe 3.0 дают 3 000–3 500 МБ/с — приемлемо, но заметно медленнее.
      • IOPS при случайном чтении — важен при одновременных запросах от нескольких пользователей. Смотрите на значение 4K Random Read: хороший серверный SSD даёт от 700 000 IOPS, потребительский — 50 000–100 000 IOPS.
      • Форм-фактор и интерфейс — для серверных платформ убедитесь, что материнская плата поддерживает нужный слот: M.2 2280, U.2 или PCIe Add-in Card. Серверные диски часто идут в U.2 — в обычный десктопный M.2 не встанут.

      Практическая рекомендация: для стартовой конфигурации с умеренной нагрузкой подойдёт Samsung 990 Pro или WD Black SN850X — потребительские, но с нормальным ресурсом (600–1200 TBW). Для сервера с постоянной нагрузкой берите enterprise-класс: Micron 7450, Samsung PM9A3 или аналоги. Объём: минимум 1 TB, лучше 2 TB — несколько моделей одновременно занимают место быстро.

      Сеть

      Для одиночного сервера внутри офиса достаточно гигабитного подключения. Если сервер будет обслуживать запросы из интернета — думайте о пропускной способности канала. Каждый ответ модели — это несколько килобайт текста, при 1000 одновременных запросов в секунду нагрузка на канал становится ощутимой.

      Квантизация: как запустить большую модель на скромном железе

      Это один из самых практичных лайфхаков для МСБ, о котором редко говорят в обзорных статьях.

      По умолчанию модели хранятся в формате FP16 или BF16 — каждый параметр занимает 2 байта. Модель Llama 70B весит ~140 GB в этом формате и требует минимум два A100 по 80 GB. Звучит как «не для нас».

      Квантизация — это сжатие модели с минимальной потерей качества. Формат Q4 (4 бита на параметр вместо 16) сжимает ту же 70B до ~40 GB. Формат Q4_K_M — до 38–42 GB, при этом качество падает незначительно: на большинстве практических задач разница между FP16 и Q4 не заметна на глаз.

      Что это значит на практике: модель Llama 3 70B в квантизации Q4_K_M запускается на двух RTX 4090 (2 × 24 GB = 48 GB VRAM суммарно). Стоимость двух RTX 4090 — около 300 000–360 000 рублей против 4–6 млн за два A100. Разница в 10–15 раз при сопоставимом качестве для большинства задач.

      Инструменты, которые умеют в квантизацию: llama.cpp, Ollama, vLLM. Все бесплатные и с открытым кодом.

      Конкретные конфигурации под конкретные модели

      Переходим от теории к практике. Вот три уровня конфигураций под реальные задачи МСБ.

      Лёгкие модели: 7B–13B параметров

      Mistral 7B, Llama 3.1 8B, Qwen 7B — отличный выбор для чат-ботов, генерации текстов, классификации. В квантизации Q4 весят 4–8 GB, умещаются на любой современной видеокарте от 8 GB VRAM.

      Минимальная конфигурация: сервер с RTX 3060 12 GB или RTX 4060 Ti 16 GB, 32 GB RAM, 500 GB NVMe SSD. Стоимость сборки: 150 000–200 000 рублей. Скорость: 40–80 токенов в секунду — достаточно для обслуживания 5–10 одновременных пользователей.

      Средние модели: 30B–70B параметров

      Рабочая лошадка для большинства задач МСБ. Mistral 32B, Llama 3.3 70B в квантизации — здесь качество уже сопоставимо с GPT-4 уровня 2023 года для большинства практических задач.

      Оптимальная конфигурация: сервер с 2× RTX 4090 (48 GB VRAM суммарно), 128 GB RAM, 2 TB NVMe SSD. Стоимость: 550 000–700 000 рублей. Скорость: 20–40 токенов в секунду при запросах один за другим.

      Тяжёлые модели: 70B+ без квантизации

      Когда нужна максимальная точность — юридический анализ, медицинская документация, сложная аналитика. Здесь без профессиональных карт не обойтись.

      Конфигурация: сервер с 1–2× NVIDIA A40 (48 GB VRAM каждая), 256 GB RAM, 4 TB NVMe SSD. Стоимость: от 1 500 000 рублей. Скорость: 15–30 токенов в секунду.

      Модель VRAM (Q4) GPU Стоимость сервера Скорость
      7B–13B 4–8 GB RTX 3060 / 4060 Ti 150–200 тыс. руб. 40–80 т/с
      30B–70B (Q4) 20–42 GB 2× RTX 4090 550–700 тыс. руб. 20–40 т/с
      70B (FP16) 140 GB 2× A40 / A100 от 1 500 тыс. руб. 15–30 т/с

      Считаем окупаемость честно

      Возьмём средний сценарий: сервер с 2× RTX 4090 за 600 000 рублей против облачного GPU.

      Операционные расходы своего сервера

      Электричество: сервер с двумя RTX 4090 под нагрузкой потребляет 700–900 Вт. При круглосуточной работе — около 600 кВт·ч в месяц, это ~4 000–5 000 рублей по коммерческому тарифу. Обслуживание и амортизация: ещё ~5 000–10 000 рублей в месяц. Итого операционные расходы: 10 000–15 000 рублей в месяц.

      Сравнение с облаком при разной нагрузке

      Запросов/день Облако GPT-5 mini Свой сервер Окупаемость
      1 000 ~15 000 руб/мес ~13 000 руб/мес ~4 года
      5 000 ~75 000 руб/мес ~13 000 руб/мес ~10 месяцев
      10 000 ~150 000 руб/мес ~15 000 руб/мес ~4–5 месяцев

      Вывод очевиден: при нагрузке от 5 000 запросов в день свой сервер окупается меньше чем за год. При 10 000 — за полгода. При меньшей нагрузке лучше стартовать с облака или аренды, и переходить на своё железо по мере роста.

      Что ещё влияет на решение кроме цифр

      Приватность данных может быть важнее математики. Если в запросах — персональные данные клиентов или коммерческая тайна, собственный сервер становится обоснованным даже при нагрузке 500 запросов в день. Это не расходы, а стоимость контроля.

      Вместо вывода

      Не нужен суперкомпьютер. Нужна правильная конфигурация под задачу. Модель 70B на двух RTX 4090 с квантизацией закрывает 80% задач МСБ — при стоимости вдесятеро меньше профессиональных карт. Начать можно скромно: сервер с одной RTX 4060 Ti за 150 000 рублей уже позволяет запустить рабочего ИИ-ассистента для небольшой команды.

      Главное — не тянуть до идеального момента. Лучший способ понять, что нужно именно вам, — запустить первую модель и посмотреть, как она работает на реальных задачах.

      Подобрать конфигурацию под вашу задачу — не так просто, как кажется.

      В eddp.ru есть серверы под ИИ-задачи — от компактных решений с RTX до профессиональных конфигураций с A-серией. Сами через это прошли, знаем подводные камни. Смотрите каталог или напишите — поможем не переплатить и не ошибиться с железом.

      Следующая статья цикла:
      «Внедрение ИИ в бизнес-процессы» — пошаговый план пилотного проекта, типичные ошибки и как их избежать.



      Теги
      серверы ИИ
      Назад к списку
      Категории
      • Новости-IT7
      • О железе3
      • Объясняем9
      Это интересно
      • Какие модели ИИ существуют и как выбрать подходящую для бизнеса
        Какие модели ИИ существуют и как выбрать подходящую для бизнеса
        28 мая 2026
      • Искусственный интеллект для малого бизнеса: зачем это нужно и с чего начать
        Искусственный интеллект для малого бизнеса: зачем это нужно и с чего начать
        25 мая 2026
      • Как выбрать сервер Dell для малого бизнеса – блог EDDP.RU
        Как выбрать сервер Dell для малого бизнеса – блог EDDP.RU
        21 мая 2026
      • HPE ProLiant или Supermicro для 1С: сравниваем честно, считаем деньги
        HPE ProLiant или Supermicro для 1С: сравниваем честно, считаем деньги
        15 мая 2026
      • Артикулы Cisco: разница с = или без
        Артикулы Cisco: разница с = или без
      Облако тегов
      1С Cisco Dell HDD HPE Intel Lenovo Nvidia PCIe Seagate SSD SuperMicro wi-fi артикулы ИИ принтеры и МФУ процессор серверы
      Компания
      О компании
      Адрес офиса
      Новости
      Информация
      Условия оплаты и доставки
      Гарантия на товар
      Помощь
      Вопрос-ответ
      Производители
      Принтеры
      Расходные материалы
      Компьютеры
      Сетевое оборудование
      ИБП
      Мониторы и Проекторы
      Запасные части
      Сервера и СХД
      Периферия
      Наши контакты
      +7 (499) 288-88-37
      +7 (499) 288-88-37
      info@eddp.ru
       г. Москва, ул. Илимская д.3, к. 1, подъезд 2, оф. 103
      2026 © EDDP.RU
      магазин ПК и серверов