KSTU AI Lab: A Deep Dive into Mixture of Experts (MoE)

1. Көйгөй: "Тыгыз" Моделдердин Чексиз Чыгымы

GPT-3 сыяктуу стандарттык, же "тыгыз" (dense) Трансформер моделдери укмуштуудай натыйжаларды көрсөтөт, бирок алардын бир чоң кемчилиги бар: эсептөө чыгымы. Мындай моделдерде ар бир кирген токен үчүн моделдин бардык параметрлери активдешип, эсептөөгө катышат. Моделди чоңойткон сайын (мисалы, 175 миллиард параметр), аны үйрөтүү жана иштетүү өтө кымбатка туруп, көп энергияны талап кылат.

Эгер моделдин параметри P болсо, ар бир токен үчүн эсептөө жүгү болжол менен P'га пропорционалдуу. Бул моделдерди андан ары чоңойтууга тоскоолдук жаратат.

2. Чечим: MoE – Адистердин "Акылдуу" Командасы

Mixture of Experts (MoE) – бул сейрек (sparse) архитектура. Анын негизги идеясы – бир чоң, универсалдуу нейрон тармагынын ордуна, бир нече кичинекей, адистешкен "эксперттерди" (нейрон тармактарын) колдонуу. Ар бир токен үчүн атайын "роутер" (же дарбаза тармагы) кайсы эксперт(тер) бул маселени чечүүгө эң ылайыктуу экенин аныктап, ошолорду гана ишке киргизет.

Муну чоң ооруканага салыштырса болот: ар бир бейтапка бардык дарыгерлер (терапевт, хирург, кардиолог) карабайт. Каттоо бөлүмү (роутер) бейтапты керектүү бир же эки адиске (эксперттерге) гана жөнөтөт. Натыйжада, система эффективдүү иштейт.

A. Негизги Компоненттер

Эксперттер (Experts): Алар көбүнчө кадимки Трансформердеги Feed-Forward Network (FFN) катмарлары. Моделде 8, 16, ал тургай 64 эксперт болушу мүмкүн.
Роутер (Gating Network): Бул кичинекей нейрон тармагы. Ал кирген токенди анализдеп, ар бир экспертке "баа" (ыктымалдуулук) берет. Андан соң эң жогорку баа алган бир нече экспертти (көбүнчө 2) тандайт.

B. Иштөө принциби

Роутер тандаган эксперттер гана токенди иштетишет. Калган эксперттер бул учурда "эс алып" турушат. Жыйынтыгында, эксперттердин чыгарган жооптору роутердин бааларына жараша салмактанып, бириктирилет.

Жыйынтык = Σ (Роутер_баасыᵢ * Экспертᵢ(киргизүү))

Бул жерде Σ сумма белгисин билдирет, бирок иш жүзүндө Роутер_баасы көпчүлүк эксперттер үчүн нөлгө барабар болгондуктан, эсептөөгө тандалган эксперттер гана катышат. Мисалы, Mixtral 8x7B моделинде 8 эксперт бар, бирок ар бир токен үчүн алардын экөө гана иштейт.

3. Жыйынтык: Эффективдүүлүк жана кемчиликтери

MoE ыкмасы моделдин жалпы параметр санын (мисалы, 50-100 миллиард) кескин көбөйтүүгө мүмкүндүк берет, бирок эсептөө жүгүн ошол эле деңгээлде калтырат. Натыйжада, биз "чоңураак", бирок "тезирээк" моделге ээ болобуз.

Артыкчылыктары:

Эсептөө эффективдүүлүгү: Параметрлер көп болгону менен, үйрөтүү жана иштетүү тыгыз моделге караганда алда канча ылдам.
Адистешүү: Ар бир эксперт белгилүү бир типтеги маалыматты же калыпты иштетүүгө үйрөнүшү мүмкүн.

Кемчиликтери:

Эс-тутум (VRAM) талабы: Иштетүү учурунда бардык эксперттердин параметрлери эс-тутумда сакталышы керек.
Үйрөтүүдөгү татаалдыктар: Бардык эксперттер бирдей деңгээлде "иштеши" үчүн, жүктү теңдөө (load balancing) механизми керек.

1. Проблема: Безграничная Стоимость "Плотных" Моделей

Стандартные, или "плотные" (dense), модели-трансформеры, такие как GPT-3, показывают невероятные результаты, но у них есть огромный недостаток: вычислительные затраты. В таких моделях для каждого входного токена активируются и участвуют в вычислениях все параметры модели. По мере увеличения модели (например, до 175 миллиардов параметров) ее обучение и использование становятся чрезвычайно дорогими и энергозатратными.

Если у модели P параметров, вычислительная нагрузка для каждого токена примерно пропорциональна P. Это создает барьер для дальнейшего масштабирования моделей.

2. Решение: MoE – "Умная" Команда Специалистов

Mixture of Experts (MoE) — это разреженная (sparse) архитектура. Ее основная идея — вместо одной гигантской, универсальной нейросети использовать несколько небольших, специализированных "экспертов" (нейронных сетей). Для каждого токена специальный "маршрутизатор" (или управляющая сеть) решает, какой эксперт (или эксперты) лучше всего подходит для задачи, и активирует только его.

Это можно сравнить с большой больницей: каждого пациента не осматривают все врачи (терапевт, хирург, кардиолог). Регистратура (маршрутизатор) направляет пациента только к одному или двум нужным специалистам (экспертам). В результате система работает гораздо эффективнее.

A. Ключевые Компоненты

Эксперты (Experts): Обычно это слои Feed-Forward Network (FFN) из стандартного Трансформера. В модели может быть 8, 16 или даже 64 эксперта.
Маршрутизатор (Gating Network): Это небольшая нейронная сеть, которая анализирует входной токен и выставляет "оценки" (вероятности) каждому эксперту. Затем она выбирает несколько экспертов (чаще всего 2) с наивысшими оценками.

B. Принцип Работы

Только эксперты, выбранные маршрутизатором, обрабатывают токен. Остальные в это время "простаивают". Итоговый результат получается путем взвешенного суммирования выходов активных экспертов, где весами служат оценки маршрутизатора.

Выход = Σ (Оценка_Маршрутизатораᵢ * Экспертᵢ(вход))

Здесь Σ — это знак суммы, но на практике Оценка_Маршрутизатора для большинства экспертов равна нулю, поэтому в вычислениях участвуют только избранные. Например, в модели Mixtral 8x7B есть 8 экспертов, но для каждого токена работают только два из них.

3. Итог: Эффективность и Недостатки

Подход MoE позволяет радикально увеличить общее количество параметров модели (например, до 50-100 миллиардов), сохраняя при этом вычислительную нагрузку на прежнем уровне. В итоге мы получаем "большую", но "быструю" модель.

Преимущества:

Вычислительная эффективность: Несмотря на огромное количество параметров, обучение и инференс проходят значительно быстрее, чем у плотной модели сравнимого размера.
Специализация: Каждый эксперт может научиться обрабатывать определенные типы данных или паттернов.

Недостатки:

Требования к памяти (VRAM): Во время работы все параметры всех экспертов должны храниться в памяти.
Сложности в обучении: Требуется механизм балансировки нагрузки (load balancing), чтобы все эксперты получали достаточно данных и обучались равномерно.

1. The Problem: The Prohibitive Cost of "Dense" Models

Standard, or "dense," Transformer models like GPT-3 achieve incredible results but come with a major drawback: computational cost. In a dense model, every single parameter is activated and used in the computation for every input token. As models grow larger (e.g., 175 billion parameters), training and inference become prohibitively expensive and energy-intensive.

If a model has P parameters, the computational load for each token is roughly proportional to P. This creates a significant barrier to scaling models even further.

2. The Solution: MoE – A "Smart" Team of Specialists

Mixture of Experts (MoE) is a sparse architecture. The core idea is simple: instead of one giant, monolithic neural network, use a collection of smaller, specialized "expert" networks. For each input token, a special "router" (or gating network) determines which expert(s) are best suited for the task and activates only them.

Think of it like a large hospital: not every patient is seen by every doctor (general practitioner, surgeon, cardiologist). A receptionist (the router) directs the patient to only one or two relevant specialists (the experts). The result is a much more efficient system.

A. Key Components

Experts: These are typically standard Feed-Forward Network (FFN) layers from a Transformer. A model might have 8, 16, or even 64 of these experts.
Gating Network (Router): This is a small neural network that analyzes an incoming token and outputs a "score" (a probability) for each expert. It then selects the top-scoring experts (usually 2) to process the token.

B. How It Works

Only the experts selected by the router process the token, while the others remain inactive. The final output is a weighted sum of the outputs from the active experts, where the weights are the scores assigned by the router.

Output = Σ (Router_Scoreᵢ * Expertᵢ(input))

Here, Σ denotes a sum, but in practice, the Router_Score is zero for most experts, so only the selected ones contribute to the computation. For instance, in the Mixtral 8x7B model, there are 8 experts, but only two are activated for any given token.

3. The Result: Efficiency and Trade-offs

The MoE approach allows for a massive increase in the total number of parameters in a model (e.g., 50-100 billion) while keeping the computational cost (FLOPs) relatively low. This gives us a model that is "bigger" but also "faster".

Advantages:

Computational Efficiency: Training and inference are significantly faster compared to a dense model with a similar number of total parameters.
Specialization: Each expert can learn to specialize in handling specific types of data or patterns.

Disadvantages:

High Memory (VRAM) Requirement: All expert parameters must be loaded into memory during inference, even though only a few are used at a time.
Training Complexity: Requires a load balancing mechanism to ensure all experts are utilized and trained effectively.

Библиография

Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538.
Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Jiang, A. Q., et al. (2024). Mixtral of Experts. arXiv:2401.04088.

Mixture of Experts (MoE): Тереңдетилген сабак