KSTU AI Lab: A Deep Dive into BPE-dropout

1. Көйгөй: Стандарттык Токенизациянын "Мококтугу"

Көпчүлүк тил моделдери BPE (Byte-Pair Encoding) сыяктуу алгоритмдерди колдонушат. Бул ыкма детерминисттик: бир эле текст ар дайым бирдей токендерге бөлүнөт. Мисалы, "undoubtedly" сөзү дайыма ["un", "doubted", "ly"] деп бөлүнүшү мүмкүн.

Бул туруктуулук жакшы сезилгени менен, анын кемчилиги бар: модель бир эле бөлүнүү жолун "жатап" алат. Ал "undoubted" деген токенди билет, бирок "undoubt" дегенди билбеши мүмкүн. Бул моделдин кичинекей өзгөрүүлөргө, каталарга же сейрек кездешүүчү сөздөргө карата туруксуздугуна алып келет. Бул моделдин бир конкреттүү токенизацияга ашыкча ыңгайлашуусу (overfitting) деп аталат.

Детерминисттик BPE: Input → [token1, token2, ...] (Дайыма бирдей)

2. Чечим: BPE-dropout менен кокустук кошуу

BPE-dropout бул көйгөйдү чечүү үчүн гениалдуу жана жөнөкөй ыкманы сунуштайт: токендерди бириктирүү процессине кокустукту киргизүү. BPE алгоритми эң көп кездешкен символдордун жуптарын этап-этабы менен бириктирет. BPE-dropout болсо, ар бир бириктирүү кадамында, белгилүү бир ыктымалдуулук (p) менен кээ бир бириктирүүлөрдү "таштап салат" (drops out).

Мисалы, "un" жана "doubted" жубун бириктирүү кезеги келгенде, BPE-dropout аны кокусунан өткөрүп жибериши мүмкүн. Натыйжада, бир эле "undoubtedly" сөзү ар кандай жолдор менен токенделиши мүмкүн:

["un", "doubted", "ly"] (эч нерсе ташталбаса)
["un", "doubt", "ed", "ly"] ("doubt" + "ed" биригүүсү ташталса)
["u", "n", "doubted", "ly"] ("u" + "n" биригүүсү ташталса)

Бул процесс subword regularization деп аталат. Ал моделди бир эле сөздүн ар кандай бөлүнүштөрүн көрүүгө мажбурлап, аны ийкемдүү жана туруктуу кылат.

Morpheus: Дагы бир кокустук ыкма

Morpheus – ушул эле идеяны өнүктүргөн дагы бир ыкма. Ал сөздү анын негизги формасына (леммага) кокусунан алмаштыруу же морфологиялык "ызы-чуу" кошуу сыяктуу ыкмаларды колдонот. Максаты бирдей: моделди ар кандай вариацияларга үйрөтүү.

3. Жыйынтык: Туруктуу жана Ийкемдүү Моделдер

Токенизацияга кокустук кошуу моделди бир нече маанилүү жактан жакшыртат:

Кокустук BPE: Input → [token_a, token_b, ...] же [token_c, token_d, ...]

Туруктуулук (Robustness): Модель орфографиялык каталарга, диалектилерге же сейрек сөздөргө жакшыраак туруштук бере алат, анткени ал сөздөрдү ар кандай бөлүктөргө ажыратып көрүп көнгөн.
Регуляризация: Бул ыкма маалыматтарды көбөйтүүнүн (data augmentation) бир түрү катары иштеп, моделдин ашыкча ыңгайлашуусунун алдын алат.
Натыйжалуулук: Көптөгөн тапшырмаларда, айрыкча машиналык котормодо жана текстти генерациялоодо, бул ыкма моделдин сапатын жогорулатат.

BPE-dropout адатта моделди окутуу (training) учурунда гана колдонулат. Ал эми моделди колдонуу (inference) учурунда, ал өчүрүлүп, детерминисттик, эң ыктымалдуу токенизация колдонулат.

1. Проблема: "Хрупкость" Стандартной Токенизации

Большинство языковых моделей используют алгоритмы вроде BPE (Byte-Pair Encoding). Этот подход детерминирован: один и тот же текст всегда разбивается на одинаковые токены. Например, слово "undoubtedly" всегда может разбиваться на ["un", "doubted", "ly"].

Хотя такая предсказуемость кажется преимуществом, у нее есть недостаток: модель "заучивает" единственный способ сегментации. Она может хорошо знать токен "doubted", но не иметь представления о "undoubt". Это приводит к нестабильности модели при столкновении с небольшими изменениями, опечатками или редкими словами. Это называется переобучением (overfitting) на конкретную токенизацию.

Детерминированный BPE: Input → [token1, token2, ...] (Всегда одинаково)

2. Решение: Добавление Случайности с BPE-dropout

BPE-dropout предлагает гениально простой способ решить эту проблему: внести случайность в процесс слияния токенов. Алгоритм BPE последовательно объединяет самые частые пары символов. BPE-dropout на каждом шаге слияния с некоторой вероятностью (p) "выбрасывает" (drops out) некоторые из возможных слияний.

Например, когда приходит очередь объединить пару "un" и "doubted", BPE-dropout может случайно пропустить это действие. В результате одно и то же слово "undoubtedly" может быть токенизировано по-разному:

["un", "doubted", "ly"] (если никакие слияния не были пропущены)
["un", "doubt", "ed", "ly"] (если было пропущено слияние "doubt" + "ed")
["u", "n", "doubted", "ly"] (если было пропущено слияние "u" + "n")

Этот процесс называется subword regularization (регуляризация на уровне подслов). Он заставляет модель видеть различные сегментации одного и того же слова, делая ее более гибкой и устойчивой.

Morpheus: Еще один стохастический подход

Morpheus — это еще один метод, развивающий ту же идею. Он использует такие приемы, как случайная замена слова на его базовую форму (лемму) или добавление морфологического "шума". Цель та же: научить модель различным вариациям.

3. Итог: Более Устойчивые и Гибкие Модели

Добавление случайности в токенизацию улучшает модель в нескольких ключевых аспектах:

Случайный BPE: Input → [token_a, token_b, ...] или [token_c, token_d, ...]

Устойчивость (Robustness): Модель лучше справляется с опечатками, диалектами или редкими словами, так как она "привыкла" видеть слова, разбитые на разные части.
Регуляризация: Этот метод работает как форма аугментации данных (data augmentation), предотвращая переобучение модели.
Производительность: Во многих задачах, особенно в машинном переводе и генерации текста, этот подход повышает качество модели.

BPE-dropout обычно используется только во время обучения (training) модели. На этапе использования (inference) он отключается, и применяется детерминированная, наиболее вероятная токенизация.

1. The Problem: The Brittleness of Standard Tokenization

Most language models use tokenization algorithms like BPE (Byte-Pair Encoding). This approach is deterministic: the same input text always results in the exact same sequence of tokens. For example, the word "undoubtedly" might always be tokenized into ["un", "doubted", "ly"].

While this consistency seems good, it has a drawback: the model overfits to this single segmentation. It might learn the token "doubted" very well but have no idea what "undoubt" means. This makes the model brittle and sensitive to typos, slight variations, or rare words. This is a form of overfitting to a specific tokenization scheme.

Deterministic BPE: Input → [token1, token2, ...] (Always the same)

2. The Solution: Introducing Randomness with BPE-dropout

BPE-dropout offers a brilliantly simple solution: introduce randomness into the token merging process. The BPE algorithm works by iteratively merging the most frequent pair of tokens. BPE-dropout modifies this by, at each merge step, randomly dropping out a potential merge with a certain probability (p).

For example, when it's time to merge the pair "un" and "doubted", BPE-dropout might randomly decide to skip it. As a result, the same word "undoubtedly" can be tokenized in multiple ways across different training steps:

["un", "doubted", "ly"] (if no merges are dropped)
["un", "doubt", "ed", "ly"] (if the "doubt" + "ed" merge is dropped)
["u", "n", "doubted", "ly"] (if the "u" + "n" merge is dropped)

This technique is a form of subword regularization. It forces the model to learn from multiple valid segmentations of the same word, making it more flexible and robust.

Morpheus: Another Stochastic Approach

Morpheus is another technique that builds on this idea. It might stochastically replace a word with its lemma (base form) or add other forms of morphological noise. The goal is the same: to expose the model to more variation.

3. The Result: More Robust and Flexible Models

Adding stochasticity to tokenization improves the model in several crucial ways:

Stochastic BPE: Input → [token_a, token_b, ...] or [token_c, token_d, ...]

Robustness: The model becomes more resilient to spelling errors, dialects, or rare words because it has seen words broken down in many different ways.
Regularization: It acts as a form of data augmentation at the subword level, preventing the model from overfitting.
Performance: It often leads to improved performance on downstream tasks, especially for machine translation and text generation.

BPE-dropout is typically only applied during model training. During inference (when using the model), dropout is turned off, and the single, most probable (deterministic) tokenization is used.

Библиография

Provilkov, I., Emelyanenko, D., & Voita, E. (2020). BPE-dropout: Simple and Effective Subword Regularization. arXiv:1910.13267.
Kudo, T. (2018). Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates. arXiv:1804.10959.
SentencePiece GitHub Repository (implements BPE-dropout): google/sentencepiece.

BPE-dropout: Токенизациядагы кокустук