KSTU AI Lab: A Deep Dive into Byte-Level Transformers

1. Көйгөй: Токенизациянын Чектөөлөрү

BERT же GPT сыяктуу көпчүлүк тил моделдери текстти subword (сөздүн бөлүгү) деп аталган токендерге бөлөт. Бул ыкма эффективдүү болгону менен, бир нече олуттуу көйгөйлөрү бар:

Сөздүктөн тыш сөздөр (Out-of-Vocabulary, OOV): Моделдин сөздүгүндө жок сөздөр (жаңы сленг, ката жазылган сөздөр, техникалык терминдер) кездешкенде, алар [UNK] (белгисиз) токенине алмаштырылып, маалымат жоголот.
Чоң сөздүктөр: Көп тилдүү моделдер үчүн он миңдеген токендерден турган зор сөздүк түзүү керек, бул көп эс-тутумду талап кылат.
Морфологиялык бай тилдер: Кыргыз, орус же түрк тилдеринде бир эле уңгудан жүздөгөн ар кандай сөздөр жасалат (мис., иш, ишчи, иште, иштешүү, ишмердигибизден). Subword токенизациясы мындай учурларда дайыма эле туура иштей бербейт.

Бул көйгөйлөрдү чечүү үчүн "токенизациясыз" иштеген моделдер сунушталган.

2. Чечим: Текстти Түпкү Бирдиктерде Иштетүү

Идея жөнөкөй: текстти жасалма токендерге бөлбөстөн, анын эң негизги курамдык бөлүктөрү — тамгалар (characters) же байттар (bytes) — менен түздөн-түз иштөө. Бул ыкма сөздүктү толугу менен жокко чыгарат. Натыйжада, [UNK] токени болбойт, жана модель каалаган тилде, каалаган текстти (атүгүл катасы менен) түшүнө алат. Бирок, бул учурда тексттин узундугу кескин өсөт, ошондуктан атайын архитектуралар керек.

3. Архитектуралар

A. ByT5: Байттар менен иштөө

ByT5 модели текстти UTF-8 байттарынын агымы катары карайт. Мисалы, "Сәлам" деген сөз байттарга ажыратылат. Бул эң универсалдуу ыкма:

Сөздүк такыр жок — модель 256 гана байтты билет.
Текстти алдын-ала тазалоонун (мис., кичине тамгага өткөрүү) кереги жок.
Ката жазылган, аралаш тилдеги же техникалык тексттерди иштетүүдө абдан туруктуу.
Архитектурасы — бул T5 (Encoder-Decoder) моделинин байт деңгээлинде иштеген версиясы.

B. CANINE: Тамгалар жана "Төмөндөтүү"

CANINE (Context-Aware Neural-Network for character-level Input Encoding) тамгалар менен иштейт, бирок эсептөө жүгүн азайтуу үчүн акылдуу ыкманы колдонот. Ал текстти эки этапта иштетет:

Төмөндөтүү (Downsampling): Адегенде модель ар бир тамганын жергиликтүү контексттеги маанисин (embedding) эсептейт. Андан кийин бул узун ырааттуулукту кыскартып, негизги, терең Трансформерге жөнөтөт.
Жогорулатуу (Upsampling): Терең Трансформер иштеп чыккан кыска ырааттуулукту кайрадан баштапкы тамгалардын узундугуна чейин "кеңейтет".

Бул ыкма эсептөөнү тездетип, тамга деңгээлиндеги анализдин артыкчылыктарын сактап калат.

C. Charformer: Динамикалык "Тамга Бөлүктөрү"

Charformer тамгалар менен сөздүн бөлүктөрүнүн ортосундагы гибриддик ыкманы сунуштайт. Ал текстти иштетүү учурунда Gradient-based Subword Tokenization (GBST) аркылуу тамгаларды оптималдуу блокторго өзү "үйрөнүп" бөлөт. Бул блоктор алдын-ала түзүлгөн сөздүккө көз каранды эмес жана тексттин мазмунуна жараша динамикалык түрдө түзүлөт. Бул CANINE'ге караганда эффективдүүрөөк, бирок ByT5 сыяктуу толук универсалдуу эмес.

4. Жыйынтык: Колдонуу тармактары

Токенизациясыз моделдердин артыкчылыктары:

Туруктуулук: Социалдык тармактардагы катасы көп, сленг аралашкан тексттерди мыкты иштетет.
Көп тилдүүлүк: Бир эле модель ондогон, жада калса жүздөгөн тилдерде эч кандай кошумча сөздүксүз иштей алат.
Морфология: Уңгу менен мүчөлөрдүн байланышын тереңирээк түшүнүүгө жөндөмдүү.
Код жана атайын тексттер: Программалоо кодун же химиялык формулаларды талдоодо мыкты натыйжа берет.

1. Проблема: Ограничения Токенизации

Большинство языковых моделей, таких как BERT или GPT, разбивают текст на токены, называемые subword (части слов). Хотя этот подход эффективен, у него есть несколько серьезных проблем:

Слова вне словаря (Out-of-Vocabulary, OOV): Когда модель встречает слово, которого нет в её словаре (новый сленг, опечатки, технические термины), оно заменяется на токен [UNK] (неизвестный), что приводит к потере информации.
Большие словари: Для многоязычных моделей требуется создавать огромные словари из десятков тысяч токенов, что требует много памяти.
Морфологически богатые языки: В таких языках, как русский, кыргызский или турецкий, от одного корня могут образовываться сотни различных слов (напр., дело, делать, сделанный, по-деловому). Subword-токенизация не всегда справляется с этим корректно.

Для решения этих проблем были предложены модели, работающие "без токенизации".

2. Решение: Обработка Текста на Уровне Базовых Единиц

Идея проста: вместо разделения текста на искусственные токены, работать напрямую с его самыми фундаментальными компонентами — символами (characters) или байтами (bytes). Этот подход полностью исключает необходимость в словаре. В результате, токен [UNK] исчезает, и модель может понять любой текст на любом языке (даже с ошибками). Однако последовательности становятся значительно длиннее, что требует специальных архитектур.

3. Архитектуры

A. ByT5: Работа с Байтами

Модель ByT5 рассматривает текст как поток байтов UTF-8. Например, слово "Привет" разбивается на последовательность байтов. Это самый универсальный подход:

Словарь отсутствует — модель знает только 256 возможных байтов.
Не требуется предварительная обработка текста (например, приведение к нижнему регистру).
Очень устойчива к шуму: опечаткам, смешанным языкам или техническим текстам.
Архитектура представляет собой T5 (Encoder-Decoder), адаптированную для работы на уровне байтов.

B. CANINE: Символы и "Понижение размерности"

CANINE (Context-Aware Neural-Network for character-level Input Encoding) работает с символами, но использует умный метод для снижения вычислительной нагрузки. Он обрабатывает текст в два этапа:

Понижение (Downsampling): Сначала модель вычисляет представление (embedding) для каждого символа в его локальном контексте. Затем эта длинная последовательность "сжимается" и передается в основной, глубокий Трансформер.
Повышение (Upsampling): Глубокий Трансформер обрабатывает короткую последовательность, а затем результат "расширяется" обратно до исходной длины на уровне символов.

Этот метод ускоряет вычисления, сохраняя при этом преимущества анализа на уровне символов.

C. Charformer: Динамические "Блоки Символов"

Charformer предлагает гибридный подход между символами и частями слов. Во время обработки текста он "обучается" оптимально группировать символы в блоки с помощью Gradient-based Subword Tokenization (GBST). Эти блоки не зависят от заранее созданного словаря и формируются динамически в зависимости от контекста. Это эффективнее, чем CANINE, но не так универсально, как ByT5.

4. Итог: Области Применения

Преимущества моделей без токенизации:

Устойчивость: Отлично справляются с "шумным" текстом из социальных сетей с опечатками и сленгом.
Многоязычность: Одна и та же модель может работать с десятками или даже сотнями языков без дополнительных словарей.
Морфология: Способны глубже понимать связи между корнями и аффиксами слов.
Код и специальные тексты: Показывают отличные результаты при анализе программного кода или химических формул.

1. The Problem: The Limitations of Tokenization

Most language models like BERT or GPT split text into units called subwords. While efficient, this approach has several significant drawbacks:

Out-of-Vocabulary (OOV) Words: When a model encounters a word not in its vocabulary (e.g., new slang, typos, technical terms), it's often replaced with an [UNK] (unknown) token, leading to information loss.
Large Vocabularies: Multilingual models require massive vocabularies with tens of thousands of tokens, which consumes a lot of memory.
Morphologically Rich Languages: In languages like Turkish, Russian, or Finnish, a single root word can generate hundreds of variants. Subword tokenization often struggles to handle this complexity gracefully.

To address these issues, "token-free" models were developed.

2. The Solution: Processing Text as Raw Units

The idea is simple: instead of breaking text into artificial tokens, process it directly using its most fundamental components — characters or bytes. This approach eliminates the vocabulary entirely. As a result, there are no [UNK] tokens, and the model can theoretically understand any text in any language, including noisy or misspelled text. However, this makes sequences much longer, requiring specialized architectures to remain efficient.

3. The Architectures

A. ByT5: Operating on Bytes

The ByT5 model treats text as a stream of UTF-8 bytes. For example, the word "Hello" is decomposed into its constituent bytes. This is the most universal approach:

There is no vocabulary — the model only knows the 256 possible bytes.
No preprocessing like lowercasing or normalization is needed.
It is extremely robust to noise, handling typos, mixed languages, and technical notations effortlessly.
The architecture is a T5 (Encoder-Decoder) model applied at the byte level.

B. CANINE: Characters and Downsampling

CANINE (Context-Aware Neural-Network for character-level Input Encoding) works with characters but uses a clever trick to manage the computational cost. It processes text in two main stages:

Downsampling: First, a shallow Transformer creates contextual embeddings for each character. This long sequence is then "strided" or downsampled into a shorter sequence, which is fed into a deeper, main Transformer.
Upsampling: The output from the deep Transformer is then upsampled back to the original character sequence length for fine-grained predictions.

This makes computation much more efficient while retaining the benefits of character-level analysis.

C. Charformer: Dynamic Sub-Character Blocks

Charformer represents a hybrid approach between characters and subwords. It uses Gradient-based Subword Tokenization (GBST) to *learn* the optimal way to group characters into blocks on the fly. These blocks are not from a fixed vocabulary but are created dynamically based on the input text. This makes it more computationally efficient than pure character models like CANINE, though less universally simple than ByT5.

4. The Result: Applications

The advantages of token-free models make them ideal for:

Robustness: Processing noisy, user-generated content from social media with typos and slang.
Multilingualism: A single model can handle dozens or even hundreds of languages without needing separate vocabularies.
Morphology: They can achieve a deeper understanding of how word roots and affixes combine to create meaning.
Code and Specialized Text: They excel at analyzing programming code, chemical formulas, or other text with unique structures.

Библиография

Xue, L., et al. (2021). ByT5: Towards a token-free future with pre-trained byte-to-byte models. arXiv:2105.13626.
Clark, J. H., et al. (2021). CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. arXiv:2103.06874.
Tay, Y., et al. (2021). Charformer: Fast Character Transformers via Gradient-based Subword Tokenization. arXiv:2106.12672.

Байт жана Тамга Деңгээлиндеги Трансформерлер