KSTU AI Lab: Aligning LLMs with Human Values

1. Көйгөй: "Жапайы" жана Башкарылбаган Тил Моделдери

Интернеттеги миллиарддаган тексттер менен үйрөтүлгөн базалык тил моделдери (LLM) грамматиканы жана фактыларды жакшы билишет, бирок алардын жүрүм-туруму күтүүсүз болушу мүмкүн. Алар пайдасыз, калп же атүгүл зыяндуу маалыматтарды бериши ыктымал. Бул көйгөйдү чечүү үчүн ылайыкташтыруу (alignment) процесси колдонулат, анын максаты — моделдин жоопторун адамдын баалуулуктарына жана күтүүлөрүнө дал келтирүү.

Бул сабакта биз эң маанилүү үч ылайыкташтыруу ыкмасын карайбыз.

2. RLHF: Адам Пикиринен Үйрөнүү (Reinforcement Learning from Human Feedback)

RLHF — бул моделди адамдар жактырган жоопторду берүүгө үйрөтүүнүн үч этаптуу процесси. Бул ChatGPT сыяктуу моделдерди түзүүдө негизги ролду ойногон.

1-этап: Көзөмөлдөнгөн так жөндөө (Supervised Fine-Tuning, SFT)

Адамдар тарабынан жогорку сапаттагы суроо-жооп жуптарынан турган маалымат топтому түзүлөт. Андан соң, базалык LLM ушул маалыматтар менен кошумча үйрөтүлөт. Бул моделге каалаган жооп стилин жана форматын үйрөтөт.

2-этап: Сыйлык моделин үйрөтүү (Reward Modeling, RM)

Бир суроого SFT модели бир нече жооп (мис., A, B, C, D) жаратат. Адамдар бул жоопторду эң жакшысынан эң жаманына чейин иреттеп чыгышат (мис., D > B > A > C). Ушул адамдардын тандоосуна негизделип, өзүнчө бир сыйлык модели (Reward Model) үйрөтүлөт. Бул моделдин милдети — берилген жооптун канчалык "жакшы" экенин баалоо (сандык упай берүү).

3-этап: Бекемдөө менен үйрөнүү (Reinforcement Learning, PPO)

SFT модели жаңы суроолорго жоопторду жаратат. Сыйлык модели ар бир жоопту баалап, "сыйлык" упайын берет. Андан кийин, PPO (Proximal Policy Optimization) сыяктуу бекемдөө менен үйрөнүү алгоритми LLMдин параметрлерин жаңыртат. Максаты — сыйлык моделинен эң жогорку упай ала турган жоопторду жаратуу. Ошол эле учурда, модель SFT версиясынан өтө алыстап кетпеши үчүн KL-дивергенциясы менен чектелген.

3. DPO: Түздөн-түз Артыкчылыкты Оптималдаштыруу (Direct Preference Optimization)

DPO — бул RLHF'ке караганда жөнөкөй жана туруктуу альтернатива. Ал сыйлык моделин үйрөтүү жана татаал RL процессин жокко чыгарат. DPO түздөн-түз адамдардын артыкчылыктарын (жакшы/жаман жооп жуптарын) колдонуп, моделди оптималдаштырат.

Негизги идея: DPO жоготуу функциясы (loss function) аркылуу моделдин жактырылган жоопту (y_w) жаратуу ыктымалдыгын жогорулатып, жактырылбаган жооптун (y_l) ыктымалдыгын төмөндөтөт. Бул процесс бир этапта ишке ашат, бул аны RLHF'ке караганда натыйжалуураак кылат.

L_DPO = -E [ log( σ( β log( π(y_w|x) / π_ref(y_w|x) ) - β log( π(y_l|x) / π_ref(y_l|x) ) ) ) ]

Бул жерде π — үйрөтүлүп жаткан модель, π_ref — баштапкы SFT модели, y_w — жактырылган жооп, y_l — жактырылбаган жооп.

4. Constitutional AI: AI Пикиринен Үйрөнүү

Constitutional AI (CAI) — бул адамдардын пикирин чогултуу процессин автоматташтыруу ыкмасы. Бул жерде адамдардын ордуна, алдын ала аныкталган принциптердин ( "конституциянын") негизинде AI өзү пикир билдирет.

1-фаза: Көзөмөлдөнгөн үйрөнүү

Модельге суроо берилет, анан ал өз жообун "конституцияга" (мис., "зыянсыз бол", "пайдалуу бол") ылайык сынга алып, жакшыртат. Бул процесс аркылуу жакшыртылган жооптордун маалымат топтому түзүлөт жана модель ушул менен так жөндөлөт.

2-фаза: Бекемдөө менен үйрөнүү

RLHF'тегидей эле, бирок бул жолу жоопторду адам эмес, AI модели "конституцияга" таянып иреттейт. Ушул AI пикиринин негизинде сыйлык модели үйрөтүлүп, андан ары негизги модель PPO аркылуу оптималдаштырылат. Бул ыкма ылайыкташтыруу процессин кеңири масштабда жүргүзүүгө мүмкүндүк берет.

1. Проблема: "Дикие" и Неуправляемые Языковые Модели

Базовые языковые модели (LLM), обученные на миллиардах текстов из интернета, хорошо знают грамматику и факты, но их поведение может быть непредсказуемым. Они могут генерировать бесполезные, ложные или даже вредоносные ответы. Для решения этой проблемы используется процесс согласования (alignment), цель которого — привести ответы модели в соответствие с человеческими ценностями и ожиданиями.

В этом уроке мы рассмотрим три ключевых метода согласования.

2. RLHF: Обучение с Подкреплением на Основе Обратной Связи от Человека

RLHF (Reinforcement Learning from Human Feedback) — это трехэтапный процесс, который учит модель давать ответы, предпочитаемые людьми. Этот метод сыграл ключевую роль в создании моделей, таких как ChatGPT.

Этап 1: Контролируемая доводка (Supervised Fine-Tuning, SFT)

Люди создают набор данных из высококачественных пар "вопрос-ответ". Затем базовая LLM дообучается на этих данных. Это учит модель желаемому стилю и формату ответов.

Этап 2: Обучение модели вознаграждения (Reward Modeling, RM)

На один и тот же вопрос модель SFT генерирует несколько ответов (например, A, B, C, D). Люди ранжируют эти ответы от лучшего к худшему (например, D > B > A > C). На основе этих предпочтений обучается отдельная модель вознаграждения (Reward Model). Ее задача — оценивать, насколько "хорош" данный ответ, присваивая ему числовой балл.

Этап 3: Обучение с подкреплением (Reinforcement Learning, PPO)

Модель SFT генерирует ответы на новые вопросы. Модель вознаграждения оценивает каждый ответ и выдает "награду". Затем алгоритм обучения с подкреплением, такой как PPO (Proximal Policy Optimization), обновляет параметры LLM с целью генерировать ответы, которые получают максимальную оценку от модели вознаграждения. При этом используется KL-дивергенция для того, чтобы модель не слишком сильно отклонялась от своей SFT-версии.

3. DPO: Прямая Оптимизация Предпочтений (Direct Preference Optimization)

DPO — это более простая и стабильная альтернатива RLHF. Она обходится без явного обучения модели вознаграждения и сложного процесса RL. DPO напрямую использует данные о предпочтениях (пары "предпочтительный/непредпочтительный ответ") для оптимизации самой модели.

Основная идея: функция потерь DPO напрямую увеличивает вероятность генерации предпочтительного ответа (y_w) и уменьшает вероятность непредпочтительного (y_l). Этот процесс происходит за один этап, что делает его более эффективным, чем RLHF.

L_DPO = -E [ log( σ( β log( π(y_w|x) / π_ref(y_w|x) ) - β log( π(y_l|x) / π_ref(y_l|x) ) ) ) ]

Здесь π — обучаемая политика, π_ref — референсная политика (SFT-модель), y_w — предпочтительный ответ, y_l — непредпочтительный ответ.

4. Constitutional AI: Обучение на Основе Обратной Связи от ИИ

Constitutional AI (CAI) — это подход, который автоматизирует процесс сбора обратной связи, заменяя людей набором заранее определенных принципов ("конституцией") и ИИ-оценщиком.

Фаза 1: Контролируемое обучение

Модель генерирует ответ, а затем сама же критикует и переписывает его в соответствии с "конституцией" (например, "будь безвредным", "будь полезным"). Этот процесс создает набор данных с улучшенными ответами, на котором модель дообучается.

Фаза 2: Обучение с подкреплением

Аналогично RLHF, но на этот раз ответы ранжирует не человек, а модель ИИ на основе "конституции". На этих ИИ-предпочтениях обучается модель вознаграждения, а затем основная модель оптимизируется с помощью PPO. Этот подход позволяет масштабировать процесс согласования без постоянного привлечения людей-оценщиков.

1. The Problem: "Wild" and Unaligned Language Models

Base Large Language Models (LLMs), trained on trillions of words from the internet, are knowledgeable but can behave unpredictably. They might generate unhelpful, false, or even harmful responses. The process used to fix this is called alignment, which aims to steer the model's behavior to be helpful, honest, and harmless, in line with human values.

In this lesson, we explore three key alignment techniques.

2. RLHF: Reinforcement Learning from Human Feedback

RLHF is a three-stage process for training a model to produce outputs that humans prefer. It was a cornerstone technique for creating models like ChatGPT.

Stage 1: Supervised Fine-Tuning (SFT)

A dataset of high-quality prompt-response pairs is curated by human labelers. The base LLM is then fine-tuned on this dataset. This teaches the model the desired style and format for its responses (e.g., how to follow instructions).

Stage 2: Reward Modeling (RM)

For a given prompt, the SFT model generates several responses (e.g., A, B, C, D). Human labelers then rank these responses from best to worst (e.g., D > B > A > C). This preference data is used to train a separate Reward Model (RM). The RM's job is to take any response and assign it a scalar score indicating how "good" it is.

Stage 3: Reinforcement Learning (PPO)

The SFT model (now the "policy") generates responses to new prompts. The Reward Model scores these responses, providing a "reward." A reinforcement learning algorithm like Proximal Policy Optimization (PPO) then updates the LLM's parameters to maximize the reward score. A KL-divergence penalty is used to ensure the model doesn't stray too far from the original SFT model, preventing over-optimization.

3. DPO: Direct Preference Optimization

DPO is a simpler, more stable alternative to RLHF. It elegantly sidesteps the need for explicitly training a reward model and running a complex RL loop. Instead, it uses the preference data directly to fine-tune the language model.

The core idea: DPO uses a loss function that directly increases the likelihood of the preferred response (y_w) while decreasing the likelihood of the rejected one (y_l). It does this in a single, straightforward fine-tuning stage, making it more efficient and less complex than RLHF.

L_DPO = -E [ log( σ( β log( π(y_w|x) / π_ref(y_w|x) ) - β log( π(y_l|x) / π_ref(y_l|x) ) ) ) ]

Here, π is the policy being trained, π_ref is the reference policy (the SFT model), y_w is the winning response, and y_l is the losing response.

4. Constitutional AI: Harmlessness from AI Feedback

Constitutional AI (CAI) is a method developed to automate the human feedback part of RLHF, making alignment more scalable and less reliant on extensive human labeling. It uses a set of principles (a "constitution") to guide the model's alignment.

Phase 1: Supervised Learning

The model is prompted to critique and revise its own responses based on a constitution (e.g., a list of rules like "be helpful and harmless"). This self-revision process generates a dataset of improved responses, which is then used to fine-tune the model.

Phase 2: Reinforcement Learning

This phase is similar to RLHF's reward modeling, but instead of humans, an AI model ranks pairs of responses based on the constitution. A reward model is trained on these AI-generated preferences, and the main model is then optimized using PPO against this reward model. This allows for scaling alignment without needing a human for every label.

Библиография

Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.
Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290.
Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.

LLM'дерди Адам Каалоосуна Ылайыктоо

1. Көйгөй: "Жапайы" жана Башкарылбаган Тил Моделдери

2. RLHF: Адам Пикиринен Үйрөнүү (Reinforcement Learning from Human Feedback)

1-этап: Көзөмөлдөнгөн так жөндөө (Supervised Fine-Tuning, SFT)

2-этап: Сыйлык моделин үйрөтүү (Reward Modeling, RM)

3-этап: Бекемдөө менен үйрөнүү (Reinforcement Learning, PPO)

3. DPO: Түздөн-түз Артыкчылыкты Оптималдаштыруу (Direct Preference Optimization)

4. Constitutional AI: AI Пикиринен Үйрөнүү

1-фаза: Көзөмөлдөнгөн үйрөнүү

2-фаза: Бекемдөө менен үйрөнүү

1. Проблема: "Дикие" и Неуправляемые Языковые Модели

2. RLHF: Обучение с Подкреплением на Основе Обратной Связи от Человека

Этап 1: Контролируемая доводка (Supervised Fine-Tuning, SFT)

Этап 2: Обучение модели вознаграждения (Reward Modeling, RM)

Этап 3: Обучение с подкреплением (Reinforcement Learning, PPO)

3. DPO: Прямая Оптимизация Предпочтений (Direct Preference Optimization)

4. Constitutional AI: Обучение на Основе Обратной Связи от ИИ

Фаза 1: Контролируемое обучение

Фаза 2: Обучение с подкреплением

1. The Problem: "Wild" and Unaligned Language Models

2. RLHF: Reinforcement Learning from Human Feedback

Stage 1: Supervised Fine-Tuning (SFT)

Stage 2: Reward Modeling (RM)

Stage 3: Reinforcement Learning (PPO)

3. DPO: Direct Preference Optimization

4. Constitutional AI: Harmlessness from AI Feedback

Phase 1: Supervised Learning

Phase 2: Reinforcement Learning

Библиография