KSTU AI Lab: A Deep Dive into ReAct & Toolformer

1. Көйгөй: Тил моделдери "Жабык кутуда"

Стандарттык тил моделдери (LLM) эбегейсиз зор билимге ээ, бирок алардын эки негизги чектөөсү бар:

Эскирген билим: Алардын маалыматы окутуу датасы менен чектелет. Алар акыркы жаңылыктарды, аба ырайын же акциялардын баасын билишпейт.
Галлюцинация: Алар так эмес же ойдон чыгарылган фактыларды ишенимдүү түрдө айта алышат, анткени аларда маалыматты текшерүү механизми жок. Алар так эсептөөлөрдү жасай алышпайт.

Кыскасы, алар "мээси" бар, бирок тышкы дүйнө менен байланышууга "колу" жок. ReAct жана Toolformer бул көйгөйдү чечет.

2. Чечим: Моделдерге "Кол" берүү

Негизги идея – LLM'дерге куралдарды (tools), башкача айтканда, API'лерди колдонууга уруксат берүү. Бул издөө системасы, калькулятор, котормочу же календарь болушу мүмкүн. Бул маселени чечүүнүн эки негизги ыкмасы бар:

A. ReAct: Ойлон, Аракет кыл, Байка

ReAct (Reasoning + Acting) – бул моделди үйрөтүү архитектурасы эмес, аны башкаруунун промптинг алкагы (prompting framework). Ал моделди татаал маселени чечүү үчүн кадам-кадам ойлонууга мажбурлайт. Ар бир кадамда модель төмөнкү циклди кайталайт:

Ой-жүгүртүү (Thought): Мен эмне кылышым керек? Кандай маалымат жетишпейт?
Аракет (Action): Кайсы куралды (мисалы, Издөө) жана кандай сурам менен колдонушум керек?
Байкоо (Observation): Куралдан кандай натыйжа алдым?
...цикл кийинки ой-жүгүртүү менен уланат...

Мисалы, "Эйфель мунарасынын бийиктигин анын курулуп бүткөн жылына көбөйтсө канча болот?" деген суроого модель мындайча жооп берет:

Ой-жүгүртүү: Мага эки нерсе керек: Эйфель мунарасынын бийиктиги жана курулган жылы.
Аракет: SearchAPI("Эйфель мунарасынын бийиктиги")
Байкоо: 330 метр.
Ой-жүгүртүү: Эми мага курулган жылы керек.
Аракет: SearchAPI("Эйфель мунарасы качан курулган")
Байкоо: 1889-жылы.
Ой-жүгүртүү: Эми экөөнү көбөйтүшүм керек. Мен муну өзүм жасабайм, ката кетиришим мүмкүн.
Аракет: CalculatorAPI("330 * 1889")
Байкоо: 623370.
Акыркы жооп: Жооп 623370.

B. Toolformer: Куралдарды колдонууга үйрөтүлгөн модель

ReAct'тан айырмаланып, Toolformer – бул куралдарды колдонууга атайын кошумча үйрөтүлгөн (fine-tuned) модель. Аны үйрөтүү процесси абдан кызыктуу:

Көп сандагы тексттер алынат.
Башка бир модель бул тексттерди окуп, кайсы жерде API чакыруу пайдалуу болорун аныктап, ошол жерге [API_CALL(...)] текстин киргизет. Мисалы, "Франциянын борбору – Париж (калкы ~2.1 млн)" деген текстти "Франциянын борбору – Париж (калкы [WikipediaAPI("Париждин калкы")])" деп өзгөртөт.
Бул API чакыруулары аткарылып, натыйжасы текстке кошулат.
Акырында, негизги модель ушундай "куралдар менен байытылган" тексттердин негизинде кошумча үйрөтүлөт.

Натыйжада, Toolformer качан жана кандай куралды колдонууну өз алдынча чече баштайт. Бул ыкма аз сандагы мисалдар менен эле жогорку тактыкты камсыздайт.

3. Жыйынтык: Ишенимдүү жана Күчтүү Моделдер

ReAct жана Toolformer сыяктуу ыкмалар тил моделдерин төмөнкүдөй жакшыртат:

Ишенимдүүлүк: Галлюцинация азаят, анткени фактылар тышкы булактар аркылуу текшерилет.
Актуаалдуулук: Моделдер реалдуу убакыттагы маалыматтарга (мисалы, жаңылыктар, аба ырайы) жеткилик ала алышат.
Мүмкүнчүлүктөрдүн кеңейиши: Алар жөн гана текст жазбастан, электрондук кат жөнөтүү, жолугушууну белгилөө же кодду иштетүү сыяктуу татаал тапшырмаларды аткара алышат.

Бул автономдуу агенттерди жана келечектин акылдуу жардамчыларын түзүүдөгү маанилүү кадам болуп саналат.

1. Проблема: Языковые модели в "Закрытой коробке"

Стандартные языковые модели (LLM) обладают огромными знаниями, но у них есть два ключевых ограничения:

Устаревшие знания: Их информация ограничена датой окончания их обучения. Они не знают последних новостей, погоды или цен на акции.
Галлюцинации: Они могут уверенно заявлять неточные или вымышленные факты, поскольку у них нет механизма их проверки. Они не умеют выполнять точные вычисления.

Проще говоря, у них есть "мозг", но нет "рук" для взаимодействия с внешним миром. ReAct и Toolformer решают эту проблему.

2. Решение: Дать моделям "Руки"

Основная идея — позволить LLM использовать инструменты (tools), то есть API. Это может быть поисковая система, калькулятор, переводчик или календарь. Существует два основных подхода к решению этой задачи:

A. ReAct: Рассуждай, Действуй, Наблюдай

ReAct (Reasoning + Acting) — это не архитектура модели, а фреймворк промптинга (prompting framework), который управляет моделью. Он заставляет модель пошагово рассуждать над решением сложной задачи. На каждом шаге модель повторяет следующий цикл:

Мысль (Thought): Что мне нужно сделать? Какой информации не хватает?
Действие (Action): Какой инструмент (например, Поиск) и с каким запросом мне использовать?
Наблюдение (Observation): Какой результат я получил от инструмента?
...цикл продолжается со следующей Мыслью...

Например, на вопрос "Чему равно произведение высоты Эйфелевой башни на год ее постройки?" модель ответит так:

Мысль: Мне нужны две вещи: высота Эйфелевой башни и год ее постройки.
Действие: SearchAPI("высота Эйфелевой башни")
Наблюдение: 330 метров.
Мысль: Теперь мне нужен год постройки.
Действие: SearchAPI("когда построили Эйфелеву башню")
Наблюдение: в 1889 году.
Мысль: Теперь мне нужно перемножить эти два числа. Я не буду делать это сам, могу ошибиться.
Действие: CalculatorAPI("330 * 1889")
Наблюдение: 623370.
Финальный ответ: Ответ равен 623370.

B. Toolformer: Модель, обученная использовать инструменты

В отличие от ReAct, Toolformer — это модель, специально дообученная (fine-tuned) для использования инструментов. Процесс ее обучения очень интересен:

Берется большой набор текстов.
Другая модель читает эти тексты и вставляет маркеры вызова API [API_CALL(...)] там, где это могло бы быть полезно. Например, текст "Столица Франции — Париж (население ~2.1 млн)" превращается в "Столица Франции — Париж (население [WikipediaAPI("население Парижа")])".
Эти вызовы API выполняются, и их результат добавляется в текст.
Наконец, основная модель дообучается на этих "обогащенных инструментами" текстах.

В результате Toolformer учится самостоятельно решать, когда и какой инструмент использовать. Этот подход обеспечивает высокую точность даже с небольшим количеством примеров.

3. Итог: Более надежные и мощные модели

Подходы, такие как ReAct и Toolformer, делают языковые модели значительно лучше:

Надежность: Уменьшаются галлюцинации, так как факты проверяются через внешние источники.
Актуальность: Модели получают доступ к данным в реальном времени (например, новости, погода).
Расширенные возможности: Они могут выполнять сложные задачи, такие как отправка email, планирование встреч или запуск кода, а не просто генерировать текст.

Это является важным шагом на пути к созданию автономных агентов и интеллектуальных ассистентов будущего.

1. The Problem: Language Models in a "Closed Box"

Standard Large Language Models (LLMs) possess vast amounts of knowledge, but they have two key limitations:

Outdated Knowledge: Their information is frozen at the time of their training. They don't know the latest news, the current weather, or stock prices.
Hallucination: They can confidently state incorrect or fabricated "facts" because they lack a mechanism to verify information. They also struggle with precise mathematical calculations.

In short, they have a "brain" but no "hands" to interact with the outside world. ReAct and Toolformer solve this problem.

2. The Solution: Giving Models "Hands"

The core idea is to allow LLMs to use tools, which are essentially APIs. These tools can be a search engine, a calculator, a translation service, or a calendar. There are two primary approaches to enabling this:

A. ReAct: Reason, Act, Observe

ReAct (Reasoning + Acting) is not a new model architecture but a prompting framework that guides an existing LLM. It forces the model to think step-by-step to solve a complex problem. At each step, the model follows a loop:

Thought: What do I need to do next? What information am I missing?
Action: What tool should I use (e.g., Search) and with what query?
Observation: What is the result I got back from the tool?
...the loop continues with the next thought...

For example, to answer "What is the height of the Eiffel Tower multiplied by the year it was completed?", the model would proceed as follows:

Thought: I need two pieces of information: the height of the Eiffel Tower and its completion year.
Action: SearchAPI("height of the Eiffel Tower")
Observation: 330 meters.
Thought: Now I need the completion year.
Action: SearchAPI("when was the Eiffel Tower completed")
Observation: 1889.
Thought: Now I need to multiply these two numbers. I shouldn't do this myself as I might make a mistake.
Action: CalculatorAPI("330 * 1889")
Observation: 623370.
Final Answer: The result is 623370.

B. Toolformer: A Model Fine-Tuned to Use Tools

Unlike ReAct, Toolformer is a model that is specifically fine-tuned to use tools. The training process is ingenious:

Start with a massive dataset of plain text.
Have another LLM read the text and insert potential API calls where they would be useful. For example, "The capital of France is Paris (population ~2.1M)" might become "The capital of France is Paris (population [WikipediaAPI("population of Paris")])".
Execute these API calls and embed the results back into the text.
Finally, fine-tune the main model on this new "tool-augmented" dataset.

As a result, Toolformer learns to decide on its own when and how to call an API. This method achieves high performance with very few examples.

3. The Result: More Reliable and Capable Models

Approaches like ReAct and Toolformer lead to significantly improved LLMs:

Reliability: Hallucinations are reduced because facts can be verified against external, authoritative sources.
Timeliness: Models can access real-time information, such as news, weather, or financial data.
Expanded Capabilities: They can perform complex actions like sending emails, scheduling meetings, or executing code, moving beyond simple text generation.

This is a critical step towards creating autonomous agents and the intelligent assistants of the future.

Библиография

Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761.

ReAct & Toolformer: Акылдуу аракеттер