Кирилл Золотарев
Технический директор (CTO) в МТС Банк · 20.04
Токены и нейросети: как машины понимают текст
Если взять обычную HTML-страницу магазина обуви, мы обнаружим определенную структуру данных: ссылки, текст, HTML-разметку, CSS-стили и JS-скрипты.
Представим, что у нас есть набор таких страниц. Для нейросети, чтобы использовать эти страницы как источник знаний и отвечать на вопросы людей, важен в первую очередь текст.
Процесс обработки текста
1. Фильтрация: сначала нужно очистить данные от HTML-разметки, CSS и JS-скриптов, оставив только текст и, возможно, ссылки.
2. Предобработка: даже после базовой фильтрации объем текста остается значительным. Можно дополнительно нормализовать его, удалив лишние пробелы и оптимизировав формат, но текста все равно будет много.
3. Токенизация: здесь начинается самое интересное. С компьютерной точки зрения текст — это последовательность символов, которые можно представить в виде байтов. Однако современные нейросети используют более сложный подход.
Что такое токенизация
Токенизация — это процесс преобразования необработанного текста в последовательность "токенов" — базовых единиц, с которыми работает модель. Для этого используются специальные алгоритмы, например, Byte Pair Encoding (BPE).
BPE находит наиболее часто встречающиеся пары символов или последовательности и заменяет их новыми токенами. Это позволяет эффективно представлять как частые слова целиком, так и редкие слова по частям.
Особенности токенизации
У каждой модели свой словарь токенов и алгоритм токенизации. Вы можете изучить этот процесс на сайте https://tiktokenizer.vercel.app.
Важно понимать, что на токенизацию влияют: - Язык входных данных - Количество пробелов - Использование заглавных букв - Специальные символы
Практическое значение
Понимание процесса токенизации помогает: - Оптимизировать запросы к нейросетям - Экономить токены при работе с платными API - Выбрать подходящую модель для конкретных задач
В будущих постах я расскажу о том, как нейросети используют эти токены для математических вычислений и формирования ответов на основе загруженных знаний.
Дмитрий Зиборов
· 21.04
полезная информация!) через пару постов очень многие впервые во «взрослой» жизни услышат слово матрица, которое они последний раз слышали классе в 8-ом и знания как их умножать и усреднять, после контрольной в этом самом 8 классе, больше никогда не пригодились 🤓
и я в числе этих людей, до появления нейросетей вообще не понимал практического применения матриц и не вспоминал про них)
ответить
еще контент автора
еще контент автора
Кирилл Золотарев
Технический директор (CTO) в МТС Банк · 20.04
войдите, чтобы увидеть
и подписаться на интересных профи