Пример токенизации текста

Что такое токены в нейросетях?

Токены — это “язык” нейросетей.

Токены образуются через токенизацию — процесс разбиения данных (текста, изображения, видео, аудио) на минимальные значимые единицы смысла, которые затем кодируются числами (векторами).

📝 Текстовые токены - это минимальная единица текста, с которой работает модель.

Это не обязательно целое слово, а, например: • Часть слова: “При” + “вет” • Символ: “!” • Эмодзи: “😊”

🔢 Почему не целые слова? Представь, что ты учишь язык не словами, а слогами. Зная 500 слогов, ты сможешь прочитать миллионы слов. Так и нейросеть — зная 100 000 токенов, понимает практически любой текст.

🎨 Мультимедиа токены (картинки, видео, аудио) - это смесь патчей (квадратных блоков пикселей), последовательности кадров и сегментов звуковой волны.

💡Как образуются токены:

  1. Берем много данных (текстов, картинок, звуков);
  2. Ищем в них часто повторяющиеся паттерны / комбинации;
  3. Создаем “словарь” этих паттернов / комбинаций;
  4. Любые новые данные раскладываем по этому словарю.