Домен
Machine Learning и AI
Профиль навыка
Этот навык определяет ожидания по ролям и уровням.
Ролей
1
где встречается этот навык
Грейдов
5
сформированная дорожка роста
Обязательных требований
0
ещё 5 — необязательные
Machine Learning и AI
NLP
22.02.2026
Выберите текущий грейд и сравните ожидания. Карточки ниже покажут, что нужно закрыть для следующего уровня.
Таблица показывает, как меняется глубина владения навыком от Junior до Principal.
| Роль | Обязательность | Описание |
|---|---|---|
| LLM Engineer | Знает основы tokenization: BPE, WordPiece, SentencePiece. Понимает как токенизатор влияет на качество и стоимость LLM. Использует pre-trained tokenizers из Hugging Face для базовых задач. |
| Роль | Обязательность | Описание |
|---|---|---|
| LLM Engineer | Самостоятельно работает с tokenization для LLM: анализирует token distribution, оптимизирует input length, обрабатывает special tokens. Обучает custom tokenizer на domain-specific корпусе. |
| Роль | Обязательность | Описание |
|---|---|---|
| LLM Engineer | Проектирует tokenization стратегии для LLM: multi-language tokenizer training, vocabulary extension, tokenizer-aware data preprocessing. Оптимизирует fertility rate и coverage для target домена. |
| Роль | Обязательность | Описание |
|---|---|---|
| LLM Engineer | Определяет tokenization стандарты для LLM-команды. Формирует guidelines по выбору и обучению токенизаторов, оценке качества tokenization, интеграции с training и inference pipeline. |
| Роль | Обязательность | Описание |
|---|---|---|
| LLM Engineer | Формирует enterprise tokenization стратегию. Определяет подходы к unified tokenizer management, multi-language coverage, tokenizer versioning и evaluation на масштабе организации. |