Обсуждение:Трансформер (модель)
Материал из MachineLearning.
(Различия между версиями)
(Промпт для генерации статьи через Claude Sonnet 4) |
(Исправлен промпт — убраны шаблоны из blockquote) |
||
| Строка 5: | Строка 5: | ||
'''Промпт:''' | '''Промпт:''' | ||
| - | + | Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера | |
| - | Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера (модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017). | + | (модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017). |
| - | + | ||
| - | Статья должна включать: | + | Статья должна включать: |
| - | 1. Вводное определение с ключевыми терминами | + | 1. Вводное определение с ключевыми терминами |
| - | 2. Предпосылки и мотивировку (проблемы RNN/LSTM) | + | 2. Предпосылки и мотивировку (проблемы RNN/LSTM) |
| - | 3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention, многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization | + | 3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention, |
| - | 4. Параметры базовой и большой модели | + | многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization |
| - | 5. Схему обучения (Adam, warmup scheduler, label smoothing) | + | 4. Параметры базовой и большой модели |
| - | 6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры | + | 5. Схему обучения (Adam, warmup scheduler, label smoothing) |
| - | 7. | + | 6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры |
| - | 8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели) | + | 7. Законы масштабирования |
| - | 9. Историческое значение | + | 8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели) |
| - | + | 9. Историческое значение | |
| - | Используй вики-разметку: формулы в тегах <tex>...</tex>, внутренние ссылки | + | |
| - | + | Используй вики-разметку: формулы в тегах <tex>...</tex>, внутренние ссылки, шаблон {{well|...}} | |
| + | в начале, {{TOCright}}, категории, раздел «Примечания» с <ref>, раздел «Литература». | ||
— [[Участник:Emil Petrov|Emil Petrov]] ~~~~ | — [[Участник:Emil Petrov|Emil Petrov]] ~~~~ | ||
Текущая версия
Промпт для генерации статьи
Статья сгенерирована с помощью Claude Sonnet 4 (claude-sonnet-4-6) в среде Cowork (Claude Desktop).
Промпт:
Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера (модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017). Статья должна включать: 1. Вводное определение с ключевыми терминами 2. Предпосылки и мотивировку (проблемы RNN/LSTM) 3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention, многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization 4. Параметры базовой и большой модели 5. Схему обучения (Adam, warmup scheduler, label smoothing) 6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры 7. Законы масштабирования 8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели) 9. Историческое значение Используй вики-разметку: формулы в тегах, внутренние ссылки, шаблон
| | ... |
в начале,
|

