Нейросетевое встраивание

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 15:26, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Нейросетевое встраивание


Содержание

Нейросетево́е вста́ивание (англ. neural network embedding, также векторное представление) — отображение объектов дискретного пространства (слов, символов, документов, пользователей, узлов графа и т.д.) в непрерывное векторное пространство фиксированной размерности[1]. Векторные представления позволяют моделям нейронных сетей работать с дискретными объектами так же, как с числовыми данными, и улавливать семантические связи между ними.

Основная идея

Ключевое свойство качественного эмбеддинга — семантическая близость отображается в геометрическую близость векторов. Формально, если f: \mathcal{X} \to \mathbb{R}^d — функция встраивания, то для семантически близких x_1, x_2 должно выполняться:

\|f(x_1) - f(x_2)\|_2 \ll \|f(x_1) - f(x_3)\|_2,

где x_3 — семантически далёкий объект. Размерность d обычно от 64 до 4096.

Словесные эмбеддинги

Word2Vec

Одна из первых и наиболее известных моделей для построения эмбеддингов слов, предложенная Mikolov et al. в 2013 году[1]. Реализует два варианта:

  • CBOW — предсказывает целевое слово по контексту;
  • Skip-gram — предсказывает контекстные слова по целевому.

Функция потерь Skip-gram:

\mathcal{L} = -\frac{1}{T}\sum_{t=1}^{T}\sum_{-c \le j \le c,\, j \ne 0} \log p(w_{t+j} \mid w_t),

где T — длина корпуса, c — размер окна контекста.

Знаменитое свойство: f(\text{\u043aороль}) - f(\text{\u043cужчина}) + f(\text{\u0436енщина}) \approx f(\text{\u043aоролева}).

GloVe

GloVe строит эмбеддинги на основе статистики совместной встречаемости. Целевая функция:

J = \sum_{i,j=1}^{V} h(X_{ij})\left(w_i^\top \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij}\right)^2,

где X_{ij} — количество совместных появлений, h — весовая функция.

FastText

Расширение Word2Vec: каждое слово представляется суммой эмбеддингов символьных n-грамм. Позволяет строить векторы для out-of-vocabulary слов.

Контекстуальные эмбеддинги

В отличие от статических, контекстуальные эмбеддинги зависят от всего предложения — одно слово получает разные векторы в разных контекстах.

ELMo

ELMo использует двунаправленную LSTM для построения многоуровневых представлений слов. Финальный эмбеддинг — взвешенная комбинация скрытых состояний всех слоёв.

BERT-эмбеддинги

Трансформерные модели типа BERT производят мощные контекстуальные эмбеддинги. Для эмбеддинга предложения часто используется токен [CLS] или усреднение выходов всех токенов (mean pooling).

Sentence Transformers

Специализированные трансформерные модели, дообученные на задаче семантической близости пар. Контрастивная функция потерь:

\mathcal{L} = (1-y)\frac{1}{2}D^2 + y\frac{1}{2}\max(0,\, m - D)^2,

где D = \|f(s_1) - f(s_2)\|, y \in \{0,1\} — метка схожести, m — отступ (margin).

Графовые и мультимодальные эмбеддинги

  • Node2Vec / DeepWalk — применяют идеи Word2Vec к узлам графа;
  • CLIP — совместное пространство для текста и изображений (контрастивное обучение).

Поиск ближайших соседей

Для запроса q найти k ближайших векторов из базы \mathcal{D}:

\mathrm{kNN}(q) = \arg\!\min_{S \subset \mathcal{D},\, |S|=k} \sum_{v \in S} \|q - v\|.

Библиотеки: FAISS, ScaNN, Annoy. Используют HNSW, IVF, Product Quantization.

Применения

Нейросетевые встраивания применяются в:

  • ОБР — перевод, анализ тональности, семантический поиск;
  • RAG-системах в контексте промпт-инжиниринга;
  • рекомендательных системах;
  • RLHF — reward model использует эмбеддинги.

См. также

Примечания

Литература

  • Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016.
  • Mikolov T. et al. Distributed Representations of Words and Phrases // NeurIPS. — 2013.
  • Pennington J. et al. GloVe: Global Vectors for Word Representation // EMNLP. — 2014.
  • Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers // NAACL. — 2019.
  • Reimers N., Gurevych I. Sentence-BERT // EMNLP. — 2019.
  • Radford A. et al. Learning Transferable Visual Models From Natural Language Supervision (CLIP) // ICML. — 2021.