Каталог курсов
Учиться бесплатно

Multi-head attention

Multi-head attention — специальный новый слой, который даёт возможность каждому входному вектору взаимодействовать с другими словами через механизм внимания (attention mechanism), вместо передачи скрытого состояния (hidden state) как в RNN или соседних слоёв как в CNN.
← В глоссарий