Тензорные сети, или зачем нейросети нужен математик

«Свёртка» здесь — термин из математики: это особый вид преобразования, при котором один сигнал накладывается на другой. В контексте нейросетей она позволяет модели обнаруживать локальные паттерны в изображении — края, текстуры, формы — не привязываясь к конкретному положению на картинке. Механизм свёртки и делает свёрточные сети эффективными для задач распознавания.

Оселедец упоминает, что в Китае несколько групп уже создали экспериментальные чипы, спроектированные специально под тензорные разложения, — на них всё работает хорошо. Но чтобы такой чип пошёл в массовое производство, нужны инвестиции другого порядка, и пока этого не произошло.

Со временем тензорные методы стали выполнять в теории машинного обучения ещё одну функцию — не только сжимать модели, но и давать язык для их понимания. Нейросеть — это в каком-то смысле функция: она принимает входные данные и выдаёт ответ. Но описать, что именно происходит внутри этой функции, очень трудно. Тензорные разложения дают один из способов формализовать структуру нейросети математически — представить её как набор взаимодействующих тензоров с определёнными рангами и зависимостями. Это позволяет задавать вопросы о том, какую информацию модель способна представить в принципе, какова её выразительная мощность, и как архитектура влияет на способность к обобщению. Все эти вопросы до сих пор остаются открытыми в теории глубокого обучения, и тензорный формализм — один из немногих аппаратов, который даёт для них хоть какую-то аналитическую точку опоры.

Над материалом работали

Иван Оселедец

доктор физико-математических наук, associate professor at Skolkovo Institute of Science and Technology, старший научный сотрудник Института вычислительной математики РАН