Как устроены языковые модели и для чего их используют в реальности
Живое или нет?
Система оценки мастерства общения для роботов появилась очень давно. Идею в 1950 году опубликовал математик Алан Тьюринг в журнале Mind: «Испытатель взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести испытателя в заблуждение, заставив сделать неверный выбор». Тест Тьюринга широко используется и сегодня — например, на конкурсе искусственного интеллекта AI Loebner, который проводится с 1990 года. Многие годы его выигрывал чат-бот Mitsuku.
Любой желающий может пообщаться с Mitsuku в интернете. Любопытно, что при первой же проверке окажется, что бот не так уж умен: он воспринимает только грамотную и буквальную речь, не учитывает контекст беседы, легко теряет нить разговора. Дело в том, что пройти тест Тьюринга не так сложно, как может показаться: на ограниченном отрезке времени собеседник не должен заподозрить, что говорит с роботом. Получается, что коммерческие системы обслуживания клиентов проходят этот тест ежедневно. И хотя AI Loebner — более сложное испытание, его смысл остается тем же: здесь оценивается владение языковым инструментарием, уровень имитации. Для человека речь — это отражение его сознания, поэтому в любом общении есть динамика, определенное отношение к собеседнику. А у машин сознания нет: лексикон — это все, чем они владеют.
В самом начале специалисты работают с архитектурой модели: невозможно заранее знать, какая архитектура подходит лучше для текущей задачи. Изучается литература, исследуется опыт тех, кто решал похожие задачи. И буквально эмпирическими методами предсказывается модель, которую можно было бы применить.
Далее следует работа с обучающей выборкой. Получить ее — это полдела. Если речь идет о медицинских данных, то происходит сбор, анализ и очистка, а далее эти данные необходимо разметить, и иногда несколько человек размечают один и тот же элемент, чтобы исключить любые ошибки. При этом нужны огромные вычислительные ресурсы.
Вы сможете увидеть эту публикацию в личном кабинете
Вы сможете увидеть эту публикацию в личном кабинете
Вы сможете увидеть эту публикацию в личном кабинете
Вы сможете увидеть эту публикацию в личном кабинете