Большие языковые модели: как устроены GPT, Claude, DeepSeek и за чем они гонятся

От первых нейросетей до биомедицинских приложений — что умеют современные LLM и куда движется индустрия.

Сохранить в закладки
Сохранить в закладки

От первых нейросетей до биомедицинских приложений — что умеют современные LLM и куда движется индустрия.

Обучаться чему-то на основе интернета довольно сложно — уж слишком обширной будет база. Современные модели учатся на самых разных данных: научные публикации, форумы, художественные книги, соцсети, инструкции к продуктам. Однако важно не только разнообразие источников, но и особые методы дообучения, которые задают структуру ответов и «стиль общения» модели.

Оптимальный объём контекста для модели — 5–10 страниц: при превышении этого объёма теряются фокус и детали, и качество ответов ухудшается. Если задача длинная, лучше делить её на части или просить модель напоминать о ключевых фактах из начала диалога.

Кроме того, DeepSeek применяют не только Mixture of Experts, но и метод дистилляции. Это означает, что большая модель «сжимается» в более компактные дистилляты, которые затем комбинируются для повышения эффективности.

«Мыслить как учёный» — подкаст основателя ПостНауки Ивара Максутова о людях, которые меняют мир. В каждом выпуске — разговоры с исследователями, предпринимателями, инвесторами и изобретателями. За десятки эпизодов Ивар обсудил большие языковые модели вместе с Михаилом Бурцевым, цифровые данные в фармацевтике с Ириной Ефименко, агротехнологии с Михаилом Тавером и много других тем — от коучинга до фармакогенетики. В будущих выпусках их список будет только расширяться — слушайте подкаст на YouTube, Яндекс Музыке, Apple Podcasts, VK и Spotify.

Над материалом работали

Ксения Долгачева
Ксения Долгачева

редактор ПостНауки