Close
Форма обратной связи
«Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности»
Инструменты анализа мультимодальных данных TopicNet
  • Разработка инструментов анализа мультимодальных текстовых и транзакционных данных - проект «TopicNet».
Проект не имеет прямых аналогов и направлен на улучшение и повышение доступности инструментов для анализа больших массивов слабо- или неструктурированных мультимодальных (транзакционных, текстовых и визуальных) данных.

Целью проекта является создание инструментальной среды «TopicNet» для автоматизированного построения тематических моделей больших массивов данных, что необходимо при создании поисковых и рекомендательных сервисов, анализе новостных потоков СМИ и социальных медиа, поиске в патентных базах и т.д.

«TopicNet» позволяет быстро и с минимальным погружением в предметную область строить базовые решения высокой точности в области анализа данных, что откроет большему числу компаний доступ к применению технологий ИИ в своих бизнес-процессах.
Листовка о проекте
Технологии
«TopicNet» воплощает весь цикл построения и настройки тематических моделей (от предобработки данных, до обучения моделей и сравнения результатов экспериментов) и решает отдельные технологические вызовы в области анализа данных (например, выделение тем в динамическом потоке данных, балансировка тем в несбалансированной коллекции и др.).

В результате проекта создана среда «TopicNet» в виде:
  • Библиотеки автоматизированного тематического анализа мультимодальных текстовых русскоязычных и англоязычных данных «TopicNet» с возможностью визуализации тематизации потоковой информации.
  • Библиотеки предобученных моделей и тематических представлений для разнородных областей человеческих знаний. Не имеет аналогов.
Набор готовых решений на базе «TopicNet» включает в себя:
  • Систему профилирования клиентов банков, финансовых или торговых компаний на основе тематического анализа транзакционных данных;
  • Систему контроля качества деятельности колл-центра на основе анализа текстовой информации;
  • Аналитический модуль для обработки обращений клиентов в контактный центр: выявления намерений клиентов, маршрутизации сообщений и др.;
  • Аналитический модуль для построения информационно-поисковых сервисов по большим текстовым коллекциям.
Отрасли применения
Получаемые с использованием «TopicNet» тематические модели могут быть применены для широкого класса прикладных задач, в их числе:

  • задача выделения структуры в коллекции данных. В частности, тематическое моделирование на коллекции текстовых данных позволяет понять общий набор интентов и тем в коллекции, на предпочтениях клиентов – выделить типы предпочтений, на мультиязыковых данных – проводить соответствие и поиск между запросами и документами на разных языках. Такие модели могут использоваться, например, для разработки поисковых и/или рекомендательных сервисов, анализа диалогов колл-центра и т.д;
  • задача моделирования динамической структуры данных, например, задача исследования новостных потоков СМИ и социальных медиа и анализа развития тем в медиаданных;
  • задача поиска близких документов в патентных базах и других источниках научно-технической информации, где поиск ближайших по векторным тематическим представлениям документов позволяет выделять самые релевантные из доступных документов;
  • задача поиска структурно близких документов в научных архивах публикаций, собраниях юридических документов и других источниках структурированной или слабоструктурированной информации, где пофрагментная тематизация позволяет находить общие структурные элементы в документации и другие.
Лаборатория анализа данных и разработки рекомендательных систем
Партнеры
ПАО «Сбербанк», ООО «1С», АО «МЦ НТТ»,
Huawei Technologies Co. Ltd., АО «Россельхозбанк.
Руководитель проекта
Воронцов Константин Вячеславович - д.ф.-м.н., профессор РАН