Тиражируемая система Natural Language Processing · Отчет по...

32
МобилитиЛаб Апрель 2020 Тиражируемая система Natural Language Processing для русского языка безопасно - без облаков - без GPU © OOO «МобилитиЛаб», 2020 г. Все права защищены https://www.workspad.ru/runer

Transcript of Тиражируемая система Natural Language Processing · Отчет по...

Page 1: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

МобилитиЛаб

Апрель 2020

Тиражируемая система Natural Language Processingдля русского языка

безопасно - без облаков - без GPU

© OOO «МобилитиЛаб», 2020 г. Все права защищены

https://www.workspad.ru/runer

Page 2: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

2

Почему нужен NLP для корпоративных чат-боты и микро-приложения?• Большинство корпоративных информационных систем (СЭД, CRM, HRM, ERP, учетные и финансовые системы и т.п.)

не имеют мобильных клиентов и “легких” приложений и чатов, а ограничиваются только web-клиентами,ориентированными на desktop-браузеры.

• “Мобилизация” пользователей превысила 80% сотрудников – необходим удобный мобильный доступ к КИС: “хотим как в обычной жизни”.

• Опыт потребительских “Мессенджеров” у 100% сотрудников– необходим удобный доступ к КИС “в стиле чат” – чат-боты

Нужен удобный оперативный мобильный доступ к:

•Корпоративным справочникам

•Поиску в корпоративных регламентах

• СЭД

•CRM, HRS

•Поиск материалов и документов в интранет

•Отчетным системам

•Кадровым системам

•Службе поддержки

•Секретариату (такси, отпуск, др)

•Календарям и совещаниям

• Опросам и голосованиям

Page 3: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

3

RUNER – NLP-система анализа и извлечения текстовой информации

RUNER – готовая к использованию система Natural Language Processing для русского языка“из коробки”

«Популярность дистанционных каналов коммуникации клиентов с банком растет, и сегодня уже более 35% обращений мы получаем через чат, ожидаем, что эта доля к концу 2021 составит уже 50%. Виртуальный помощник, по нашим расчетам, позволит повысить эффективность неголосовых каналов коммуникации на 40% к концу 2021 года»

— Илья Щиров, ведущий менеджер проектов отдела дистанционной работы с клиентами Райффайзенбанка.

https://www.raiffeisen.ru/about/press/releases/122670/

Page 4: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

4

Рынок NLP в мире

Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries. NLP Software, Hardware, and Services Spending to Reach $43.3 Billion Worldwide by 2025.Tractica, February 6, 2019https://tractica.omdia.com/newsroom/press-releases/natural-language-processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17-industries/

Virtual Digital Assistant Use Cases Expand in the Enterprise Sector, Driving Software Revenue rising from $1.3 billion in 2018 to more than $8.9 billion in 2025Tractica, November 25, 2019 https://tractica.omdia.com/newsroom/press-releases/virtual-digital-assistant-use-cases-expand-in-the-enterprise-sector-driving-software-revenue-to-8-9-billion-in-2025/

Page 5: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

5

Рынок NLP в мире

The natural language processing (NLP) market is projected to grow at a rate of 14.0% in terms of value, from 2019 to reach USD 28.44 Billion by 2026. https://www.reportsanddata.com/report-detail/natural-language-processing-nlp-market

The global Natural Language Processing (NLP) market size to grow from USD 10.2 billion in 2019 to USD 26.4 billion by 2024, at a Compound Annual Growth Rate (CAGR) of 21.0% during the forecast period 2019–2024.ResearchAndMarkets, December 2019 https://www.researchandmarkets.com/reports/4876993/natural-language-processing-market-by-component

Page 6: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

6

Рынок чат-ботов в РФ

"По итогам 2019 г. объем рынка чат-ботов для бизнеса в РФ составил 1,5 млрд руб. В уходящем году он вырос в три раза (по сравнению с 2018 г.), в 2020 году объем рынка чат-ботов достигнет 4,2 млрд рублей. В 2021 году этот показатель достигнет 9,6 млрд, а к 2023–му — 33 млрд рублей.”— оценка Отраслевого союза “Нейронет” НТИhttps://ntinews.ru/news/khronika-rynkov-nti/neuronet/rossiyskiy-rynok-chat-botov-v-2020-godu-vyrastet-do-4-2-mlrd-rubley.html

Page 7: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

7

Рынок NLP в РФ

Наиболее часто используемым типом решений на базе ИИ в России являются виртуальные помощники: их применяют 38% руководителей и ведущих специалистов. 33% респондентов планируют использовать виртуальных помощников и обработку запросов на естественном языке.

Just AI только рынок технологий обработки естественного языка (NLP — natural language processing) оценила в $ 9 млн в 2018 году с перспективой роста до $ 550 млн к 2023 году.”РАЭК - Цифровая экономика от теории к практике. Как российский бизнес использует искусственный интеллектhttps://raec.ru/activity/analytics/11002/https://raec.ru/live/raec-news/11001/

Page 8: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

8

Рынок чат-ботов в РФ

https://ict.moscow/projects/ai/#

Источник: IDC, “Рынок ИИ в России”, 2019

Page 9: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

9

RUNER – NLP-система анализа и извлечения текстовой информации

RUNER – готовая к использованию “из коробки” система Natural Language Processing для русского языка

RUNER решает базовые задачи NLP:

• Tokenization – разбор входного текста на предложения и предложений на элементы (токены) с их типизацией

• NER, Named Entity Recognition – извлечение базовых именованных сущностей - дата, время, ФИО, числа, деньги …

• Intent Recognition – распознавание намерений пользователей (интентов)

Пример визуализированных результатов анализа текста и извлечения информации:

Определена команда пользователя по заданному словарю интересующих нас вариантов намерений,даже при неточном совпадении слова “Создай” с ближайшим образцом “создать” в словаре интентов:

“new_skype создать новую встречу Skype”

“Создай на 30 апреля в 2 часа дня новую встречу с Ириной Сергеевой и Сергеем Ивановым в Skype на 30 минут”

Page 10: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

10

RUNER – NLP-система анализа и извлечения текстовой информации

Page 11: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

11

RUNER – NLP-система анализа и извлечения текстовой информации

Намерения пользователя (intents) распознаются в анализируемом тексте на основе передаваемого вместе с текстом словаря идентификаторов и ключевых фраз намерений

Распознаваемые именованные сущности (Named Entity), поддерживаемые в первой версии RUNER :

• Персоны – ФИО, род (муж., жен.), элементы ФИО в именительном падеже (с альтернативой, если не определен род)• Телефоны• Email• Интернет-ссылки в формате URL/URI• Числа – целые и десятичные дроби, количественные и порядковые числительные, цифрами и словами• Проценты• Денежные суммы – величина, валюта• Даты – с временной зоной, с предлогом “в”, “с”, “до”, и т.п.• Время – с временной зоной, с предлогом• Моменты времени – комбинированная дата-время (с временной зоной, с предлогом)• Длительность• Количественные величины – объем, масса, расстояние, штуки• Подтверждения – спец. сущность для ключевых слов и фраз для диалогов с чат-ботами ‘’ок”, “да”, “нет”, “не надо” и т.п.

В следующих обновлениях RUNNER планируется поддержка новых стандартных сущностей для распознавания ”из коробки”, включая:

• Города России с населением от 100 тыс человек• Адреса – улица, дом, корпус, квартира, офис, комната, этаж

Page 12: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

12

RUNER – основа построения NLP-конвейера обработки текстов

RUNER предназначен для использования в чат-ботах, прикладных системах, программных роботах (RPA), облачных сервисах, в том числе разрабатываемых и развертываемых на платформе WorksPad Assistant.

RUNER предоставляет все значимые результаты анализа через открытый API в хорошо структурированном виде (JSON), что позволяет его использовать не только для решения стандартных задач обработки текста в приложениях и чат-ботах, но и как основу для настраиваемого конвейера NLP для решения специализированных задач анализа текста.

Разбиение текста на предложения

Разбиение предложения на

элементы - токены

Типизация токенов

Выделение именованных

сущностей (NER)

Выделение намерений пользователя -

интентов Пост-обработка для решения специализированных задач

(поиск нестандартных сущностей, машинное

обучение и т.п.)

Использование в чат-ботах, приложениях и роботах (RPA), в т.ч. на

платформе WorksPad Assistant

Page 13: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

13

RUNER – тиражируемая система NLP для русского языка

RUNER - российское решение, спроектированное и разработанное с учетом лингвистических особенностей и правил русского языка.

RUNER не требует использования и не обменивается информацией с облачными сервисами, что обеспечивает высокую безопасность применения в системах обработки значимой информации.

RUNER - тиражный “коробочный” продукт, поддерживающий различные модели развертывания:• On-prem/частное облако: во внутренней корпоративной сети• OEM: в составе сторонних тиражируемых решений (например, СЭД, CRM и т.п.)• Cloud: для установки в качестве прикладного компонента чат-ботов и облачных сервисов

RUNER – много-платформенный сервер, функционирующий под управлением Windows, Linux и macOS (64-битные версии указанных ОС). Ядро RUNER в экспериментальном режиме успешно протестировано на мобильных устройствах, работающих под управлением российской мобильной ОС “Аврора”.

Минимальные системные требования для одного запущенного экземпляра сервера RUNER:• CPU эквивалентный Intel Core i5 (четвертое поколение и выше)• RAM 1 Гб• GPU не требуется

Page 14: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

14

Что означает названиие RUNER – Russian, NER & 𐍂𐌿𐌽𐌰 (rūna)*

Название RUNER выбрано не случайно и несет несколько смыслов:

1. Слово RUNER образовано как комбинация из двух слов Russian + NER (Named Entity Recognition), означающих распознавание именованных сущностей для текста на русском языке.

2. RUNER схоже по написанию со словом “runner” – ‘’бегун”, что отражает концепцию последовательного прохождения или пробега по тексту для идентификации элементов текста (токенов) и последующего извлечения из них информации – сущностей (entities) и намерений (intents) пользователей.

3. Этимология существующего слова runer в современных европейских языках также достаточно интересна и связана с руническим письмом - 𐍂𐌿𐌽𐌰 (rūna):

• runer = rune + -er , т.е. происходит от слова rune – руны, прото-германское rūnō “буква, текст, секрет”, которое заимствовано от прото-кельтского rūnā . Сравните с современным датским runer, немецким Rune и шведским runa

• интересен смысл в прото-германском rūnōną “рассказывать секреты, новости” или raunijaną“исследовать, находить, доказывать”, а в прото-индо-европейском (e)rewə-, (e)rwō-“отслеживать, искать, находить”.

https://en.wikipedia.org/wiki/Anglo-Saxon_runes*Источники: https://ru.wikipedia.org/wiki/%D0%A0%D1%83%D0%BD%D1%8B https://www.merriam-webster.com/dictionary/rune

Page 15: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

15

Сценарии применения

для решения реальных задач

Page 16: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

16

Применение RUNER для чат-ботов

RUNER решает задачи выявления команд и сущностей для использования в чат-ботах, в т.ч. разрабатываемых на корпоративной платформе WorksPad Assistant, которая требует безопасного инструмента разбора запросов пользователей на русском языке, устанавливаемого в корпоративной сети.

RUNER позволяет легко обрабатывать набираемые либо надиктовываемые на мобильных устройствах запросы к чат-ботам, относя их к действиям с условиями (часто называемыми модель intent+slot)

Отчет по расходам за апрель

Отчет по расходам за 04.2020 готов

Финансовая отчетность

Отчет_расходы_04-2020.pdf

Поступления за прошлый месяц

Отчет по поступлениям за 03.2020 готов

Поступления_03.2020.xlsx

expense_report отчет по расходам

expense_report расходы

revenue_report отчет по доходам

revenue_report доходы

income_report отчет по поступлениям

income_report поступления

Словарь намерений

* Данный пример отражает использование RUNER на корпоративной платформе WorksPad Assistant,чьи клиенты интегрированы в приложения мобильного рабочего места WorksPad

RUNER определил команду и вычислил март 2020

RUNER определил команду бота и запрошенный месяц отчета

Page 17: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

17

Применение RUNER для чат-ботов

Покажи производственный календарь c апреля по июнь

Кадровые сервисы

Запланированные отпуска

У вас запланированы отпуска:с 16 по 23 июняс 4 по 18 августа

Пришли справку 2НДФЛ

Сергей, ваша справка 2НДФЛ готова

Кадровые сервисы

Иванов.С.А.-2НДФЛ.pdf

Выписка по начислениям за январь 2020

Выписка по начислениям за 01.2020 готова

Иванов СА – выписка 01-2020.pdf

Дни рождения сегодня

Заказать воду в кулер

Вода заказана в ваш каб.308. Доставка планируется послезавтра 14.05.

Сервисы ХТУ

3 пачки бумаги для принтера в комнату 308

Бумага будет доставлена сегодня в каб.308 до 18 часов

* Данный пример отражает использование RUNER на корпоративной платформе WorksPad Assistant,чьи клиенты интегрированы в приложения мобильного рабочего места WorksPad

RUNER определяет команду для бота и извлекает необходимую информацию для выполнения действий ботом

Page 18: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

18

Применение RUNER для чат-ботов

* Данный пример отражает использование RUNER на корпоративной платформе WorksPad Assistant,чьи клиенты интегрированы в приложения мобильного рабочего места WorksPad

RUNER определяет команду для бота и извлекает необходимую информацию для назначения встречи ботом

Page 19: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

19

Применение RUNER для чат-ботов

* Данный пример отражает использование RUNER в чат-боте для Microsoft Teams, развернутом на корпоративной платформе WorksPad Assistant

RUNER определяет команду для бота и всю необходимую информацию для назначения встречи

Page 20: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

20

Применение RUNER для быстрых команд и поиска в системах

Быстрые команды и поиск

Покажи новые документы на Иванова

RUNER может использоватьcя для встравивания средств выполнения быстрых команд и поиска непосредственно в клиенты корпоративных систем СЭД, CRM, ERPи т.п.

При этом RUNER может быть включен в поставку на лицензии OEM

* Данный пример отражает возможный вариант встраивания блоков быстрых команд в интерфейс клиента СЭД

Page 21: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

21

Применение RUNER в NLP-конвейере обработки запросов по почте

RUNER позволяет прозрачно и за короткий срок автоматизировать процесс обработки писем (например, с заказами справок, билетов).

Открытый API и предоставляемая в результатах анализа детальная информация о тексте позволяет уже на уровне приложения, работающего “поверх” RUNER, легко извлечь дополнительные данные уже для конкретной задачи.

RUNER определяет искомые намерения – ‘заказ билетов’ и ‘выставление счета’, определяет пункты назначения, время/даты и персоны.

Приложение по обработке писем получает от RUNER список токенов и их типы, что позволяет легко найти ключевые слова 'туда' и 'обратно' с их положением в предложении и связать с находящимеся рядом с ними датами.

Page 22: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

22

Функциональные возможности

Page 23: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

23

RUNER – анализ текстовой информации

Взаимодействие с RUNER осуществляется по протоколу HTTP. Извлеченные данные – сущности и намерения – возвращаются в структурированном виде в формате JSON.

Текст состоящий из нескольких предложений RUNER разбивает на отдельные предложения.

Для анализа предложений RUNER использует интеллектуальную токенизацию, обеспечивающую первичную типизацию “атомарных” токенов.

Результаты анализа включают полные наборы токенов (tokens) и их типов (tkatoms) для применения RUNER в качестве основы конвейерной обработки текстов.

Создай на завтра новую встречу с Ириной Сергеевой на 12 дня

{

"sentences": [

{

"intent": {

"id": "new",

"tokens": [

...

"persons": [

{

"gender": "F",

"first": "Ирина",

"last": "Сергеева",

"start": 6,

"end": 7

}

],

"dates": [

{

"start": 1,

"end": 2,

"tzone": 180,

"year": 2020,

"month": 4,

"day": 20

}

],

"times": [

{

"start": 8,

"end": 10,

"pre": "at",

"tzone": 180,

"hour": 12,

"minute": 0

}

],

"tkatoms": [

"tkTitle",

"tkPre",

"tkAlpha",

"tkAlpha",

"tkAlpha",

"tkPre",

"tkFName",

"tkSName",

"tkPre",

"tkNumber",

"tkAlpha",

"tkEOS"

],

"tokens": [

"Создай",

"на",

"завтра",

"новую",

"встречу",

"с",

"Ириной",

"Сергеевой",

"на",

"12",

"дня",

"<EOS>"

]

Page 24: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

24

RUNER – идентификация намерений (Intents)

RUNER использует собственную технологию идентификации намерений пользователя, построенную на механизмах нечеткого поиска. При этом слова, описывающие намерение в исходном тексте могут идти не подряд.

Идентификация намерений проводится на основании заданного “словаря образцов” намерений – интентов, который определяется набором строк, содержащих идентификатор намерения, как первое слово, и образец намерения, как последующий набор слов. При формировании словаря необходимо учитывать для образцов типовую последовательность слов намерения, при этом достаточно указывать их в одной форме (желательно, в наиболее естественной форме – т.е. часто используемом склонении/падеже), т.к. технология RUNER применяет в поиске вероятностную оценку схожести однокоренных слов.

В рамках одного запроса к серверу RUNER указывается только один словарь интентов. Для каждого анализируемого предложения возвращается идентификатор наиболее вероятного намерения (ничего не возвращается при отсутствии подходящего намерения).

new новая встреча

new_zoom новая встреча в Zoom

new_skype новая встреча в Skype

new создать встречу

new_zoom создать встречу в Zoom

new_skype создать встречу в Skype

new создать новую встречу

new_zoom создать новую встречу в Zoom

new_skype создать новую встречу в Skype

new добавить в календарь

search показать встречи

search найти встречи

search найти в календаре

search показать в календаре

delete отменить встречу

delete удалить из календаря

delete удалить встречу

Page 25: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

25

RUNER – поддерживаемые именованные сущности #1Именованная

сущность

Пример текстового

представления

Комментарий

Person Персона - ФИО

Сергей Петрович Иванов

Ивановой Ирине

Никоненко Александру

ФИО извлекаются* с разделением на элементы - имя,

отчество, фамилия, в именительном падеже с

указанием идентифицированного рода. Если

однозначное определение рода невозможно для

несклоняемых фамилий и совпадающих в разных

падежах муж и жен имен – дается также альтернатива

имени для второго рода.

Phone Телефон

+7(495)974-7979 Поддерживается доб. номер #

Email Электронная почта

[email protected]

URL/URI Интернет-адрес

workspad.ru

https://workspad.ru

https://www.google.com/search

?newwindow=1&q=workspad&

oq=workspad&uact=5

Определяются простые и сложные адреса, в том числе

имеющие URI prefix для запуска ассоциированных

приложений (напр. lync://)

Number Число

123

12,3

12 тысяч 3

сто двадцать три

одна тыс. 6

двенадцатый (порядковое)

12-й (порядковое)

Производится расчет результирующего числа для всех

видов записи: цифрами, словами и смешанной

Именованная

сущность

Пример текстового

представления

Комментарий

Percent Проценты

12%

13,5%

Money Деньги

12 руб

123 руб. 45 коп.

Две тысячи рублей

$123 тыс.

123 EUR

213 долл.

42€

₽123 165,34

Производится расчет

результирующей

суммы для всех видов

записи: цифрами,

словами и смешанной

Количественные

Volume

Distance

Mass

Items

4 мл

четыре литра

2 км

двадцать два

километра

три килограмма

300 мг

5 шт.

* Собственные базовые словари RUNER для муж и жен имен

содержат более 1200 имен, а для фамилий – более 320 тыс. муж,

жен и несклоняемых фамилий. Словари являются расширяемыми.

Page 26: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

26

RUNER – поддерживаемые именованные сущности #2 (продолжение)

Именованн

ая

сущность

Пример текстового

представления

Комментарий

Date Дата

25.06.1970

04.07

в июне

16 мая

пятого августа

2-го янв

завтра

к следующему вторнику

через 2 месяца

Анализируются даты, записанные в формате дат,

а также числами и словами. Даты определяется с

учетом предлогов, унифицированных до понятий

“в день/месяц” (конкретная дата – день и/или

месяц в рамках заданных единиц измерения –

дней или месяцев), “к дате” (крайний срок в

заданных единицах день, месяц), “до” (поздняя

граница срока), “после” (ранняя граница срока).

При этом производится вычисление искомой

даты (день и/или месяц) относительно текущей

даты.

Time Время

12:30

в 12 час 30 мин

к 5 утра

с двух дня

до двух часов дня

к десяти вечера

через час

в час сорок

через час 30 минут

в два часа дня

Время идентифицируется как в заданном

формате, так и записанное числами и словами

аналогично датам. Время вычисляется с учетом

предлогов. Расчет времени производится с

учетом переданного клиентским приложением

часового пояса относительно UTC (если часовой

пояс не задан – вычисление производится

относительно текущего времени на сервере

RUNER).

Именованная

сущность

Пример

текстового

представления

Комментарий

DateTime Сводное время и

дата

во вторник в 12

часов 30 мин

на завтра в два

часа дня

Сводная информация по дате и

времени, упоминаемых вместе и

представляющих собой один

момент времени

Duration Длительность

два часа

на 30 мин

один день

2 дня

Неделя

2 недели

месяц

два месяца

за час 30 мин

Формат длительности

аналогичен датам и времени.

Длительность рассчитывается и

представляется в ответе в

идентифицированных единицах

аналогично датам и времени.

Интерпретация возможных вариантов записи времени и дат

подробно представлена в документации (“RUNER – Руководство

разработчика”).

Page 27: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

27

RUNER – поддерживаемые именованные сущности #3 (продолжение)Организация автоматизированных диалоговых систем может предполагать необходимость подтверждения для проведения значимых или критических операций (например, перевод денежных средств, отмена поездки, блокировка доступа пользователя в систему и т.п.).

Специально для таких сценариев RUNER предлагает именованную сущность confirmation.

Обращаем внимание, что проектирование таких диалогов должно предполагатьнеоднозначность отрицательных ответов в разговорном русском языке (“да, отмени” и “нет, ненадо, отмени”), поэтому решение соответствующих задач может быть реализовано как с даннойсущностью, так и с соответствующими интентами, обладающими более высоким приоритетомраспознавания, чем сущности confirmation.

Именованная

сущность

Пример текстового

представления

Комментарий

Confirmation Подтверждение Специальная сущность

да

ок

окей

хорошо

подтверждаю

делай

давай

нет

не надо

не делай

отмена

отмени

отменить

Сущность предназначена специально для

положительных и отрицательных

подтверждений в диалогах с чат-ботами.

Может принимать два значения – yes и no.

Значения подтверждений заведены в словаре

confirmations.txt

* Имеет меньший приоритет,

чем интент, напр. слово ‘отмени’ в

предложении с намерением ‘отмени встречу’

не будет определен как confirmation

Отменить авиабилеты для Сергея Иванова на

завтра

Вы уверены, что хотите отменить авиа-билеты для С.Иванова на завтра?

Секретариат

Да, подтверждаю

Билеты для С.Иванова на завтра отменены

Page 28: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

28

RUNER – преимущества по сравнению с другими NLP-системами1. Минимальные требования к ресурсам. Не требует GPU, длительного времени и большой мощности инфраструктуры на

использование и переобучение моделей, предназначенных для извлечения стандартных сущностей и настраиваемых намерений пользователей.

2. Высокое качество идентификации извлекаемых сущностей по сравнению с системами машинного обучения. Спроектирован специально для русского языка. Например, извлекаются не только токены (“слова”), описывающие число, но ведется расчет числа – “тридцать тыс. рублей” дает готовую к реальному использованию информацию 30 000 руб., а не просто позиции слов, относящихся к денежной сумме. Для ФИО выделяются отдельные элементы, причем в именительном падеже с указанием рода персоны.

3. Безопасное развертывание без облаков. Возможность развертывания во внутренней корпоративной сети без обмена данными со сторонними сервисами. Нет зависимости от доступности внешнего облачного сервиса.

4. Сервер, а не библиотека. Исключается непредсказуемость влияния (в т.ч. в терминах ИБ) на код прикладной системы. Общее использование для разных ботов и приложений.

5. Открытый API для пост-обработки и построения NLP-конвейера. Позволяет использовать результаты уже проведенного анализа текста для выполнения дополнительной пост-обработки информации, необходимой для специализированных задач извлечения тех или иных нестандартных сущностей, фактов и т.п.

6. Легкость тиражирования в составе коробочных решений. Удобная лицензия. Множество NLP-библиотек и корпусов данных для машинного обучения распространяются на лицензии GPLv3 (напр. Polyglot) и CC BY-NC-SA 4.0 (напр. НКРЯ SynTagRus), не позволяющих их использовать в коммерческих решениях.

7. Российское решение для импортозамещения - контролируемый код, независимость от перспектив поддержки и развития сторонних языковых моделей.

Page 29: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

29

RUNER – преимущества по сравнению с другими NLP-системами

Точность распознавания именованных сущностей в RUNER можно сравнить с другими популярными системами и библиотеками, используя онлайн-демо этих решений:

RUNER – https://runer.workspad.com

• Natashahttps://natasha.github.io/demo/

• DeepPavlovhttps://demo.deeppavlov.ai/#/ru/ner (NER Ru),https://demo.deeppavlov.ai/#/mu/ner (NER Multi-Lang)

• Pullentihttp://www.pullenti.ru/DemoPage.aspx

• Google Cloud Natural Language APIhttps://cloud.google.com/natural-language#section-2

• Microsoft Azure Cognitive Services – Язык – Анализ текстаhttps://azure.microsoft.com/ru-ru/services/cognitive-services/text-analytics/

• IBM Watson Natural Language Understandinghttps://www.ibm.com/demos/live/natural-language-understanding/self-service

Page 30: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

30

О компании МобилитиЛаб

Page 31: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

31

Компания ООО МобилитиЛаб (“Лаборатория корпоративной мобильности”)

Основана – декабрь 2011

Резидент ИТ-кластера Сколково с мая 2012

Проект НТИ по направлениям Технет и Сэйфнет с июня 2019

Участник Руссофт, АРПП, Реестр отечественного ПО

Продукты – корпоративные тиражные (“коробочные”) решения:

WorksPad = корпоративное мобильное рабочее место = российский «программный blackberry» + «корпоративный dropbox»

WorksPad Assistant = платформа корпоративных чат-ботов и микро-приложений

RUNER = тиражируемая NLP-система для русского языка (NLP - Natural Language Processing)

WorksPad отмечен ведущими российскими и международными наградами и включен в профильные рейтинги

Профессиональная команда в менеджменте, продажах и разработке с международным опытом:

Page 32: Тиражируемая система Natural Language Processing · Отчет по расходам за 04.2020 готов Финансовая отчетность Отчет_расходы_04-2020.pdf

МобилитиЛаб

Сергей ОрликГенеральный директор[email protected]+7 903 766-0891

Сергей МакарьинДиректор по развитию бизнеса[email protected]+7 964 503-0308

www.workspad.ruhttps://www.workspad.ru/runer