МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin...

246

Transcript of МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin...

Page 1: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports
Page 2: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение

высшего образования «УЛЬЯНОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Российская ассоциация искусственного интеллекта

Российская ассоциация нечетких систем и мягких вычислений федеральное государственное бюджетное образовательное учреждение

высшего образования «УЛЬЯНОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Нечеткие системы и мягкие вычисления. Промышленные

применения Сборник научных трудов

V Всероссийской научно-практической мультиконференции с международным участием

«Прикладные информационные системы (ПИС-2018)»

(Россия, г. Ульяновск 28 мая – 10 июня 2018 г.)

Ульяновск УлГТУ

2019

Page 3: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

УДК 004.62 (082) ББК 32.973.202я43 Н 59 Редакционная коллегия: Н. Г. Ярушкина, В. С. Мошкин, А. А. Филиппов, Е. Н. Эгов (ответственный за выпуск) УДК 004.62 (082)

Нечеткие системы и мягкие вычисления. Промышленные применения : сборник научных трудов V Всероссийской научно-практической мультиконференции с международным участием «Прикладные информационные системы (ПИС-2018)» (Россия, г. Ульяновск, 28 мая – 10 июня, 2018 г.) : – Ульяновск, УлГТУ, 2019. – 245 с.

В сборнике опубликованы доклады участников

V Всероссийской научно-практической мультиконференции «Прикладные информационные системы (ПИС-2018)».

Материалы сборника предназначены для специалистов по информационных систем и технологий, магистрантам и аспирантам информационно-технических специальностей вузов.

Конференция проведена в соответствии с научным проектом 2.1182.2017/4.6 «Разработка методов и средств автоматизации производственно-технологической подготовки агрегатно-сборочного самолетостроительного производства в условиях мультипродуктовой производственной программы», выполняемый научным коллективом Ульяновского государственного технического университета в рамках государственного задания Минобрнауки РФ.

Статьи представлены в авторской редакции. © Коллектив авторов, 2019 ISBN 978-5-9795-1900-5 © Оформление, УлГТУ, 2019

Page 4: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

3

Оргкомитет ПИС–2018: Председатель:

Ярушкина Н.Г., д.т.н., проф., УлГТУ, г. Ульяновск Сопредседатель:

Семушин И.В., д.т.н., проф., УлГУ, г. Ульяновск Заместитель Председателя:

Афанасьева Т.В., д.т.н., проф., УлГТУ, г. Ульяновск Члены организационного комитета:

Гуськов Г.Ю., УлГТУ, г. Ульяновск Мошкин В.С., к.т.н., УлГТУ, г. Ульяновск Наместников А.М., к.т.н., доцент, УлГТУ, г. Ульяновск Мошкина И.А., к.т.н., УлГТУ, г. Ульяновск Филиппов А.А., к.т.н., УлГТУ, г. Ульяновск Эгов Е.Н., УлГТУ, г. Ульяновск Программный комитет ПИС–2018:

Председатель: Ярушкина Н.Г., д.т.н., проф., УлГТУ, г. Ульяновск

Заместитель Председателя: Афанасьева Т.В., д.т.н., проф., УлГТУ, г. Ульяновск

Члены программного комитета: Гуськов Г.Ю., УлГТУ, г. Ульяновск Мошкин В.С., к.т.н., УлГТУ, г. Ульяновск Наместников А.М., к.т.н., доцент, УлГТУ, г. Ульяновск Мошкина И.А., к.т.н., УлГТУ, г. Ульяновск Филиппов А.А., к.т.н., УлГТУ, г. Ульяновск

Page 5: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

4

V Всероссийская научно-практическая мультиконференция с международным участием

Прикладные информационные системы-2018

V Всероссийская научно-практическая мультиконференция с международным участием «Прикладные информационные системы-2018» проведена на базе Ульяновского государственного технического университета при поддержке Российской ассоциации искусственного интеллекта, а также Российской ассоциации нечетких систем и мягких вычислений.

В рамках мультиконференции «Прикладные информационные системы-2017» состоялась научно-практическая конференция «Нечеткие системы и мягкие вычисления. Промышленные применения», которая была проведена в соответствии с научным проектом 2.1182.2017/4.6 «Разработка методов и средств автоматизации производственнотехнологической подготовки агрегатно-сборочного самолетостроительного производства в условиях мультипродуктовой производственной программы», выполняемый научным коллективом Ульяновского государственного технического университета в рамках государственного задания Минобрнауки РФ.

В рамках конференции было представлено более двадцати научных докладов по следующим тематикам: «Интеллектуальный анализ данных», «Инженерия знаний, онтологий, управления знаниями», «Нечеткие системы и мягкие вычисления. Промышленные применения», «Проектирование информационных систем». Также в рамках конференции была проведена Молодежная школа-семинар, в которой участвовали студенты и магистранты технических специальностей.

Организационный комитет благодарит авторов докладов, приславших свои работы на конференцию, а также ректорат Ульяновского государственного технического университета, обеспечивший проведение конференции и издание ее материалов.

Председатель организационного комитета конференции доктор технических наук, профессор Н.Г. Ярушкина

Page 6: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

5

СОДЕРЖАНИЕ

Иванова А.В. Автоматизация анализа вибросостояния гидроагрегата .. 9

Габитова А.Р., Кувайскова Ю.Е. Анализ эффективности методов машинного обучения для решения задачи классификации ........................ 17

Бужерак Ю.Э., Горбачев И.В., Краус Д.Г. Виртуальный лабораторный стенд РЛС ........................................................................................................ 23

Ширкунова К.С., Клячкин В.Н. Выявление нарушений процесса очистки сточных вод по критерию многомерного рассеяния .................... 29

Кувайскова Ю.Е., Федорова К.А. Информационная система диагностики и прогнозирования технического состояния объекта ........... 36

Шеянова И.Н. Исследование и разработка методов динамической генерации графического интерфейса пользователя для веб-приложений . 42

Юхно И.В., Афанасьева Т.В. Исследование и разработка системы автоматизации оценивания успешности программных проектов .............. 51

Полбин А.Е. Исследование и разработка системы автоматизации создания и анализа отчетов в управлении качеством ПО ........................... 61

Фронина М.М. Исследование применения методов выявления схожих объектов в задаче построения модели, позволяющей проводить идентификацию физических лиц .................................................................. 69

Воронина В.В., Золотова К.П. Исследование применения методов интеллектуального анализа текста в задаче выявления схожих пользовательских запросов ............................................................................ 79

Булатова В.Ф. Кластерный анализ с помощью программы ALISOFT 87

Жуков Д.А., Клячкин В.Н. Критерии качества оценки исправности технического объекта ..................................................................................... 95

Долгановская А.Ю., Ярушкина Н.Г. Методика разработки онтологии в предметной области программной инженерии .......................................... 101

Камалетдинова Л.Р., Романов А.А. Моделирование пользователя информационного ресурса для формирования рекомендаций ................. 110

Крашенинников В.Р., Субботин А.Ю. Модели систем квазипериодических процессов в виде отсчетов по спирали на дважды стохастических цилиндрических изображениях ....................................... 123

Page 7: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

6

Ишмуратова Г.Р., Ярушкина Н.Г. Представление и обработка нечетких временных рядов на основе FUZZY OWL ................................. 132

Афанасьева Т.В., Максимов Д.А. Применение F-преобразования в задаче адаптации качества видео потока для передачи в беспроводных сетях ............................................................................................................... 142

Савенкова Е.А., Воронина В.В. Применение методов системного анализа для решения задачи выбора инструмента автотестирования мобильных приложений ............................................................................... 149

Михайлова Е.С. Прогнозирование временных рядов с использованием комбинации лингвистических и временных критериев ............................ 161

Горбунова Д.Г., Демкина Н.А., Костина С.Н. Проектирование информационной системы для управляющих компаний .......................... 167

Нгуен Н.К., Ку Д.Т., Нуриев Н.К. Проектирование образовательных систем нового поколения с цифровыми технологиями подготовки ........ 174

Григоричева М.С., Филиппов А.А. Разработка и исследование лингвистических методов анализа текстовых запросов пользователя .... 184

Рахманова Э.И., Филиппов А.А. Разработка и исследование методов интеграции корпоративных информационных систем с применением платформы 1С: Предприятие 8 .................................................................... 192

Микина К.С., Тронин В.Г. Разработка системы поддержки научного проекта с использованием ресурсов научной социальной сети ............... 202

Свиязова О.А. Разработка системы сравнения текстовых сообщений для повышения релевантности ответа на поисковой запрос на основе нейронных сетей рекуррентного типа ........................................................ 212

Лукьянова А.А., Максимов Д.А., Куркина С.В. Разработка экспертной системы диагностики заболевания на основе результатов клинических лабораторных исследований ........................................................................ 218

Солдатов А.В. Система управления автономным беспилотным роботом в ограничениях соревнования ROBOFEST ................................. 228

Сёмин С.А. Сравнение методов машинного обучения в задаче бинарной классификации ............................................................................. 238

Авторский указатель ............................................................................... 244

Page 8: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

7

CONTENTS

Ivanova A.V. Automation of analysis vibration hydraulic unit ..................... 9

Gabitova A.R., Kuvayskova Yu.E. The analysis of efficiency of methods of machine learning for the solution of the problem of classification ................... 17

Buzherak Ju.E., Gorbachev I.V., Kraus D.G. Virtual laboratory stand of radar systems .................................................................................................... 23

Shirkunova K.S., Klyachkin V.N. Evaluation of the influence of correlated parameters on the stability of wastewater treatment in the production of printed circuit boards .................................................................................................... 29

Kuvayskova Yu.E., Fedorova K.A. Information system of diagnostics and forecasting of the technical state of the object .................................................. 36

Sheyanova I.N. Research and development of methods for dynamic generation of a graphic user interface for web applications ............................. 42

Yuhno I.V., Afanasjeva T.V. Research and development of the system for automatization for assessing the success of the program projects .................... 51

Polbin A.E. Research and development of automation system of creation and analysis of reports in software quality management .................................. 61

Fronina M.M. Research of the application of methods identification of similar objects for solving the problem of construction of model, allowing the identification of physical persons ..................................................................... 69

Voronina V.V., Zolotova K.P. Study of application of methods of text mining in the task of identifying similar user queries ....................................... 79

Bulatova V.F. Cluster analysis with ALISOFT program ............................ 87

Zhukov D.A., Klyachkin V.N. Statement of the object of the technical object .. 95

Dolganovskaya A.Yu., Yarushkina N.G. Methodology of development of ontology in the subject field of program engineering ..................................... 101

Kamaletdinova L.R., Romanov A.A. Modeling the user of the information resource to making recommendations ............................................................ 110

Krasheninnikov V.R., Subbotin A.Yu. Models of systems of quasiperiodic processes as values on spirals on double stochastic cylindrical images ......... 123

Ishmuratova G.R., Yarushkina N.G. Presentation and processing of fuzzy time series based on FUZZY OWL ................................................................ 132

Page 9: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

8

Afanasieva T.V., Maksimov D.A. Application of F-transformation in the adaptation of video stream quality in wireless networks ................................ 142

Savenkova Е.А., Voronina V.V. Application of system analysis methods to solve the instrument choice problem of self-test mobile apps ........................ 149

Mikhailova E.S. Forecasting time series using a combination of linguistic and temporal criteria ....................................................................................... 161

Gorbunova D.G., Demkina N.А., Kostina S.N. Designing an information system for management companies ................................................................ 167

Nguyen N.N., Cu D.T., Nuriev N.K. Designing the educational systems of new generation by digital technologies........................................................... 174

Grigoricheva M.S., Filippov A.A. Development and research of linguistic methods of analysis of text user requests ........................................................ 184

Rahmanova E.I., Filippov A.A. Development and investigation of methods of integration of corporate informational systems with application of platform 1C: Enterprise 8 .............................................................................................. 192

Mikina K.S., Tronin V.G. Development of the scientific project support system using the resources of the scientific social network ............................ 202

Sviyazova O.A. Development of the text messages comparison system for increasing relevance of the response to a search query based on recurrent neural networks ......................................................................................................... 212

Lukyanova A.A., Maksimov D.A., Kurkina S.V. Development of desease diagnosis expert system based on clinical laboratory results .......................... 218

Soldatov A.V. System of management of autonomic unbeanless robots in the limitations of ROBOFEST competition T ...................................................... 228

Semin S.A. Comparsion of machine learning methods in binary classifcation .. 238

AUTHORS INDEX ................................................................................. 244

Page 10: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

9

УДК 519.248:658.518.5

АВТОМАТИЗАЦИЯ АНАЛИЗА ВИБРОСОСТОЯНИЯ ГИДРОАГРЕГАТА

Иванова А.В. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В работе описываются методика исследования вибрационного состояния гидроагрегата с помощью разработанной программы. Целью анализа является повышение надежности и стабильности гидроагрегата путем раннего обнаружения нарушений процесса.

Ключевые слова: гидроагрегат, вибрации, виброконтроль, многомерный статистический контроль технологических процессов

Введение

Надёжность эксплуатации гидроагрегатов гидроэлектрических станций определяется рядом факторов. К числу таких факторов можно отнести уровень вибраций как целого агрегата, так и отдельных его узлов. Результатом повышенной вибрации являются многочисленные случаи поломок и повреждений деталей гидроагрегатов. Вибрация характеризует состояние агрегата только после его пуска в эксплуатацию, так как гидроагрегаты в отличие от других машин могут быть проверены лишь на месте установки в собранном виде.

Для оценки параметров вибраций гидроагрегата используется распределенная сеть датчиков относительной и абсолютной вибрации, а также датчиков измерения скорости вращения вала [Владиславлев, 1972], которая входят в состав общей системы управления гидроагрегатом. Результаты виброконтроля позволяют достаточно объективно судить о состоянии гидроагрегата.

Данные о параметрах вибраций, полученные с помощью датчиков, представляют собой систему временных рядов. Поэтому, построив соответствующие математические модели, можно обнаружить нарушения процесса до того? как контролируемые параметры превысили свои допустимые значения и вовремя разработать мероприятия по их устранению.

Page 11: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

10

1 Предварительная обработка исходных данных

При оценке и контроле стабильности вибраций должны использоваться значения вибрации, полученные с помощью системы вибрационного контроля, в установившихся режимах работы гидроагрегата. Все переходные процессы (пуск, разгонный режим, останов), сопровождаются повышением вибрации узлов гидроагрегата, и это не является свидетельством наличия каких-либо неисправностей.

Системой управления гидроагрегатом на Краснополянской ГЭС (Краснодарский край) фиксировались показания биения вала и вибраций гидроагрегата [Иванова и др., 2017a]. Исходные данные содержат 10 показателей: Х1-Х2 – вибрации нижнего генераторного подшипника верхнего бьефа и на правом берегу, Х3-Х4 – соответствующие вибрации верхнего генераторного подшипника, Х5-Х6 – бой вала гидротурбины, нижний бьеф и правый берег соответственно, Х7-Х8 – бой вала гидрогенератора, Х9-Х10 – вибрации крышки гидротурбины.

На рисунке 1 показана упрощенная структура передачи данных от датчиков вибраций, установленных на гидроагрегате в общую систему управления гидроагрегатом.

Рисунок 1 – Структурная схема автоматизированной системы управления

Вследствие того, что совокупность выборочных данных содержит большое количество наблюдений и вручную производить вычисления такого объема невозможно, была разработана программа, с помощью

Page 12: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

11

которой можно осуществлять графическое представление данных, различные варианты усреднения данных, анализировать корреляции с проверкой их значимости, построение карт Хотеллинга и обобщенной дисперсии для анализа стабильности процесса вибраций.

Для выявления участков установившейся режима гидроагрегата вибрации усреднялись по времени. На рисунке 2 представлены графики вибраций при усреднении их значений по 15 сек.

Рисунок 2 – Графики вибраций контролируемых параметров

При наличии нескольких показателей, характеризующих процесс, необходимо проверить наличие связей между параметрами, т.к. независимый контроль по отдельным показателям, в случае наличия связей может привести к значительным погрешностям [Клячкин и др., 2016].

Для определения корреляции между исследуемыми параметрами построим корреляционную матрицу для усредненных данных с проверкой значимости по критерию Стьюдента. На рисунке 3 значимые корреляции выделены цветом.

Page 13: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

12

Рисунок 3 – Корреляционная матрица

Корреляционная матрица свидетельствует о наличии связи между параметрами Х2 и Х7, (вибрацией нижнего генераторного подшипника на правом берегу и боем вала гидрогенератора на нижнем бьефе) между Х5 и Х6 (боем вала гидротурбины на нижнем бьефе и на правом береге) [Иванова и др., 2017b].

Следовательно, независимые показатели Х1, Х3-Х4 и Х8-Х10 должны анализироваться с помощью стандартных карт Шухарта для контроля среднего уровня и рассеяния [Клячкин, 2009].

Для оценки стабильности процесса по коррелированным параметрам Х2-Х7 и Х5-Х6 будет использована карта Хотеллинга – для контроля средних значений, и карта обобщенной дисперсии – для контроля рассеяния параметров [Клячкин, 2011].

2 Контроль независимых параметров

Для каждого из независимых показателей строятся карта средних значений и карта стандартных отклонений. На рисунке 4 приведены соответствующие карты для параметра Х1, построенные в системе Statistica.

О стабильности процесса должны свидетельствовать обе контрольные карты, кроме того не должны наблюдаться неслучайные структуры: тренды, цикличность, резкие скачки на карте и проч. [Уилер и др., 2009]. Как видно из рисунка, процесс по параметру Х1 находится в статистически управляемом состоянии. Построение соответствующих контрольных карт свидетельствуют о стабильности процесса и по остальным параметрам.

Page 14: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

13

Рисунок 4 – Контрольные карты Шухарта для параметра Х1

3 Контроль коррелированных параметров

При многомерном контроле в качестве характеристики среднего уровня процесса применяется обобщенная статистика Хотеллинга, а многомерное рассеяние характеризуется обобщенной дисперсией – определителем ковариационной матрицы [Bersimis, 2007].

На рисунках 5 и 6 представлены карты Хоттеллинга и обобщенной дисперсии для пары коррелированных показателей Х2-Х7, построенных с помощью разработанной программы.

В случае отсутствия выходов точек за контрольные границы на всех используемых картах по всем контролируемым параметрам можно сделать вывод о стабильности контролируемого процесса, в противном случае необходим дальнейших анализ по выявлению причин нестабильности и принятию корректирующих действий для стабилизации процесса.

Page 15: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

14

Рисунок 5 – Карта Хотеллинга для коррелированных параметров Х2-Х7

Рисунок 6 – Карта обобщенной дисперсии для коррелированных параметров Х2-Х7

Page 16: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

15

4 Заключение

Для проведения вибромониторинга гидроагрегата разработана программа, с помощью которой возможна обработка файлов с данными, которые поступают от датчиков вибраций (усреднение по задаваемому критерию, визуальное представление усредненных данных, расчет корреляции между параметрами с оценкой их значимости), провести – при необходимости - нормализации данным на основе логарифмирования, построение карт Хотеллинга и обобщенной дисперсии (с оценкой ее параметров [Иванова и др., 2017с]), что позволяет спрогнозировать возможное нарушение процесса еще до его наступления и тем самым обеспечить статистическую управляемость процесса.

Список литературы

[Боровиков, 2001] Боровиков В. STATISTICA: искусство анализа данных. Для профессионалов. – СПб.: Питер, 2001. – 656 с.

[Владиславлев, 1972] Владиславлев, Л. А. Вибрация гидроагрегатов гидроэлектрических станций. – М. : Энергия, 1972. – 153 с.

[Иванова и др., 2017a] Иванова А.В., Клячкин В.Н., Кувайскова Ю.Е. Предварительная обработка данных при контроле стабильности вибраций // Радиоэлектронная техника. 2017. 1 (10). С. 174-177.

[Иванова и др., 2017b] Иванова А.В., Клячкин В.Н. Статистический анализ

данных о вибрациях гидроагрегата // В сборнике: Прикладная математика и информатика: современные исследования в области естественных и технических наук Материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. 2017. С. 218-221

[Иванова и др., 2017с] Иванова А.В., Клячкин В.Н. Оценка эффективности алгоритма обобщенной дисперсии по результатам статистических испытаний // Современные проблемы проектирования, производства и эксплуатации

радиотехнических систем. 2017. 1-2 (10). С. 186-188. [Клячкин, 2009] Клячкин В.Н. Статистические методы в управлении

качеством: компьютерные технологии / В.Н. Клячкин. – М.: Финансы и статистика, ИНФРА-М, 2009. – 304 с.

[Клячкин, 2011] Клячкин В.Н. Модели и методы статистического контроля многопараметрического технологического процесса. – М.: ФИЗМАТЛИТ, 2011. – 196 с.

[Клячкин и др., 2016] Клячкин В.Н., Кувайскова Ю.Е., Алексеева В.А. Статистические методы анализа данных. – М. : Финансы и статистика, 2016. –240 с.

Page 17: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

16

[Стандарт, 2006] Стандарт организации ОАО РАО «ЕЭС России». Методика оценки технического состояния основного оборудования гидроэлектростанций. СТО 17330282.27.140.001-2006.

[Уилер и др., 2009] Уилер Д., Чамберс Д. Статистическое управление процессами. Оптимизация бизнеса с использованием контрольных карт Шухарта. М.: Альпина Бизнес Букс, 2009. 409 c.

[Bersimis, 2007] Bersimis S., Psarakis S., Panaretos J. Multivariate Statistical Process Control Charts: An Overview // Quality and reliability Engeneering International. 2007. V. 23. рр. 517–543.

[Montgomery, 2009] Montgomery D.C. Introduction to statistical quality control. – New York: John Wiley and Sons, 2009. – 754 р.

[Ryan, 2011] Ryan T. P. Statistical methods for quality improvement, New York, John Wiley and Sons, 2011. 687 р.

AUTOMATION OF ANALYSIS VIBRATION HYDRAULIC UNIT

Ivanova A.V. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper describes a technique for estimating the statistical controllability of the vibrational state of a hydroelectric unit by means of a developed software product. The purpose of this technique is to increase the reliability and stability of the hydraulic unit by early detection of process disturbances.

Keywords: hydrounit, vibration, vibration control, multivariate statistical control of technological processes

Page 18: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

17

УДК 519.248:681.518.5

АНАЛИЗ ЭФФЕКТИВНОСТИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ

ЗАДАЧИ КЛАССИФИКАЦИИ

Габитова А.Р. ([email protected]) Кувайскова Ю.Е. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В статье задача классификации решается с использованием методов машинного обучения. Для повышения точности результатов классификации предлагается использование бэггинг-подхода. Проводится анализ эффективности методов с помощью критериев качества: дисперсия ошибок наблюдений, F-мера, критерий AUC.

Ключевые слова: бэггинг, задача классификации, кросс-валидация, машинное обучение

Введение

С целью получения прогнозов состояний различных объектов в медицинской диагностике, технической диагностике [Клячкин и др., 2017], оценивании кредитоспособности заемщиков [Алексеева и др., 2017] и других областях требуется решить задачу классификации, то есть отнести состояние объекта к одному из классов, например, к исправным или неисправным, кредитоспособным или некредитоспособным и т.д.

Для решения этой задачи могут быть построены различные математические и статистические модели [Васильев и др., 2017; Валеев и др., 2007; Клячкин и др., 2016; Кувайскова и др., 2016], по которым проводится оценка и прогнозирование состояния объектов. Другим подходом являются методы машинного обучения [Witten et al., 2005; Воронина и др., 2017], идея которых состоит в построении обучающих моделей и прогнозировании состояния объекта на их основе.

В настоящей статье для повышения точности классификации предлагается комбинирование результатов методов машинного обучения с помощью бэггинг-подхода. Для анализа эффективности методов используются критерии: дисперсия ошибок прогнозирования, F-мера и критерий AUC.

Page 19: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

18

1 Постановка задачи классификации

Пусть некоторый объект Y характеризуется набором m признаков X = x1, x2, …, xm. Каждому значению вектора признаков X соответствует состояние объекта: Y = 1, если объект исправен, и Y = 0, если неисправен. Между значениями признаков X и состояниями объекта Y имеется некоторая зависимость, но она неизвестна. Известна только исходная совокупность пар «признаки объекта, состояние объекта», называемая обучающей выборкой. По обучающей выборке требуется построить модель, способную с достаточной точность предсказать, в каком состоянии будет находиться объект при новом значении вектора признаков.

Задача классификации решается по следующему принципу: если прогнозируемая вероятность PY = 1 | X > 0,5, то объект принадлежит классу Y = 1, в противном случае объект принадлежит классу Y = 0.

Для решения задачи классификации будем применять методы машинного обучения по прецедентам: логистическая регрессия, наивный байесовский классификатор, дискриминантный анализ, метод опорных векторов и деревья решений [Воронина и др., 2017; Клячкин и др., 2017].

2 Критерии качества классификации

Для анализа эффективности классификации исходная выборка данных разбивается на обучающую, по которой строится модель классификатора, и контрольную (тестовую), по которой вычисляются критерии качества и оценивается точность классификации.

2.1 Дисперсия ошибок прогнозирования Дисперсия ошибок прогнозирования характеризует отклонение

предсказываемых классов от классов, к которым на самом деле принадлежат наблюдения объекта: = − , (1)

где ( ) и ( ) – соответственно известная и прогнозируемая вероятность принадлежности к классу j-го наблюдения объекта, k – количество наблюдений в тестовой выборке.

2.2 F-мера В случае, когда в обучающей выборке число исправных состояний

объекта значительно превышает число неисправных, применяются такие характеристики, как точность P и полнота R: = , = , (2)

где TP – количество правильно классифицированных исправных состояний, когда Y = 1; FP – количество неправильно

Page 20: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

19

классифицированных исправных состояний, FN – количество неправильно классифицированных неисправных состояний объекта, когда Y = 0.

На основе этих показателей вычисляется F-мера: = . (3)

При близости величины F к единице считается, что качество классификации выше.

2.3 Критерий AUC Критерий AUC характеризует площадь, ограниченную ROC-кривой

[Алексеева и др., 2017; Воронина и др., 2017] и осью доли неправильно классифицированных исправных состояний. В случае двух классов состояний объекта (Y = 1 и Y = 0) критерий AUC вычисляется по формуле: = , (4)

где FPR – это доля неправильно классифицированных исправных состояний (Y = 1), а TPR – доля правильно классифицированных исправных состояний (Y = 1).

Чем выше показатель AUC, тем качественнее результаты классификации. Если AUC = 0,5, то результат классификатора эквивалентен случайному значению. При AUC < 0,5 значения, выдаваемые моделью классификатора, переворачиваются.

2.4 Кросс-валидация Для получения несмещенных оценок критериев качества предлагается

использовать метод L-кратной перекрестной проверки (кросс-валидацию), суть которого заключается в разделении исходной выборки на L непересекающихся частей, равных по объему. Далее каждая часть выступает в роли контрольной выборки, а остальные части объединяются в обучающую выборку. Итоговая оценка качества метода определяется усреднением ошибок по всем L контрольным выборкам. Эта процедура позволяет исключить возможность «подгонки» модели к наилучшим прогнозным характеристикам.

3 Применение бэггинг-подхода

Для улучшения надежности результатов классификации применяются методы ансамблей, одним из которых является бэггинг [Breiman et al., 1996]. Идея бэггинга состоит в построении множества моделей по наблюдениям, полученным с помощью бустреп-метода, суть которого заключается в следующем. Имеется исходная выборка, из которой откладывается некоторая часть для тестирования моделей, а из оставшейся части формируется множество выборок для обучения модели на основе случайного выбора с повторениями. На выходе результаты, полученные для всех выборок, комбинируются путем усреднения:

Page 21: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

20

( ) = , (5)

где ( ) – прогнозируемая вероятность принадлежности к классу j-го наблюдения объекта для i-й выборки, l – количество бустреп-выборок.

4 Сравнение эффективности методов классификации

Для оценки эффективности методов машинного обучения была проведена классификация состояния некоторого объекта, содержащего 348 наблюдений, с использованием бэггинга в отношении базовых методов (дискриминантного анализа (ДА), наивного байесовского классификатора (НБК), логистической регрессии (ЛР), метода опорных векторов (МОВ), деревьев решений (ДР)) и без него.

Для получения несмещенных оценок критериев качества была реализована кросс-валидация с делением исходной выборки на 10 частей.

Вычисления были проведены в среде программирования Matlab, в которой были реализованы бэггинг-подход и описанные критерии качества классификации.

Результаты расчетов для всех ситуаций представлены в таблице 1. Таблица 1 – Критерии качества классификации

Методы

Критерии качества Без бэггинга С бэггингом

F AUC F AUC ДА 0,159 0,672 0,775 0,156 0,666 0,769

НБК 0,169 0,635 0,747 0,166 0,621 0,734

ЛГ 0,142 0,617 0,732 0,137 0,612 0,728

МОВ 0,149 0,679 0,779 0,148 0,661 0,765

ДР 0,124 0,669 0,774 0,118 0,687 0,784

Из представленных результатов следует, что применение бэггинг-подхода позволяет снизить дисперсию ошибок прогнозирования для всех методов на 2%–5%. Однако по F-мере и критерию AUC применение бэггинга повышает качество классификации только для метода деревьев решений.

5 Заключение

Применение бэггинг-подхода для решения задачи классификации позволило снизить дисперсию ошибок классификации для

Page 22: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

21

рассмотренного объекта в среднем на 3% по сравнению с базовыми методами. Однако применение бэггинга не повысило точность классификации по F-мере и критерию AUC. Таким образом, можно сделать вывод, что качество классификации зависит от многих факторов: количества данных в исходной выборке, числа исправных и неисправных состояний объекта в обучающей выборке, количества бустреп-выборок в бэггинге, способа разделения выборки на обучающую и контрольную и других.

Список литературы

[Алексеева и др., 2017] Алексеева В.А., Кувайскова Ю.Е. Информационно-математическая система прогнозирования кредитоспособности заемщиков банка // Информационные технологии и нанотехнологии (ИТНТ-2017): сборник трудов III международной конференции и молодежной школы / Самарский национальный исследовательский университет имени академика С.П. Королева. 2017. С. 1879-1833.

[Васильев и др., 2017] Васильев К.К., Крашенинников В.Р. Статистический анализ последовательностей изображений. – М. : Радиотехника, 2017. 248 с.

[Валеев и др., 2007] Валеев С.Г., Кувайскова Ю.Е. Использование ARCH-структур и фильтра Калмана для моделирования динамики технико-экономических показателей // Вестник Ульяновского государственного технического университета. 2007. 2 (38). С. 29-33.

[Воронина и др., 2017] Воронина В.В., Михеев А.В., Ярушкина Н.Г., Святов К.В. Теория и практика машинного обучения. – Ульяновск : УлГТУ, 2017. 290 с.

[Клячкин и др., 2016] Клячкин В.Н., Кувайскова Ю.Е., Алексеева В.А. Статистические методы анализа данных. – М. : Финансы и статистика, 2016. 240 с.

[Клячкин и др., 2017] Клячкин В.Н., Кувайскова Ю.Е., Жуков Д.А. Использование агрегированных классификаторов при технической диагностики на базе машинного обучения // Информационные технологии и нанотехнологии (ИТНТ-2017): сборник трудов III международной конференции и молодежной школы / Самарский национальный исследовательский университет имени академика С.П. Королева. 2017. С. 1770-1773.

Page 23: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

22

[Кувайскова и др., 2016] Кувайскова Ю.Е., Алешина А.А. Применение адаптивного регрессионного моделирования при описании и прогнозировании технического состояния объекта // Автоматизация процессов управления. 2016. 4 (46). С. 35-40.

[Breiman et al., 1996] Breiman L. Bagging Predictors // Machine Learning. 1996. V. 24 (2). P. 123-140.

[Witten et al., 2005] Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques. – San Francisco: Morgan Kaufmann Publishers, 2005. 525 р.

THE ANALYSIS OF EFFICIENCY OF METHODS OF

MACHINE LEARNING FOR THE SOLUTION OF THE PROBLEM OF CLASSIFICATION

Gabitova A.R. ([email protected]) Kuvayskova Yu.E. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

In the article the classification problem is solved using the methods of machine learning. To improve the accuracy of the classification results, it is suggested to use a bagging approach. An analysis of the effectiveness of methods is performed using quality criteria: variance of observation errors, F-measure, AUC criterion.

Keywords: bagging, problem of classification, cross-validation, machine learning

Page 24: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

23

УДК 621.391.2

ВИРТУАЛЬНЫЙ ЛАБОРАТОРНЫЙ СТЕНД РЛС

Бужерак Ю.Э. ([email protected]) Горбачев И.В. ([email protected]) Краус Д.Г. (kraus_bak @mail.ru)

Ульяновский государственный технический университет, Ульяновск

Рассматриваются целесообразность и перспективы применения в образовательном процессе виртуальных лабораторных стендов для изучения процессов преобразования сигналов в радиолокационных станциях. Описываются основные возможности интерактивной среды программирования MATLAB для построения моделей радиолокационных станций. Приведен пример виртуальной модели. Проанализированы требования к виртуальному стенду.

Ключевые слова: моделирование, функциональная модель, виртуальный стенд, имитационное моделирование, радиолокационная станция

Введение

Современное развитие информационных технологий позволяет повысить эффективность как производственных, так и образовательных процессов, за счет внедрения различных технологических решений. Одним из таких решений может быть программно-аппаратный комплекс в виде виртуального лабораторного стенда. Подобная технология необходима для инженерной деятельности и предназначена, в первую очередь, для замены дорогостоящего реального объекта управления, который позволяет проводить исследования без непосредственного контакта с реальной установкой или при полном ее отсутствии, что позволит сократить расходы на покупку лабораторного комплекса.

Анализ доступных на рынке лабораторных стендов для изучения радиолокационных систем (РЛС) позволяет прийти к выводу, что они направлены в основном на формирование знаний и понимание физических принципов работы РЛС. Но будущему проектировщику также необходимо и формирование понимание особенностей разработки устройств в зависимости от условий, заданных в техническом задании (в

Page 25: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

24

учебном задании в процессе обучения) для выбора оптимального варианта построения устройств [Горбачев, 2017]. Кроме того, нужно учитывать известный факт, что устранение ошибок проектирования на поздних этапах разработки изделий достаточно дорогостоящий процесс. Поэтому приучить будущего инженера к проверке проектируемого изделия на электронной модели с использованием средств моделирования не менее важно, чем заложить в него необходимые фундаментальные знания.

Существующее множество систем моделирования создает широкие возможности для решения задач моделирования и анализа радиолокационных систем. Одной из наиболее популярных и хорошо зарекомендовавших себя сред моделирования является система MATLAB [Голдсмит, 2011]. Она позволяет осуществлять имитационное моделирование устройств обработки сигналов, в том числе и РЛС.

Реализация процесса моделирование РЛС

В рамках исследовательской работы, с использованием средств системы MATLAB разрабатывается виртуальный лабораторный стенд для исследования функциональных моделей РЛС, наглядно демонстрирующий изменение параметров системы при варьировании входных данных [Бужерак, 2018]. Стенд позволяет контролировать такие характеристики, как ширина диаграммы направленности, разрешающая способность по скорости, время облучения, длительность импульса и др.

Один из вариантов исследования разработка модели приемника когерентно-импульсной РЛС (рисунок 1). В качестве входных параметров задаются дальность обнаружения, вероятность правильного обнаружения и вероятность ложной тревоги, параметры обнаружения (по азимуту, углу места, время обзора), предельные размеры антенны, время обзора, помехозащищенность, разрешение цели (по дальности, по азимуту, по углу места).

В соответствии с моделью принятый сигнал вместе с колебаниями с выхода гетеродина поступает в смеситель, где происходит перенос спектра сигнала в полосу частот усилителя промежуточной частоты, сигнал с выхода смесителя поступает на усилитель промежуточной частоты, где осуществляется его избирательное усиление на промежуточной частоте. Полезная информация об угле места цели содержится в фазе принимаемых сигналов. Для этого в схеме реализован фазовый детектор, с которого сигнал поступает на блок через периодной компенсации и затем уже на выходное устройство (ЭВМ) (рисунок 2).

Page 26: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

25

Рисунок 1 – Функциональная схема приемника когерентно-импульсной РЛС

В результате необходимых расчетов находятся параметры РЛС, на основании которых в среде MATLAB строится модель приемника, которая позволяет анализировать сигнал на каждой стадии его прохождения, а также влияние параметров на рабочие характеристики РЛС.

Рисунок 2 – Пример построения функциональной схемы приемника РЛС в Simulink

3

При построении виртуальной функциональной схемы существует возможность, смоделировать источник сигнала и наглядно наблюдать изменение качества обнаружения целей при различных входных

Page 27: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

26

параметрах, вводить различные формы помех и многое другое, описав математически данный эффект.

Виртуальные стенды дают достаточно полную картину о возможностях РЛС: особенностях ее построения, позволяют детализировать каждый шаг прохождения сигнала, оперативно вносить конструктивные изменения и моментально наблюдать получаемый от этого эффект.

В качестве примера рассмотрим РЛС в передающем тракте. Для моделирования работы передающего тракта будем использовать систему имитационного блочного моделирования динамических систем Simulink.

Передающий тракт состоит из задающего генератора, умножителя частоты, усилителя сигнала, модулятора и полученный сигнал передается на антенный переключатель (рисунок 3).

Необходимо задать параметры генерируемого сигнала, этот сигнал поступает на умножитель частоты, затем на усилитель сигнала, где происходит его усиление до необходимых параметров.

Блок Fcn производит модуляцию сигнала. В блоке Fcn параметр Expression – это выражение, используемое блоком для вычисления выходного сигнала на основании входного. Это выражение составляется по правилам, принятым для описания функций на языке С.

Рисунок 3 – Передающий тракт

Рисунок 4 – Графии выходного сигнала передающего тракта

Page 28: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

27

Рисунок 5 – График сигнала на входе УВЧ приёмника

Для исследования параметров РЛС, надо изменять некоторые параметры, потому что входные параметры вносят изменения в другие характеристики радиолокационной станции.

Заключение

Таким образом, использование виртуального лабораторного стенда РЛС позволяет эффективно освоить компетенции, связанные с владением процессами разработки РЛС. Достижению данной цели способствует исследование студентами возможностей и других доступных систем моделирования, в частности, AnyLogic, которые позволяют разработать модели разнотипных РЛС и задавать различные режимы их работы. Очень важно также предусмотреть возможность выполнения студентами групповых заданий, для формирования компетенции по работе в команде.

Виртуальные стенды можно использовать и для научно-исследовательской работы студентов, например, при исследовании современных рекуррентных алгоритмов обнаружения [Ташлинский, 2017], [Tashlinskii, 2017] и оценивания [Ташлинский, 2015] в реальном времени разности времен прихода радиоимпульсов с пространственно разнесенных приемников.

Список литературы

[Бужерак, 2018] Бужерак Ю.Э., Краус Д.Г., Горбачев И.В. Функциональное моделирование радиолокационных систем в среде SIMULINK // Современные проблемы радиоэлектроники: сб. науч. тр. – Красноярск: Сиб. федер. ун-т,. 2018. С. 25-27.

[Голдсмит, 2011] Голдсмит А. Беспроводные коммуникации / пер. с англ. – М.: Техносфера, 2011. – 904 с.

[Горбачев, 2017] Горбачев И.В., Краус Д.Г., Бужерак Ю.Э. Виртуальный лабораторный стенд для имитационного моделирования радиолокационных систем // Информационно-измерительные и управляющие системы. 2017. Т. 15. 12. С. 20-23.

[Tashlinskii, 2017] Tashlinskii, A.G. Detection of radio pulses in unfiltered signals received by spatially distributed receivers / A.G. Tashlinskii, M.G. Tsaryov // Procedia Engineering. – 2017. V. 201. – P. 296-301. – DOI: 10.1016/j.proeng.2017.09.637

Page 29: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

28

[Ташлинский, 2017] Ташлинский, А.Г. Обнаружение радиоимпульсов по нефильтрованным сигналам с пространственно разнесенных приемников / А.Г. Ташлинский, М.Г. Царёв // Информационные технологии и нанотехнологии (ИТНТ-2017): Сборник трудов III международной конференции и молодежной школы 25-27 апреля. – Самара: Новая техника, 2017. – С. 576-580.

[Ташлинский, 2015] Ташлинский А.Г. Алгоритм оценивания временного сдвига радиоимпульсов с разнесенных приемников / Топорков Н.В., Потапова Т.П., Царев М.Г. // Радиотехника. 2015. 6. С. 24–28.

VIRTUAL LABORATORY STAND OF RADAR SYSTEMS

Buzherak Ju.E. ([email protected]) Gorbachev I.V. ([email protected])

Kraus D.G. (kraus_bak @mail.ru) Ulyanovsk State Technical University, Ulyanovsk

The necessity of development and prospect of application in the educational process of virtual laboratory stands for studying the processes of signal processing in the modules of radar systems is considered. The main features of the modules of the MATLAB package for building models of radar systems are described. An example of a virtual model of a coherent-impulse radar system is given, a functional scheme of a receiver is described. Problems are described, the solution of which is required for constructing a virtual stand of radar systems.

Keywords: modeling, functional model, virtual stand, simulation modeling, radar station

Page 30: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

29

УДК 519.248:681.518.5

ВЫЯВЛЕНИЕ НАРУШЕНИЙ ПРОЦЕССА ОЧИСТКИ СТОЧНЫХ ВОД ПО КРИТЕРИЮ МНОГОМЕРНОГО

РАССЕЯНИЯ

Ширкунова К.С. ([email protected]) Клячкин В.Н. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В статье предложена методика мониторинга процесса очистки сточных вод при производстве печатных плат с помощью статистического управления процессами и выявления нарушений стабильности процесса по критерию многомерного рассеяния.

Ключевые слова: мониторинг, печатные платы, очистка сточных вод, контрольные карты, обобщенная дисперсия

1 Введение

Производство печатных плат наносит серьезный ущерб окружающей среде из-за наличия в сточных водах ионов тяжелых металлов [Алексеев, 2013]. Имеются данные по химическому составу сточных вод при производстве печатных плат на предприятии с частотой снятия показаний один раз в 4-7 дней. Контролируется стабильность процесса очистки воды. Для решения задачи могут быть использованы методы статистического контроля процессов [Уилер, 2009], [Клячкин, 2009].

Часть показателей независимы между собой, а часть - коррелированы. Исследование коррелированных показателей возможно с помощью многомерных контрольных карт, однако этот вариант показывает только факт нарушения процесса, но не указывает, с каким из контролируемых показателей он связан. Контроль среднего уровня процесса проводится с применением алгоритма Хотеллинга, для контроля многомерного рассеяния процесса используют алгоритм обобщенной дисперсии.

Целью работы является разработка методики статистического контроля стабильности процесса очистки сточных вод при производстве печатных плат по критерию многомерного рассеяния с выявлением показателей, «ответственных» за нарушение процесса.

Page 31: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

30

2 Алгоритм обобщенной дисперсии

При одномерном контроле процесса в качестве характеристики рассеяния используется размах или стандартное отклонение выборки. В многомерном случае аналогом этих характеристик является обобщенная дисперсия – определитель ковариационной матрицы.

Пусть контролируются р коррелированных показателей: m раз снимаются показания по р показателям путем взятия выборки объема n наблюдений. Выборочные значения обобщенной дисперсии |St| для каждой t-ойвыборки – это значения определителя ковариационной матрицы, структура которой:

ppts

tps

tps

pts

ts

ts

pts

ts

ts

tS

21

22221

11211

Элементы этой матрицы вычисляются по формуле:

))((1

1k

xikt

xj

xijt

xnjkt

s ,

где j

x и k

x - средние значения j-го (k-го) показателя соответственно.

Также вычисляются оценки средней ковариации по всем выборкам, которые образуют ковариационную матрицу S, определитель которой используется как оценка целевой обобщенной дисперсии |Σ0|:

m

tjkt

smjk

s1

1

Математическое ожидание обобщенной дисперсии находится по формуле:

|0

|1||

bs

m

При построении карты обобщенной дисперсии ее верхнюю и нижнюю контрольные границы можно найти, учитывая приближенную нормальность распределения, используя правило трех сигма:

)2

31

(|0

| bbLCL

UCL

Коэффициенты b1 и b2 определяются по формулам [Montgomery, 2009]:

p

jjn

pnb

1)(

)1(

11

Page 32: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

31

p

j

p

k

p

kknknjn

pnb

1 1 1)]()2()[(

)1(

12

Если значение нижней границы LCL окажется отрицательным, то принимается нулевое значение.

Рассчитав обобщенную дисперсию для пары коррелированных показателей (содержание железа и меди), получим карту, представленную на рисунке 1. Имеем два выхода за верхнюю контрольную границу – в 14 и 18 выборках. Таким образом, можем сделать вывод о том, что совместное влияние содержания железа и меди в сточных водах в 14 и 18 выборках дает сбой (выброс).

Рисунок 1 - Карта обобщенной дисперсии по содержанию железа и меди

3 Выявление показателя, «ответственного» за нарушение процесса очистки

Построенная карта не дает информации о том, какой из двух контролируемых показателей влияет на нарушение стабильности. Применим к картам обобщенной дисперсии метод, предложенный D.C.Montgomery для карт Хотеллинга: последовательное удаление одного из контролируемых показателей с построением карты не на р, а на р - 1 показателях. Очевидно, что такой подход должен работать и для карты обобщенной дисперсии.

В рассмотренном примере контроля содержания железа и меди в сточных водах всего два показателя, поэтому удаление одного из них приводит к построению карты Шухарта для характеристики рассеяния.

Контрольная карта стандартных отклонений показывает изменение показателя технологического рассеивания процесса. Построим контрольную карту стандартных отклонений для железа и меди. По рисункам 2 и 3 видим, что оба показателя нестабильны: железо имеет выходы за контрольную границу в 4, 5, 13, 21 наблюдениях, а медь – в 14 и 18 наблюдении. Таким образом, можно сказать, что карта обобщенной дисперсии верно показала выбросы в 14 и 18 точках. Однако сравнивая

Page 33: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

32

эти результаты с картой по рисунку 1 можно сделать вывод, что выбросы по содержанию меди являются ложными: они связаны с неправомерностью одномерного контроля для коррелированных показателей. Выбросы же по содержанию меди подтверждаются и той, и другой картами, таким образом, нарушение стабильности процесса связано именно с повышенным содержанием меди.

Рисунок 2 - Карта стандартных отклонений для содержания железа

Рисунок 3 – Карта стандартных отклонений для содержания меди

4 Другие примеры

Аналогичным образом рассмотрим другие примеры, чтобы проверить работоспособность изложенного метода. На карте обобщенной дисперсии по содержанию нитритов и фосфатов (рисунок 4) выходов за контрольные границы нет, однако есть несколько значений, значительно отклоняющихся от остальных значений (наблюдения 3, 7, 14, 16).

Page 34: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

33

Рисунок 4 - Карта обобщенной дисперсии для содержания нитритов NO2 и фосфатов

Рисунок 5 – Карта стандартных отклонений для содержания нитритов

Рисунок 6 – Карта стандартных отклонений для содержания фосфатов

Page 35: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

34

Анализ карт стандартных отклонений для нитритов и фосфатов показал, что в 16-м наблюдение оказало влияние содержание нитритов, а на 3 и 8 точках - фосфатов. Тем не менее, взаимодействие данных показателей сгладило выбросы каждого из них, и выбросов на карте обобщенной дисперсии не оказалось.

5 Заключение

Рассмотренные примеры свидетельствуют о том, что с помощью карты стандартных отклонений можно определить, какой из коррелированных показателей вносит основной вклад в их совместное влияние на стабильность процесса очистки сточных вод при производстве печатных плат. При этом разработанная программа многомерного контроля позволяет строить карты различного типа, позволяя обнаружить нарушение процесса очистки статистическими методами до того, как значения контролируемых показателей превысили предельно допустимые величины.

Список литературы

[Алексеев, 2013] Алексеев М.И. Очистка сточных вод / М.И. Алексеев, О.Н. Рублевская – СПб. : Новый журнал, 2013. – 496 с.

[Клячкин, 2009] Клячкин В.Н. Статистические методы в управлении качеством: компьютерные технологии. – М.: Финансы и статистика, ИНФРА-М, 2009. 304 с.

[Клячкин и др., 2013] Клячкин В.Н. Статистический контроль

технологического рассеяния в многопараметрическом процессе / В.Н. Клячкин, Т.И. Святова// Автоматизация и современные технологии. 2013. 12. С. 22-25.

[Клячкин и др., 2016] Клячкин В.Н., Кувайскова Ю.Е., Алексеева В.А. Статистические методы анализа данных. – М. : Финансы и статистика, 2016. –240 с.

[Уилер, 2009] Уилер, Д. Статистическое управление процессами/ Оптимизация бизнеса с использованием контрольных карт Шухарта; пер. с англ. / Д. Уилер, Д. Чамберс. − М. : Альпина Бизнес Букс, 2009. − 409 с.

[Ширкунова, 2016] Ширкунова К.С. Мониторинг стабильности химического состава сточных вод при производстве печатных плат / К.С. Ширкунова // IN MEMORIAM: Султан Галимзянович Валеев: сборник памяти С. Г. Валеева. – Ульяновск, 2016. – С. 151-158.

Page 36: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

35

[Ширкунова, 2017] Ширкунова К.С. Многомерный статистический контроль процесса при нарушении нормальности распределения показателей. / Прикладная математика и информатика: современные исследования в области естественных и технических наук– Тольятти, 2017. – С.664-666.

[Montgomery, 2009] Montgomery D.C. Introduction to statistical quality control. – New York: John Wiley and Sons, 2009. – 754 р.

[Bersimis, 2007] Bersimis S., Psarakis S., Panaretos J. Multivariate Statistical Process Control Charts: An Overview // Quality and reliability Engeneering International. 2007. V. 23. рр. 517–543.

[Ryan, 2011] Ryan T. P. Statistical methods for quality improvement, New York, John Wiley and Sons, 2011. 687 р.

EVALUATION OF THE INFLUENCE OF CORRELATED PARAMETERS ON THE STABILITY OF WASTEWATER

TREATMENT IN THE PRODUCTION OF PRINTED CIRCUIT BOARDS

Shirkunova K.S. ([email protected]), Klyachkin V.N. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

This article discusses the method of monitoring the process of wastewater treatment in the production of printed circuit boards using methods of statistical process control. This allows to detect the violation of the stability and prevent the output of the controllable parameters for the MSPC. For this purpose it is necessary to investigate correlation of indicators, to choose types of control charts for monitoring.

Keywords: monitoring, printed circuit boards, wastewater treatment, control charts, generalized variance

Page 37: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

36

УДК 681.518.5

ИНФОРМАЦИОННАЯ СИСТЕМА ДИАГНОСТИКИ И ПРОГНОЗИРОВАНИЯ ТЕХНИЧЕСКОГО СОСТОЯНИЯ ОБЪЕКТА

Кувайскова Ю.Е. ([email protected]) Федорова К.А. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В статье описывается информационная система диагностики и прогнозирования технического состояния объекта, предназначенная для обеспечения своевременного обнаружения аномальных ситуаций в работе объекта и поддержки принятия решений по его управлению. Для решения этих задач применяются модели нечеткого логического вывода.

Ключевые слова: диагностика, информационная система, прогнозирование, технический объект, нечеткая модель

1 Введение

С целью поддержки принятия решений по управлению объектом целесообразно проводить диагностику и прогнозирование его технического состояния, которое характеризуется значениями набора контролируемых параметров, представляющих собой систему взаимосвязанных временных рядов. Для этой системы могут быть построены математические модели [Бокс и др., 1974; Васильев и др., 2017; Кувайскова и др., 2016], с помощью которых проводится прогнозирование и оценка состояния объекта. Если по результатам прогнозирования фиксируется выход значений параметров объекта за критические границы, то делается вывод о неисправности в работе объекта и необходимости принятия соответствующих решений, связанных со снижением нагрузки на объект или его аварийной остановкой [Клячкин и др., 2013].

В настоящей работе для диагностики и прогнозирования технического состояния объекта предлагается применение нечетких моделей [Заде,

Page 38: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

37

1976; Ярушкина, 2004; Zadeh, 2012], программно реализованных в виде информационной системы, позволяющей анализировать стабильность работы и прогнозировать состояние объекта в виде нечетких высказываний со степенью истинности получаемого результата.

2 Нечеткие модели диагностики и прогнозирования технического состояния объекта

Для диагностики функционирования технического объекта предлагается использовать модели нечеткого логического вывода Mamdani, Larsena и Tsukamoto [Леоненков, 2003; Рутковская и др., 2004], построение которых включает следующие этапы.

2.1 Ввод нечетких переменных и формирование базы правил На первом этапе для набора контролируемых параметров (входных

переменных) и переменной выхода, характеризующей техническое состояние объекта, вводятся лингвистические переменные [Заде, 1976].

Для этого экспертом определяются критические значения параметров объекта и задается лингвистическая переменная, которая, в общем случае, принимает нечеткие значения: «отлично», когда все значения параметров объекта входят в отрезок допустимых значений; «хорошо», если значения параметров находятся близко к критическим, но не выходят за них; «плохо», если значения параметров попадают в критическую область.

Для выходной переменной, в общем случае, вводятся нечеткие значения: «стабильная работа»; «ограниченная работоспособность»; «предаварийное состояние» и «аварийное состояние» (выход объекта из строя) [Кувайскова и др., 2017a; Kuvayskova, 2017].

Затем экспертом для конкретного технического объекта задается база правил (знаний) с применением нечетких высказываний вида «β есть α» и связок «И», «Если…, то…» [Kuvayskova, 2017].

2.2 Выбор функций принадлежности На следующем этапе проводится фаззификация, то есть

устанавливается соответствие между численными значениями параметров объекта и нечеткими термами лингвистической переменной по функциям принадлежности, которые характеризуют количественную оценку истинности нечеткого высказывания.

Учитывая результаты ранее проведенных исследований эффективности применения различных функций принадлежности для описания нечетких термов [Кувайскова и др., 2017b], для описания терма

Page 39: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

38

«отлично» используется z-подобная функция принадлежности, терма «хорошо» – π-подобная функция, терма «плохо» – s-подобная функция.

2.3 Построение моделей нечеткого вывода После фаззификации численных значений входных переменных

определяются нечеткие термы и их степень истинности для выходной переменной на основе введенной базы правил.

Степень истинности нечетких термов переменной выхода определяется по значениям функций принадлежности входных переменных в модели Mamdani с использованием операции логического минимума, в метода Larsena применяется операция логического умножения, в модели Tsukamoto вычисляется как взвешенное среднее.

Затем нечеткие термы переменной выхода объединяются в итоговое нечеткое подмножество, при этом значение степени истинности каждого терма вычисляется с использованием операции логического максимума.

Конечный результат прогнозирования состояния объекта определяется методом центра тяжести степеней истинности из полученного нечеткого подмножества термов лингвистической переменной.

3 Информационная система диагностики и прогнозирования технического состояния объекта

Описанные модели нечеткого логического вывода реализованы в виде информационной системы в среде программирования Microsoft Visual C++ 2010 Windows Form. Разработанная система позволяет в автоматическом режиме проводить диагностику функционирования объекта, при этом производится фаззификация численных значений параметров состояния объекта и строятся нечеткие модели логического вывода, на основе которых получается качественная оценка прогнозируемого технического состояния объекта.

До начала работы программы необходимо сформировать файлы со значениями критических границ для каждого контролируемого параметра объекта. Затем в режиме мониторинга объекта значения контролируемых параметров записываются в файл исходных данных, который считывается программой при запуске.

В процессе работы программы для исходных данных параллельно строятся три описанных нечетких модели. Затем с помощью метода экспертного ранжирования альтернатив выбирается наилучшая модель. Суть метода заключается в упорядочивании результатов прогнозирования моделей по значениям степеней истинности нечетких термов состояний

Page 40: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

39

объекта, в итоге выбирается модель, имеющая максимальную степень истинности прогнозируемого состояния объекта.

4 Численный эксперимент

С помощью разработанной информационной системы проведена диагностика работы и прогнозирование состояния объекта, которое характеризуется шестью параметрами.

Результаты прогнозирования представлены на рисунке 1.

Рисунок 1 – Прогнозирование технического состояния объекта

По методу ранжирования альтернатив получено, что лучшей нечеткой моделью является модель Mamdani. Следовательно, прогнозируемое состояние объекта – стабильная работа со степенью истинности 97,9%.

5 Заключение

Для диагностики и прогнозирования технического состояния объекта разработана информационная система на основе моделей нечеткого логического вывода. Для оценки качества результатов прогнозирования, полученных по различным моделям, предложен метод экспертного ранжирования альтернатив. Для рассмотренного объекта получено, что лучшей моделью прогнозирования является нечеткая модель Mamdani. Преимуществом использования нечетких моделей является описание состояния объекта на понятном человеку языке с помощью качественных оценок.

Page 41: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

40

Описанная система может быть использована специалистами при эксплуатации технических объектов, функционирование которых характеризуется набором параметров, в целях повышения эффективности управленческих решений.

Список литературы

[Бокс и др., 1974] Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. – М.: Мир, 1974. 242 с.

[Васильев и др., 2017] Васильев К.К., Крашенинников В.Р. Статистический анализ последовательностей изображений. – М.: Радиотехника, 2017. 248 с.

[Заде, 1976] Заде Л.А. Понятие лингвистической переменной и его применение к принятию приближенных решений. – М. : Мир, 1976. 166 c.

[Клячкин и др., 2013] Клячкин В.Н., Кувайскова Ю.Е., Алешина А.А., Кравцов Ю.А. Информационно-математическая система раннего предупреждения об аварийной ситуации // Известия Самарского научного центра Российской академии наук. 2013. Т. 15. 4-4. С. 919-923.

[Кувайскова и др., 2016] Кувайскова Ю.Е., Алешина А.А. Применение адаптивного регрессионного моделирования при описании и прогнозировании технического состояния объекта // Автоматизация процессов управления. 2016. 4 (46). С. 35-40.

[Кувайскова и др., 2017a] Кувайскова Ю.Е., Алешина А.А. Техническая диагностика объектов с использованием методов нечеткой логики // Радиотехника. 2017. 6. С. 32-34.

[Кувайскова и др., 2017b] Кувайскова Ю.Е., Федорова К.А Исследование эффективности применения функций принадлежности для описания нечетких термов // Научный вестник УВАУ ГА(И). 2017. 9. С. 165-170.

[Леоненков, 2003] Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH. – Санкт-Петербург : БХВ-Петербург, 2003. 736 с.

[Рутковская и др., 2004] Рутковская Д., Пилиньский М., Рутковский Л.М. Нейронные сети, генетические алгоритмы и нечеткие системы: пер. с польского И.Д. Рудинского. – М.: Горячая линия-Телеком, 2004. 452 с.

[Ярушкина, 2004] Ярушкина Н.Г. Основы теории нечетких и гибридных систем. – М. : Финансы и статистика, 2004. 320 с.

Page 42: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

41

[Zadeh, 2012] Zadeh L.A. Fuzzy Logic // Computational Complexity: Theory, Techniques, and Applications / R.A. Meyers (eds). – New York: Springer, 2012. pp. 1177-1200.

[Kuvayskova, 2017] Kuvayskova Y.E. The Prediction Algorithm of the Technical State of an Object by Means of Fuzzy Logic Inference Models // Procedia Engineering. «3rd International Conference «Information Technology and Nanotechnology», ITNT 2017». 2017. С. 767-772.

INFORMATION SYSTEM OF DIAGNOSTICS AND FORECASTING OF THE TECHNICAL

STATE OF THE OBJECT

Kuvayskova Yu.E. ([email protected]) Fedorova K.A. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

In paper the information system of diagnostics and forecasting of technical state of an object intended for ensuring timely detection of abnormal situations in work of an object and support of decision-making on his management is described. To solve these problems, models of fuzzy inference are used.

Keywords: diagnostics, information system, forecasting, technical object, fuzzy model

Page 43: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

42

УДК 004.514

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ДИНАМИЧЕСКОЙ ГЕНЕРАЦИИ ГРАФИЧЕСКОГО

ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ВЕБ-ПРИЛОЖЕНИЙ

Шеянова И.Н. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В работе описывается процесс разработки графических интерфейсов, а также рассматривается предложенный метод динамической генерации графического интерфейса пользователя для веб-приложений. Подробно описана методология, позволяющая встроить реализованное программное решение в любую веб-ориентированную систему.

Ключевые слова: графический интерфейс, веб-приложение, JSON, архитектура REST.

1 Введение

Год от года веб-приложения набирают все большую популярность благодаря их платформонезависимости, удобству использования и широкой доступности. Со времен создания Интернета веб-приложения, принципы и архитектура их построения претерпели значительные изменения — от простейших средств хранения HTML-страниц до решений, ориентированных на поддержку работы масштабных корпоративных информационных систем, выполняющих функции сбора, хранения и обработки данных. [Прокопенко, 2011]

Несмотря на высокую гибкость, которую демонстрируют веб-приложения в сравнении с другими видами программных продуктов, до сих пор существует острая проблема, связанная с жесткой зависимостью пользовательского интерфейса веб-приложения от общей структуры базы данных (БД). Интерфейс пользователя, разработанный для конкретной системы, как правило, не может быть повторно использован для другой системы без внесения значительных изменений в код. Иными словами, если существует необходимость работы с двумя разными системами

Page 44: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

43

управления данными, необходимо создать два веб-приложения, каждое из которых предназначено для конкретной БД.

Разработка графических интерфейсов веб-приложений представляет собой трудоемкую задачу. По оценкам специалистов, для сложных и комплексных программных систем трудозатраты на разработку интерфейса занимают до 70% от общего времени работы над продуктом. В настоящее время в целях снижения трудозатрат используются средства автоматизации проектирования: построители WIMP-интерфейсов, моделеориентированные инструменты и методы, основанные на онтологическом подходе. [Грибова и др., 2011]

Однако все вышеперечисленные средства направлены на автоматизацию разработки пользовательских интерфейсов, предназначенных для работы со статическими данными – в таком случае сценарий диалога и визуальное представление полностью определяется на этапе проектирования интерфейса. В то же время для программ, в которых наборы входных / выходных данных генерируются логикой приложения, структуру каждого набора, а также сценарий диалога невозможно определить на этапе проектирования. Такие интерфейсы называют интерфейсами с динамическими данными. Реализация интерфейсов с динамическими данными либо полностью осуществляется на языках программирования (С++, Java, Pascal и др.), либо некоторые компоненты интерфейса реализуются с использованием специализированных средств автоматизации разработки, остальные реализуются на языках программирования. В результате проектирование, реализация и сопровождение таких интерфейсов оказывается трудоемкой задачей. [Грибова и др., 2011]

Из вышеописанного вытекает задача разработать программное решение, которое позволит автоматически генерировать графический интерфейс для произвольной структуры базы данных. Разработанный метод динамической генерации графического интерфейса пользователя должен быть независимым от платформы и налагать минимальное количество ограничений на саму веб-ориентированную систему. Помимо этого, существует необходимость разработки методологии проектирования подобного решения с целью повышения эффективности и качества использования предложенного метода в других проектах.

2 Принцип работы предложенного метода динамической генерации интерфейса пользователя

Информационные системы, выполняющие функции сбора, хранения и обработки данных, как правило, содержат в себе два основных компонента:

1. База данных (БД) для хранения информации;

Page 45: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

44

2. Веб-интерфейс для оперирования содержимым БД. При проектировании информационных систем зачастую отдается

предпочтение реляционным БД, представляющим собой набор данных с предопределенными связями между ними. Эти данные организованы в виде набора таблиц, состоящих из строк и столбцов. В таблицах хранится информация об объектах, представленных в базе данных.

Реляционные БД – это проверенное временем функциональное решение, которое, однако, не лишено недостатков. Поскольку модель данных реляционной БД является фиксированной, она не может быть легко изменена. Стандартные приложения, использующие реляционные БД, «заточены» под конкретную модель данных, и их компоненты, включая пользовательский интерфейс, статичны. [Krauz, 2014]

Следовательно, в рамках разработки метода динамической генерации графических интерфейсов было необходимо определить структуру, которая позволит генерировать шаблоны графического интерфейса пользователя для любой произвольной модели данных.

Разработка метода включает в себя следующие этапы: 1. Создание «прослойки» между клиентом и базой данных для

унификации модели данных БД. Для достижения этой цели было принято решение внедрить

систему метаданных, описывающих структуру модели данных БД и необходимых для эффективного извлечения и последующего вывода информации пользователю. Подход с использованием метаданных обеспечивает:

Улучшенную интеграцию клиента, сервера и БД. Метаданные, формирующиеся на сервере и описывающие модель данных БД, определяют схему для построения графического интерфейса веб-приложения на клиенте;

Возможность дальнейшего расширения и адаптации системы за счет представления информации о модели данных, их структуре и источниках.

Поскольку основной «потребитель» метаданных – это ПО, а не пользователь, формализация метаданных является обязательным условием. Формат метаданных представляет собой стандарт, предназначенный для описания некоторой категории объектов и сущностей. Такой стандарт включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект.

Page 46: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

45

Пример описания метаданных представлен в разделе 4. 2. Определение оптимального способа обмена данными между

клиентом и сервером. Концепция взаимодействия компонентов клиента и сервера

построена на архитектурном стиле REST (Representational State Transfer). Подобный выбор обусловлен следующими характеристиками REST:

Производительность; Масштабируемость; Прозрачность системы взаимодействия, основывающаяся

на понятных базовых операциях с непосредственным хранилищем данных (сервером), а именно: извлечение данных (GET), сохранение (POST), изменение (PUT/PATCH) и удаление (DELETE). [Tproger, 2017]

В качестве формата передачи данных между веб-приложением и сервером выбран JSON благодаря его гибкости, компактности и простоте взаимодействия с JavaScript. Рассмотрим пример динамического построения графического

интерфейса для работы со списком пользователей некоторой информационной системы согласно предложенному методу:

1) При открытии страницы, содержащей форму списка пользователей, или нажатии на элемент управления (например, кнопки «Создать», «Удалить»), разработанная в рамках данной работы библиотека в зависимости от действий пользователя формирует AJAX-запрос к серверу:

на получение метаданных; на редактирование данных либо получение / удаление

данных из БД. REST-методы на сервере, в свою очередь, представлены

следующими методами: получить список пользователей; получить пользователя по ID; редактировать пользователя; удалить пользователя; получить метаданные для списка пользователей; получить метаданные для формы пользователя.

Список методов может быть модифицирован в соответствии с назначением веб-приложения. 2) При получении AJAX-запроса от клиента сервер формирует

метаданные на основе анализа структуры DTO (Data Transfer Object) класса, ассоциированного с соответствующим методом.

Page 47: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

46

Далее происходит процесс сериализации полученных метаданных в формат JSON и их отправка клиенту.

3) На основании структуры метаданных клиент генерирует элементы интерфейса (таблицы, формы).

4) Затем клиент отправляет повторный запрос к серверу на получение данных, которые в дальнейшем будут использованы для заполнения сформированных элементов управления.

5) Сервер принимает запрос на получение данных, преобразует эти данные в коллекцию объектов, классом которых является класс DTO, по полям и свойствам которого генерировались метаданные.

6) После этого сервер отправляет данные клиенту. Клиент получает их и отображает в сформированных ранее элементах интерфейса.

Сериализация и десериализация Java-объектов в JSON и обратно происходит с помощью библиотеки Jackson [Jackson Project, 2008], которая представляет собой набор инструментов для обработки данных, основанный на потоковом JSON-парсере и генераторе.

3 Математическая модель

Формально модель динамической генерации интерфейса пользователя можно представить следующим образом: М = , , … , , = , , (1) где М – метаданные объекта БД, – количество объектов, – поле объекта, обладающее набором параметров, который можно описать как: = , , , (2) где – наименование поля, – тип данных, – набор свойств поля. Тип данных T, в свою очередь, может принимать одно из следующих значений:

1) Простые типы данных: Число; Строка (в двойных кавычках «»); Дата; Булево (истина, ложь); 2) Типы-объекты – коллекции значений (массивы, структуры,

таблицы значений и др.); 3) Ссылочные типы данных – ссылка на объекты БД. Объект , полученный клиентом, представляет собой набор метаданных и соответствующих им данных . Представленная далее функция позволяет сформировать данные и метаданные на основе анализа структуры объекта :

Page 48: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

47

( ) → , , (3) Далее на основании метаданных строится графический интерфейс

с применением следующей функции: ( ) → . (4)

4 Реализация метода динамической генерации графического интерфейса

Рассмотрим пример листинга класса UserListDto (листинг 1), представленного на Java. На основании полей данного класса генерируется форма со списком пользователей. Аннотации для полей класса позволяют задать дополнительные свойства метаданных объекта класса UserListDto. Поля класса определяют заголовки столбцов таблицы, представленной на рисунке 1.

public class UserListDto @OdinVisible(type = OdinVisible.OdinVisibleType.NONE) private int id; @OdinCaption("Логин") private String login; @OdinCaption("Имя") private String firstName; @OdinCaption("Фамилия") private String lastName; @OdinCaption("E-Mail") private String email; @OdinCaption("Аккаунт активен") private boolean activated; @OdinCaption("Права администратора") private boolean admin;

Листинг 1 – пример класса UserListDto

Page 49: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

48

Рисунок 1 – Интерфейс формы со списком пользователей

Также рассмотрим принцип описания метаданных на примере полей «Имя» и «Права администратора».

"odinDto": true, "fields":

[ "fieldType": "string", // тип поля метаданных - строка "fieldName": "firstName", // имя поля метаданных "caption": "Имя", // подпись поля "visible": "all", // режим видимости метаданных "readOnly": false, // доступность поля только для чтения "notEmpty": false, // возможность записи нулевой строки "minLength": 0, // минимальная длина строки "maxLength": 2147483647, // максимальная длина строки "type": "string" // тип данных - строка , "fieldType": "boolean", // тип поля метаданных - булево "fieldName": "admin", // имя поля метаданных "caption": "Права администратора", // подпись поля "visible": "all", // режим видимости метаданных "readOnly": false, // доступность поля только для чтения "notEmpty": false // возможность записи нулевой строки

]

Листинг 2 – Пример описания метаданных

Page 50: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

49

Как видно из листинга, метаданные раскрывают сведения о признаках и свойствах полей, характеризующих какие-либо сущности (тип, имя поля, длина строки, режим записи и проч.). Поскольку метаданные являются основой для генерации элементов пользовательского интерфейса, это позволяет ускорить скорость разработки страниц веб-приложения, содержащих формы справочников для ввода данных в БД информационной системы.

5 Заключение

Предложенный в статье метод, предназначенный сократить трудозатраты на создание графических интерфейсов, решает поставленную задачу, позволяя динамически генерировать графический интерфейс пользователя для произвольной структуры базы данных. Единственными налагаемыми ограничениями является использование архитектуры REST в качестве способа передачи данных. Также требуется реализация на сервере метода формирования метаданных, модель которых описана в разделе 3.

Список литературы

[Грибова и др., 2011] Грибова В.В., Черкезишвили Н.Н. Автоматизация разработки пользовательских интерфейсов с динамическими данными // Материалы международной научно-технической конференции OSTIS. – Минск: БГУИР, 2011. – С. 287-292.

[Грибова и др., 2009] Грибова В.В., Черкезишвили Н.Н. Концепция автоматизации проектирования и реализации пользовательских интерфейсов с динамическими данными // Материалы рабочего семинара «Наукоемкое программное обеспечение» в рамках 7-й международной конференции памяти академика А.П. Ершова «Перспективы систем информатики». – Новосибирск: ООО «Сибирское научное издательство», 2009. – С.97-103.

[Мандел, 2001] Мандел Т. Дизайн интерфейсов: Пер. с англ. – М.: ДМК Пресс, 2005. – 416 c.

[Прокопенко, 2011] Прокопенко Е.В. Web-приложение в работе современной организации // Материалы Пятнадцатой региональной конференции по математике «МАК-2012». – Барнаул: Изд-во АлтГУ, 2012. – С. 73-75.

[Jackson Project, 2008] Krauz J. Jackson Project: FasterXML / Jackson library // Github: [сайт] URL: https://github.com/FasterXML/jackson (дата обращения: 17.05.2018).

Page 51: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

50

[Krauz, 2014] Krauz J. Tool for Automatic Generation of Graphical Templates for Mobile Devices // University of West Bohemia, Master Thesis, 2014: [сайт] URL: https://dspace5.zcu.cz/bitstream/11025/12546/1/MasterThesis_JakubKrauz.pdf (дата обращения: 17.05.2018).

[Tproger, 2017] Krauz J. Грамотная клиент-серверная архитектура: как правильно проектировать и разрабатывать web API // Tproger: [сайт] URL: https://tproger.ru/articles/web-api/ (дата обращения: 17.05.2018).

RESEARCH AND DEVELOPMENT OF METHODS FOR DYNAMIC GENERATION OF A GRAPHIC USER

INTERFACE FOR WEB APPLICATIONS

Sheyanova I.N. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The article describes the process of development of graphic interfaces and concerns the proposed method for dynamic generation of a graphic user interface for web applications. The methodology allowing to embed the realized software solution in a web-oriented system is described in detail.

Keywords: graphic interface, web application, JSON, REST architecture.

Page 52: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

51

УДК 004.9

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЗАЦИИ ОЦЕНИВАНИЯ УСПЕШНОСТИ

ПРОГРАММНЫХ ПРОЕКТОВ

Юхно И.В. ([email protected]) Афанасьева Т.В. ([email protected]) Ульяновский Государственный Технический

Университет, Ульяновск

В данной статье приводится пример существующих работ по оцениванию успешности программных проектов, исследования, проводимые по данной теме и анализ существующих решений. Приводится способ, по которому можно оценивать программные проекты, проведено исследование и разработка данной системы.

Ключевые слова: Разработка ПО, Качество ПО, Метрики ПО, Комплексная оценка.

1 Введение

На настоящий момент в мире значительно вырос интерес к менеджменту ресурсов организации, как к инструменту, способному улучшить финансовые показатели организаций, не затрачивая при этом большое количество ресурсов.

Ввиду такой ситуации, были разработаны многие методики разработки ПО (Agile, а затем Scrum), призванные удовлетворить запросы компаний в методиках контроля разработки проектов.

Ввиду этого, была разработана система, призванная оценивать проект разработки ПО и выводить данные в наиболее емком и читаемом виде, в виде графиков и численных показателей, по которым можно судить о том, насколько успешна идет разработка проекта ПО, а также приведена структура данной системы и методы ее работы.

Структура данной работы такова: В разделе 2 приводится анализ существующих решений по

данной теме. В разделе 3 описано проектирование системы, ее метрики,

возможности. В разделе 4 подробно описываются метрики системы.

Page 53: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

52

В разделе 5 делаются выводы по проделанной работе, а также описываются планы по дальнейшему развитию проекта

2 Анализ существующих решений

На данный момент на рынке систем по контролю за проектами существует достаточное количество решений, аналогичного рассматриваемой и исследуемой системы.

Одними из самых популярных решений являются: Trello Redmine Microsoft Project

Каждая из этих систем обладает своими преимуществами и недостатками.

Trello [Trello, 2018] является наиболее простой по функциональности системой для контроля за выполнением проектов.

Преимуществами Trello можно отметить следующие факторы: Веб-интерфейс (удобство использования системы) Не требуется установка Не требуется сложной настройки Удобный интерфейс

Недостатками системы являются: Требования подключения к сети Интернет Малая функциональность Нет возможности установки у себя Платная версия для больших команд

Таким образом, Trello является оптимальным вариантом для ведения проектов для одного пользователя или небольших команд.

Redmine [Redmine, 2018] является гораздо более продуманной системой, обладающее большим функционалом и трекером ошибок, что упрощает его использование в качестве системы для управления программными проектами. Его преимуществами являются:

Большой функционал Интеграция с системой контроля версий Связи между задачами Учет затраченного на проект времени

Среди недостатков Redmine можно перечислить следующие: Ограниченное управление файлами и документами Недостатки функционала при распределении ролей Ограниченное подключение репозитория Необходима настройка

Page 54: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

53

Как видно, Redmine подходит для использования в больших проектах, но при этом вряд ли будет удобен для малых проектов.

Третьей популярной системой является Microsoft Project [Microsoft Project, 2018]. Данная система спроектирована специально для досконального контроля за ведением проекта и позволяет использовать такой функционал как ресурсы компании, позволяя распределять время и бюджеты компании на несколько проектов для наиболее успешного их ведения с целью экономии времени и бюджета.

Преимуществами Microsoft Project являются: Богатый функционал приложения Расчет ресурсов Возможность работать с несколькими проектами сразу

Недостатками Microsoft Project являются: Сложность освоения ПО Однопользовательский режим Десктопная версия и долгое развертывание

Таким образом, Microsoft Project больше подходит для менеджеров чем для собственно разработчиков и позволяется правильно распределить время и ресурсы для ведения проекта.

Стоит заметить, что все эти проекты хотя и создавались для автоматизации ведения программных проектов, тем не менее, практически не имеют функционала, могущего оценить успешность проектов. Поэтому были проведены некоторые дополнительные исследования на данную тему. Например, была исследована статья Королевского университета Белфаста, Великобритания, и университета технологий MARA, Shah Alam, Малайзия, за авторством Edzreena Edza Odzaly, Des Greer, Darryl Stewart [Odzaly et al, 2016]

В данной статье приводится анализ самого управления рисками – ка он изменялся со временем, что нужно сделать, чтобы его проводить и как идет развитие этой технологии. В статье было приведено исследование, проведенное самими авторами в 2009 году (Odzaly, E.E., Greer, D. & Sage, P. "Software risk management barriers: An empirical study", Empirical Software Engineering and Measurement, 2009. ESEM 2009. 3rd Interlocation.), которое показывает, что:

Нет стандартного процесса и/или инструмента управления рисками, который можно использовать в любой ситуации при разработке ПО

Идентификация рисков является интенсивным процессом и 30% опрошенных согласны, что мониторинг рисков является наиболее трудным этапом и требует больше усилий

Page 55: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

54

Наиболее большим препятствием является то, что видимые и материальные затраты на разработку ПО получают больше внимания, чем такие нематериальные активы, как потеря чистой прибыли.

В результате исследований, авторами было создано ПО, которое позволяет прогнозировать риски в проекте, данное ПО было названо Agile Risk Tool, которое состоит из основного движка проекта, состоящего из графического пользовательского интерфейса для входных и выходных данных, движка правил и ART агентов. Это взаимодействует с шаблоном ART, который используется для определения данных среды. После загрузки шаблона ART, содержащего данные окружения, эти данные могут быть изменены с помощью графического интерфейса.

Кратко говоря, данное ПО позволяет задавать определенную цель, которую надо выполнить. При этом, с ней соотносится проблема, которая может возникнуть при выполнении данной цели.

Следует заметить, что основные проблемы, которые рассматриваются в данном исследовании являются оценкой рисков, которые происходят внутри компании. Так называемые, внутренние угрозы компании, на которые можно повлиять и которые можно избежать. Однако, существуют также еще и внешние угрозы, которые куда менее контролируемые, но при этом могущие также сильно повлиять на проект в случае их повышенного риска. Следующие рассмотренные исследования учитывают внешние угрозы, которые могут помешать выполнению проекта.

В частности, Michael Lant в своей статье “Five Simple Steps To Agile Risk Management” [Lant, 2010] на базовом уровне описывает риски, которые могут возникнуть в ходе работы над проектом по разработке ПО. Он разделяет процесс управления рисками на 6 этапов:

1. Идентифицировать риск. 2. Классифицировать риск. 3. Посчитать риск. 4. Запланировать риск. 5. Выполнить действия по контролю за риском. 6. Повторить предыдущие операции.

Michael Lant описывает риски следующим образом: Риски влияют на факторы, которые могут негативно повлиять

на результаты проекта. Риск – это прямой результат неопределенности, если нет

неопределенности, то это не риск – это неопределенность. Анализ рисков используется, чтобы помочь команде понять

неопределенность, которая может повлиять на результаты проекта.

Page 56: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

55

Управление рисками (которое иногда называют “Смягчение рисков”) – это план, который команда ставит перед собой, чтобы упредить, сдержать или смягчить последствия риска для проекта.

В другой под названием “Agile certification training: How to control risk in agile project management” От пользователя Chandana [Chandana, 2017], рассказывается про контроль рисков. Как заявляет автор, используется цикл из четырех процессов – идентификация рисков, оценка рисков, рассмотрение ответов и анализ обзоров.

Также приводятся следующие принципы, которые по мнению автора, следует учитывать при определении риска в управлении рисками в Agile:

На начальном этапе гибкой разработки проекта Agile-команда и менеджер продукта обсуждают требования и кейсы, которые могут возникнуть. Во время анализа требований члены команды должны задуматься о рисках, связанных с выполнением требований.

В процессе оценки Agile-разработки проекта команде следует оценить размер историй. Они должны учитывать гранулярность историй, потому что чем больше рассказов, тем больше риски.

Процесс идентификации риска начинается с самого планирования итерации. Agile-команда должна понимать то что она делает, чтобы быть уверенной в снижении риска неудачи.

Члены Agile-команды должны поднимать проблемы, влияющие на их работу на каждом митинге. После этого они должны обсудить эти проблемы, чтобы принять соответствующие смягчающие меры.

Члены команды, работающие над Agile-проектом, должны обсуждать и разъяснять риски с заинтересованными сторонами в ходе каждого обзора итераций.

Команда должна задуматься над состоянием проекта, опытом, который они имели во время итерации, и найти настройку для оценки связанных с этим рисков.

Из всего вышесказанного, можно сделать вывод, что существует достаточно много решений, созданных для управления разработкой ПО и выдачи информации по проекту, но нет решений для автоматизации оценивания успешности программных проектов. Предлагаемое ПО призвано решить эту проблему.

Page 57: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

56

3 Предлагаемое решение

Предлагаемая система будет анализировать проекты, сделанные в системе управления проектами Trello. При экспортировании проекта в формате json, проект будет анализироваться предлагаемым ПО и по нему будет выдаваться отчет.

Система будет анализировать проект на основе метрик, они будут состоять из трех значений: метрика выполненного функционала, метрика багов и метрика отставания от графика.

Возьмем в качестве примера функционал (feature). Проект можно разделить на функционал, которые необходимо разработать, чтобы проект работал исправно. Для того, чтобы контролировать ход выполнения проекта, его можно разделить на спринты (sprint) – отдельные отрезки времени, на исходе которых подводится итог выполненной за этот отрезок времени работы. Длительность спринтов назначается внутри команды разработки самостоятельно – она может быть, как день, так и месяц. Обычно используют временной промежуток в районе одной или двух недель. Таким образом, мы можем базово принять эффективность разработки проекта как: = ∈ [0 … 1],

где: – эффективность спринта; – выполненный функционал за спринт;

– общее количество функционала, запланированного на спринт. Таким образом можно вычислить примерную общую эффективность

разработки проекта по весьма простой формуле, к примеру, при запланированных 20 функциях на спринт было разработано 17, тогда получается, что: = ∈ [0 … 1]

Получается, что интервал эффективности равен: 0 → 1

Соответственно, тем меньше значение (ближе к 0) - тем меньше функций реализовала команда → меньше ее эффективность и наоборот.

Также можно рассмотреть баги проекта. На данный момент, метрика багов рассчитывается по следующей формуле: VB = 1 − + ∈ [0 … 1],

,где: – значение метрики багов за спринт; – число зада, созданных с пометкой бага;

Page 58: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

57

– общее количество нового функционала, запланированного на спринт.

Отставание от графика – суммарная продолжительность времени задержки задач, не уложившихся в план. Данная метрика определяется продолжительностью времени незаконченных задач, которая определяется как: = 1 − ∈ [0 … 1]

VS = ∑ ∈ [0 … 1], ,где: – время, запланированное на задачу;

– реальное время выполнения задачи; VS – значение спринта для метрики отставания от графика (Backlog); – коэффициент отставания для задачи; – количество задач, отстающих от графика.

Таким образом, получается, что чем ближе значение → 0, тем больше проект соответствует плану. Отрицательные значения показывают, что проект был выполнен раньше срока.

После каждого спринта значение каждой из трех метрик подсчитывается по приведенным выше формулам. Затем, к ним применяются настройки успешности проекта на основе нечетких методов. Данные настройки созданы по умолчанию либо задаются пользователем самостоятельно. Данные настройки включают в себя параметры нечетких оценок и состоят по умолчанию из 5 классов:

Failed со значениями Min = 0, Average value = 0, Max = 0.25; Potentially fail со значениями Min = 0, Average value = 0.25,

Max = 0.5; Average success rate со значениями Min = 0.25,

Average value = 5, Max = 0.75; Potentially successful со значениями Min = 0.5,

Average value = 0.75, Max = 1; Successfully со значениями Min = 0.75, Average value = 1,

Max = 1. Как видно по приведенным выше значениям, значение каждой

метрики может принадлежать одновременно нескольким значениям. Метрики считаются по двум правилам: average value и by Mamdani.

Также к метрикам применяются карты Шухарта, настройки которой также настраивается в данной системе. Этими настройками являются «Decreasing in a row» и «Critical threshold» и базово они установлены в значения 3 и 0.6 соответственно. Таким образом, если по истечении 3

Page 59: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

58

спринтов есть тенденция к падению значений метрик, то данный проект находится в тревожной фазе.

Также, если общая метрика проекта преодолевает критический порог в 0.6, то данный проект также находится в угрожающей ситуация невыполнения и требуется принять меры.

Рисунок 1 - Вывод проанализированных данных проекта в окне консоли приложения

Рисунок 2 – График состояния проекта по времени его выполнения по спринтам

4 Результаты и эффективность разработанной системы

По результатам работы была выполнена цель по исследованию эффективности разрабатываемой системы интеллектуального анализа

Page 60: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

59

данных для классификации проектов с использованием степени успешности и учетом вариабельности процесса разработки.

Было разработано ПО, которое выполняет анализ успешности проекта и оценивает проект на основе нечетких методов принятия решений. Были получены результаты по контрольному примеру, которым является проект, состоящий из: 10 спринтов, 150 задач, проанализированных двух типов задач (Bugs и Features), проанализированных трех типов метрик (Bugs, Features и Backlogs);

В ходе анализа проекта были получены следующие результаты: Проект состоит из 150 задач; Проект был разделен на 10 спринтов; Финальная оценка успешности проекта равна 66,91%; Худшим спринтом является спринт под номером 8 со

значением 83,27%; Лучшим спринтом является спринт под номером 7 со

значением 52,59%; Обнаружен один спринт под номером 7 с критической

ситуацией (оценка спринта оказалась ниже критической). Также была получена исчерпывающая статистика по каждому спринту

для анализа каждого в случае потребности.

5 Планы на будущее

Развитие данной системы прежде всего может предполагать путь к увеличению количества метрик для более точного анализа проекта. Также можно применить анализ не только задач и метрик, но разработчиков проекта. Таким образом, может выявлять риски, приводящие к ухудшению эффективности разработки проекта.

Исследования в данной области помогут значительно улучшить эффективность работы и помогут руководителям правильно принимать решения на этапе планирования и разработки проектов.

Список литературы

[Trello, 2018] Trello [Электронный ресурс] //Официальный сайт Trello: [сайт].URL: https://trello.com/ (дата обращения: 23.05.2018).

[Redmine, 2018] Redmine [Электронный ресурс] //Официальный сайт Redmine: [сайт].URL: https://www.redmine.org/(дата обращения: 23.05.2018).

[Microsoft Project, 2018] Microsoft Project [Электронный ресурс] //Официальный сайт Microsoft Project: [сайт].URL:https://products.office.com/ru-ru/project/project-and-portfolio-management-software (дата обращения: 23.05.2018).

Page 61: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

60

[Odzaly et al, 2016] E. E. Odzaly Capturing Risks in Agile Methods / E.E. Odzaly, D. Greer, D. Stewart // American Scientific Publishers - Adv. Sci. Lett. 4, 400–407, 2016 - DOI: :10.1166/asl.2011.1261

[Lant, 2010] Michael Lant - Five Simple Steps to Agile Risk Management [Электронный ресурс]. - Режим доступа: https://michaellant.com/2010/06/04/five-simple-steps-to-agile-risk-management/ (дата обращения: 23.05.2018).

[Chandana, 2017] Agile certification training: How to control risk in agile project management [Электронный ресурс]. - Режим доступа: https://www.simplilearn.com/how-to-control-risk-in-agile-project-management-article (дата обращения: 23.05.2018). RESEARCH AND DEVELOPMENT OF THE SYSTEM

FOR AUTOMATIZATION FOR ASSESSING THE SUCCESS OF THE PROGRAM PROJECTS

Yuhno I.V. ([email protected]) Afanasjeva T.V. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

This article gives an example of existing work on assessing the success of program projects, studies on this topic and an analysis of existing solutions. There is a way in which it is possible to evaluate software projects, research and development of this system has been carried out.

Keywords: Software Development, Software Quality, Software Metrics, Integrated Assessment

Page 62: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

61

УДК 004.4

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЗАЦИИ СОЗДАНИЯ И АНАЛИЗА ОТЧЕТОВ В УПРАВЛЕНИИ КАЧЕСТВОМ ПО

Полбин А.Е. ([email protected]) Ульяновский Государственный Технический

Университет, Ульяновск

Процесс построения отчетов в любой предметной области очень важен, но, при этом, является рутинным. Автоматизация такого процесс позволяет экономить значительное количество времени. В данной работе рассматривается система автоматизированного построения отчетов в управлении качеством проекта и метрики, используемые в генерируемых отчётах.

Ключевые слова: качество ПО, управление качеством, автоматизация составления отчётов

1 Введение

В процессе ведения проекта очень важно отслеживать его состояние и качество его ведения. На данный момент времени существует множество систем ведения проектов с различными возможностями и различной сложностью. Но, в любой из систем по управлению проектами предусмотрены различные виды отчётов. Данные отчёты полностью индивидуальны в каждой из систем.

Целью данной работы является автоматическое создание отчётов по качеству проекта, концентрируя внимание на отклонениях в проекте от заранее определённого плана. Так же, стоит отметить, что данные отчёты будут иметь определённую структуру, что является важным фактором, влияющим на удобство их анализа.

2 Анализ предметной области

Существует множество различных систем для ведения проектов: Microsoft Project Redmine YouTrack Битрикс24

Page 63: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

62

И др. Данные системы могут предназначаться для планирования проекта

менеджерами, отслеживания задач вовлеченным в разработку персоналом и управления рисками проекта. Для реализации системы предлагается использование систем Microsoft Project и Redmine.

Microsoft Project представляет из себя мощное десктопное ПО, которое создано для планирования проектов с учетом различных компонентов, таких как ресурсы, временные рамки и т.д. На рынке малых и однопользовательских решений Microsoft Project является монополистом, зарабатывая на продажах более 900 000 000 долларов в год и имея клиентскую базу в 20.000.000 пользователей что составляет примерно 80% рынка в сегменте малых и персональных решений.

Redmine – открытое серверное веб-приложение для управления проектами и задачами (в том числе для отслеживания ошибок). Redmine написан на Ruby и представляет собой приложение на основе широко известного веб-фреймворка Ruby on Rails. Распространяется согласно GNU General Public License.

У каждой из данных систем есть свои особенности, но основные сущности схожи – проекты, задачи, ресурсы. Проект является обобщением задач, ресурсов и других вспомогательных сущностей (например, календарей). Задачи и ресурсы могут иметь различные поля. В данной работе будет рассматриваться проект, ведущийся в системе Microsoft Project, т.к. данная система является одной из самых распространенных.

3 Постановка задачи

Целью разработки данного проекта является автоматизация процесса создания отчётов по управлению качеством проекта. Данную задачу можно сформулировать следующим образом: необходимо преобразовать входные данные (информация по управлению проектом, полученную из MS Project или Redmine) в выходные (отчёт).

Для реализации данной цели необходимо спроектировать систему автоматизированного построения отчётов, использующую метрики качества.

4 Описание метрик

Для оценивания качества управления проектом предлагается использовать следующие метрики: перерасход времени, средняя продолжительность задач и перерасход средств (для MS Project).

Перерасход средств рассчитывается по формуле 1, средняя длительность по формуле 2, а перерасход времени – по формуле 3.

Page 64: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

63

= × 100%, (1)

где Covercost – общая стоимость проекта по текущему плану, Cbaseline – стоимость проекта по базовой линии. = ∑ × × 100%, (2)

где tduration – длительность задачи, n – количество задач. = × 100%, (3)

где Dovercost – общая длительность проекта по текущему плану, Dbaseline – длительность проекта по базовой линии.

В таблице 1 представлены трактовки значения rovercost и rovertime. Данные оценки имеют схожую трактовку, т.к. в большинстве случаев перерасход времени равен перерасходу средств в процентном соотношении. Так же, данные оценки могут быть отрицательны в случае, когда перерасход времени или средств отрицателен (проект потребовал меньшее количество затрат времени или средств). Таблица 1 - Значения rovercost. Диапазон значения Трактовка результата

≤-10%

Плохое качество планирования проекта, большое количество неосвоенных средств, которые могли быть использованы для других проектов, но осваиваются в рамках текущего

(-10%;10%] Практически идеальное качество планирования (10%; 30%] Хорошее качество планирования проекта

(30%;50%] Нормальное качество планирования проекта, большинство проектов попадают именно в эту группу

>50% Плохое качество планирования проекта, слишком большой перерасход

Для расчета метрики, основанной на средней продолжительности

задачи, необходимо либо вручную указать, либо автоматически рассчитать среднюю продолжительность задач по их типу (K). Так как при планировании проекта довольно сложно разделить задачи на равные по трудоемкости, а в дальнейшем задачи зачастую дробятся на более мелкие, критерий rnmd показывает, насколько хорошо спланирован проект с точки зрения разделения задач на подзадачи.

Трактовка значений rnmd представлена в таблице 2.

Page 65: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

64

Таблица 2 - Значения rmnd.

Диапазон значения (часы)

Трактовка результата

≤20% Плохое качество планирования проекта, задачи

разделены слишком сильно (20%;50%] Хорошее качество планирования

(50%;100%] Нормальное качество планирования,

большинство крупных проектов входят в данную группу

>100% Плохое качество планирования, требуется

разделение задач на подзадачи

5 Проектирование

На рисунке 1 представлена концептуальная схема работы системы с указанием используемых технологий.

Рисунок 1 - Концептуальная схема системы

На рисунках 2 и 3 представлены декомпозиции модели «Как есть» и «Как должно быть» в нотации IDEF0.

Рисунок 2 - Декомпозиция первого уровня в нотации IDEF0, модель «Как

есть»

Page 66: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

65

Рисунок 3 - Декомпозиция первого уровня в нотации IDEF0, модель «Как должно быть»

6 Эксперимент

Для примера работы системы используется файл с тестовым проектом. Исходный файл проекта содержит 5 ресурсов и 30 задач. Данный проект недостаточно сильно детерминирован на подзадачи, так что его оценка продолжительности задач должна оказаться плохой, но, при этом, у него практически отсутствуют перерасходы времени и средств, что означает отличную оценку по этим двум метрикам.

Система автоматически строит отчёт в формате pdf. Структура этого отчёта следующая:

1. Информация о проекте 2. Оценки проекта 3. Список задач с отклонениями 4. Список ресурсов с отклонениями 5. Графики

На рисунке 4 представлено окно с загруженным проектом, а на рисунках 5 - 6 представлены части автоматически построенного отчёта.

Page 67: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

66

Рисунок 4 - Главное окно системы после загрузки проекта

Рисунок 5 - Пример отчета. Информация о проекте и оценки

Page 68: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

67

Рисунок 6 - Пример отчёта. График отклонения по времени выполнения задач

Как видно из примера отчёта, проект имеет хорошие оценки по отклонениям стоимости и времени, но, при этом, он недостаточно детерминирован. Такая проблема усложняет оценивание временной сложности задача, что в данном проекте не заметно, т.к. он является тестовым.

Стоит отметить, что ручное составление отчёта средствами Redmine затруднено, т.к. в базовой версии не предусмотрен отдельный модуль для создания отчётов, а в MS Project можно получить только некоторые части отчёта в формате набора таблиц и фигур систем Microsoft Office для последующего копирования. С помощью данной системы вместо более чем 20 минут, затраченных на создание отчёта можно получить аналогичный по содержанию отчёт за несколько кликов мышкой.

7 Заключение

В ходе данной работы была создана модель оценивания качества управления проектом и спроектирована и реализована система, автоматически составляющая отчёты на основе проекта, хранящегося в файле Mircosoft Project либо находящегося в Redmine. По сравнению с основным конкурентом – модулем по созданию отчётов в Microsoft

Page 69: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

68

Project, данная система позволяет полностью автоматизировано строить отчёт по качеству управления проектом и отклонениям в проекте на основе трёх описанных в этой работе управленческих оценок. Так же, данная система ускоряет процесс создания такого отчёта в разы.

Список литературы

[Обзор систем управления проектами, 2013] Обзор систем управления проектами [Электронные ресурс] // Хабрахабр: [сайт].URL: https://habrahabr.ru/post/173633/

[Статистический анализ проектных оценок, или почему правильные оценки всегда превышаются, 2012] Статистический анализ проектных оценок, или почему правильные оценки всегда превышаются [Электронные ресурс] // Хабрахабр: [сайт].URL: https://habrahabr.ru/post/143116/

[Управление качеством программного обеспечения, 2016] Управление качеством программного обеспечения [Электронные ресурс] // Блог программиста: [сайт].URL: https://pro-prof.com/forums/topic/software-quality-control

[Черников, 2012] Управление качеством программного обеспечения: учебник // Б.В. Черников. – М.: ИД «ФОРУМ»: ИНФРА-М, 2012. – 240 с

[Microsoft Project, 2017] Microsoft Project [Электронные ресурс] // Википедия: [сайт].URL: https://ru.wikipedia.org/wiki/Microsoft_Project

[Redmine, 2017]Redmine — [Электронный ресурс] // Википедия: [сайт].URL: https://ru.wikipedia.org/wiki/Redmine

RESEARCH AND DEVELOPMENT OF AUTOMATION SYSTEM OF CREATION AND ANALYSIS OF REPORTS

IN SOFTWARE QUALITY MANAGEMENT

Polbin A.E. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The process of building reports in any subject area is very important, but at the same time, it is routine. Automating this process saves a considerable amount of time. In this paper, we consider the automated reporting system in project quality management and the metrics used in the generated reports.

Keywords: software quality, quality management, reporting automation

Page 70: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

69

УДК 004.891

ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ МЕТОДОВ ВЫЯВЛЕНИЯ СХОЖИХ ОБЪЕКТОВ В ЗАДАЧЕ ПОСТРОЕНИЯ МОДЕЛИ, ПОЗВОЛЯЮЩЕЙ

ПРОВОДИТЬ ИДЕНТИФИКАЦИЮ ФИЗИЧЕСКИХ ЛИЦ

Фронина М.М. ([email protected]) Ульяновский Государственный Технический

Университет, Ульяновск

Работа посвящена проблеме автоматизации процесса идентификации физических лиц в банковской сфере. Рассмотрены различные способы решения этой проблемы. Также в статье описывается применение методов машинного обучения к данной задаче, а именно искусственные нейронные сети, и реализация решения.

Ключевые слова: идентификация, машинное обучение, регрессия классификация, искусственная нейронная сеть.

1 Введение

С каждым днем все больше людей пользуются услугой кредитования. Люди покупают в кредит технику, автомобили, жилье, путевки в отпуск и многое другое. Также банки предлагают все более интересные и выгодные условия кредитования, чтобы привлечь как можно большее количество клиентов. С увеличением количества кредитных заявок растет нагрузка на банки по обработке персональных данных клиентов. В связи с этим, задачу создания средств автоматической обработки персональных данных можно считать актуальной.

Процесс идентификации физических лиц на кредитном процессе - процесс, который заключается в поиске схожих клиентов в некоторой базе и вынесении заключения о том, есть ли клиент в базе или необходимо завести новую запись в учетную систему.

Если поиск схожих клиентов довольно просто автоматизировать, то вынесение решения требует применения экспертизы человека. Поэтому требуются нестандартные интеллектуальные методы решения задачи трансформации опыта оператора в математическую модель, способную

Page 71: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

70

принимать решение об идентификации клиента с необходимой точностью.

Данная статья содержит описание решаемой задачи, рассматривает методы решения, реализацию задачи, этапы построения модели и полученные результаты.

2 Процесс идентификации физических лиц

Процесс идентификации физических лиц можно представить схемой, изображенной на рисунке 1:

Рисунок 1 – Процесс идентификации физических лиц

Входом процесса являются персональные данные клиента, подавшего кредитную заявку, в текстовом формате. Управлением процесса являются правила поиска похожих: на равенство проверяются различные комбинации полей и найденные совпадения используются для дальнейшей идентификации. Механизмами процесса являются оператор и фронт-система – система, включающая в себя реализацию шагов бизнес процесса и веб-форму для принятия решения оператором. Выходом является результат идентификации: идентифицирован или не идентифицирован.

Существенным будет добавить, что данные о клиенте зачастую содержат ошибки, опечатки, пропуски в значениях полей данных, адреса описываются в свободной форме.

Рассмотрим проблемы, ставшие причиной для разработки модели: 1. Высокие трудозатраты на ручную идентификацию, которые

постоянно растут (в течении года количество заявок на ручную идентификации возросло с 1500 до 2500 заявок в день в среднем);

2. Высокое влияние человеческого фактора на процессе, в связи с чем растет количество дубликатов в БД клиентов.

Page 72: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

71

Данные проблемы можно решить путем полной или частичной замены оператора средством автоматизации принятия решения об идентификации.

Рассмотрим методы, которые позволят создать модель, которая сможет принимать решения об идентификации физического лица вместо оператора.

3 Методы определения сходства объектов

Авторы книги [Rajaraman, Ullman, 2010] вопросы, связанные с вычислением сходства объектов, выделяют в раздел изучение сходства (similarity learning). Изучение сходства – это область машинного обучения с учителем. Данный раздел тесно связан с классификацией и регрессией, но цель состоит в вычислении функции подобия, которая измеряет, насколько схожи два объекта. Он имеет применение в ранжировании, в рекомендательных системах, визуальной идентификации, сравнении лиц и сравнении голоса.

Авторы выделяют четыре направления для изучения сходства: Изучение сходства с использованием регрессии Изучение сходства с использованием классификации Изучение сходства с использованием ранжирования Locality-sensitive hashing (LSH)

Для решения задачи идентификации интерес представляют методы регрессии и классификации. Однако, в связи с тем, что выходом регрессии является любое число [Клячкин и др., 2016], а не метка класса, что позволяет использовать полученное в дальнейшей обработке, было выбрано направление регрессии.

Таким образом, строится-модель классификатор на основе методов построения регрессионной зависимости с введением дополнительного класса: вывод на ручной разбор оператору.

Однако перед работой метода необходимо обработать исходные данные. Для преобразования была выбрана мера Джаро-Винклера, которая была использована для обработки результатов переписи населения США [Родишевский], следовательно, применима для сравнения персональных данных.

Для построения регрессионной зависимости были выбраны искусственные нейронные сети, так как они позволяют получить на выходе значение, лежащее в диапазоне [0, 1] в случае использования сигмоидальной функции активации для нейронов выходного слоя [Tien, 2003]. Однако ИНС, в отличие от логистической регрессии, являются более сложной моделью, следовательно, есть больший шанс получить релевантную модель.

Page 73: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

72

Так как стоит задача получения зависимости результата идентификации от мер схожести текстовых описаний свойств объекта, то наиболее предпочтительным будет выбор сети прямого распространения. [Люгер и др., 2005] Обучающие данные не представляют собой последовательности, следовательно, нет необходимости использовать сети с обратными связями. Свёрточные же структуры являются неоправданно сложными для решения подобного рода задач. [Воронов и др., 2007]

4 Разработка методов автоматической идентификации физических лиц

4.1. Описание разработанного программного обеспечения Перед разработкой следует сформулировать задачи автоматизации:

разработка компонента для получения модели; разработка средств интеграции построенной модели в

существующую инфраструктуру банка. Компонент построения модели – утилита, которая реализует шаги

построения модели. При его разработке были использованы следующие технологии:

язык программирования Java 1.8; среда разработки IntelliJ Idea 2017; сервер БД Mysql 5.

Для автоматизации задачи идентификации физических лиц разработан SOAP WEB сервис, который может быть встроен в существующие или разрабатываемые системы, реализующие процесс идентификации физических лиц. Для разработки сервиса была использована технология Spring Boot. Для решения был использован язык Java 1.8.

4.2. Данные, используемые приложением Основной сущностью процесса идентификации физических лиц

является операция идентификации отдельного клиента, подавшего кредитную заявку. Также значимой сущностью является клиент, подавший кредитную заявку или уже существующий в базе клиентов.

Операция содержит данные о клиенте, подавшем кредитную заявку, списке похожих, идентификатор клиента банка, который был идентифицирован с кредитной заявкой, и дата, время создания операции.

На текущий момент модель использует следующие данные о клиенте: Настоящие и предыдущие Фамилия, Имя, Отчество; Дата рождения; Место рождения; Настоящий и предыдущий номер ДУЛ;

Page 74: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

73

Дата выдачи ДУЛ; Адреса регистрации и фактического проживания.

5 Алгоритм получения модели идентификации

Алгоритм получения модели из исходных данных включает в себя следующие шаги:

предобработка данных исследования; деление выборки на обучающую, тестовую и выборку для

подбора параметров; обучение нейронной сети; проверка модели на стабильность; расчет порогов идентификации; оценка качества построенной модели.

Подготовка данных заключается в применении к полям сущности «Клиент» следующих предобработчиков:

Очистка полей от служебных символов, двойных пробелов, приведение к нижнему регистру;

Удаление ключевых слов, обозначающих пропуск значения (например, НЕТ, НЕИЗВЕСТНО и т.п.);

Удаление типа населенного пункта, улицы, здания (например, ДЕРЕВНЯ, ПРОСПЕКТ, ДОМ и т.п.);

Замена устаревшего названия города на современное (например, ЛЕНИНГРАД – САНКТ-ПЕТЕРБУРГ и т.п.);

Замена латиницы на кириллицу по схожести написания и транслитерация;

Удаление пробелов (используется только для номера паспорта);

Проверка клиента на закрытие учетной записи в базе автоматизированной банковской системы (ABS).

Для корректного построения и оценки модели для обучения, подбора параметров и тестирования необходимо использовать разные выборки, следовательно, необходимо разделить текущую выборку на 3 массива данных.

Выборка делится на 3 части с учетом результатов кластеризации согласно следующему алгоритму:

1. Преобразование исходных данных к числовому формату – значениям сходства свойств объектов;

2. Кластеризация полученных числовых данных с использованием метода DBSCAN [Jörg и др., 1996], который не требует задания количества кластеров;

3. Разбиение полученных кластеров на 3 выборки.

Page 75: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

74

Так как решается задача сравнения пар объектов, то наиболее подходящим способом преобразования является нахождение сходства строк. Сходство вычисляется для каждого поля данных пары, в результате чего формируется массив, который пойдет на вход нейронной сети, в качестве одного из обучающих примеров.

Для вычисления вероятности сходства объектов создана и обучена неполносвязная искусственная нейронная сеть с архитектурой многослойный персептрон.

Созданная нейронная сеть обладает следующей конфигурацией: 8 входов, соответствующих значениям меры сходства строк. 1 выход (результат идентификации ∈ [0,1]); функция активации выходного слоя: логистическая функция; 2 скрытых слоя по 100 нейронов на каждом; функции активации нейронов скрытых слоев гиперболический

тангенс. Промежуточная оценка качества построенной модели производится с

помощью расчета средней квадратической ошибки, где наиболее важным фактором является примерное равенство ошибок на всех трех выборках.

Так как выходом нейронной сети является одно число, требуется расчет двух порогов, для которых: max <= клиент идентифицирован, min>= клиент не идентифицирован, иначе запись выводится на ручной разбор оператору.

На рисунке 2 представлена блок-схема вычисления начальных порогов. Принято решение сделать данные границы обучаемыми. Данный алгоритм предполагает расчет множества метрик классификации (точность, полнота, доля правильных ответов, ручной разбор). Для системного рассмотрения метрик используется метод анализа иерархий. В ходе обучения границы подстраиваются таким образом, чтобы иметь заданную ранее точность классификации и иметь наилучшие характеристики по методу анализа иерархий.

Сначала рассчитываются начальные границы обучения порогов и шаги обучения. Идея вычисления начальных границ состоит в следующем: на вход подается отсортированная по возрастанию расчетных значений выборка, фиксируется допустимое количество ошибок, фиксируется момент появления первого ошибочного решения и по номеру максимального допустимого числа ошибок. В результате получаются 2 диапазона.

Далее для каждой пары порогов вычисляются метрики классификации: точность, полнота, доля правильных ответов, и доля ручного разбора.

Рассчитанные метрики подаются на вход методу анализа иерархий, с помощью которого выбирается лучшая пара порогов.

Page 76: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

75

Для оценки качества полученного решения необходимо подсчитать долю правильных ответов и долю ручного разбора, как отношения количества ручных идентификаций к размеру выборки. Исходя из сформулированной задачи автоматизации, данные показатели являются ключевыми для рассматриваемого бизнес-процесса. Качество модели оценивается на тестовой выборке.

Рисунок 2 – Расчет порогов классификации

Page 77: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

76

6 Описание модели принятия решения об идентификации

Входной вектор представляет собой массив мер сходства сравниваемых полей для клиента и похожего. = , … , , (1)

где n – количество сравниваемых полей, = ( , ), где – значение сравниваемого поля у клиента, – значение сравниваемого поля у похожего.

Вектор используется для вычисления вероятности сходства. = ( , , ), (2)

где T – топология ИНС, W – веса нейронов ИНС. Принятие решения об идентификации клиента и похожего зависит от

вероятности и рассчитанных порогов. _ = ( , , ), (3)

где – левый порог, – правый порог. Зависимость _ от параметров можно описать следующим

образом: _ = < min ⇒ не идентифицирован ,> max ⇒ идентифицирован ,иначе ⇒ идентификация не определена. (4)

Принятие решения об идентификации клиента и похожего может происходить согласно известным правилам идентификации, если эти правила выполняется. На текущий момент выделено следующее правило: если ФИО клиентов полностью отличны, то идентификация не определена независимо от равенства остальных полей. Это необходимо для выявления случаев мошенничества. = ( ) || _ , (5)

где – набор известных правил идентификации. Окончательное решение об идентификации клиента в базе происходит

на основании сравнения клиента со всеми похожими. = ( ), (6)

где = , … , , m – количество похожих. Зависимость от параметров можно описать следующим образом: = идентифицирован с одним похожим ⇒ идентифицированне идентифицирован со всеми ⇒ неидентифицированиначе ⇒ идентификация не определена (7)

Page 78: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

77

7 Тестирование построенной модели

Тестирование построенной модели состоит из 2 этапов: предварительная оценка, пилотное тестирование.

Модель модифицируется пока не будут получены цифры, которые удовлетворяют требованиям для допуска модели до пилотного тестирования: доля правильных ответов не менее 0.999, доля ручного разбора не более 30%.

При согласовании с владельцами процесса и архитекторами банка было принято решение вывести сервис идентификации на пилотное тестирование.

Были использованы следующие пороги идентификации: 0.013 и 0.983. Пилотное тестирование заключалось в замене сервиса поиска похожих

во фронт-системе на разработанный сервис идентификации. Были получены следующие результаты: доля правильных ответов: 0.9995, доля ручного разбора: 34,8%

С учетом того, что сервис идентификации принимает решения с необходимой точностью, и порог ручного разбора превышен не значительно, было принято решение готовить сервис ко внедрению.

8 Заключение

В работе описаны выходные продукты разработки: инструмент для получения модели из сырых данных и WEB сервис для принятия решения. Модель и использующий ее сервис разработаны и готовы к внедрению.

Список литературы

[Rajaraman, Ullman, 2010] Rajaraman A., Ullman J. D. Mining of Massive Datasets [Электронный ресурс][PDF]. URL: http://infolab.stanford.edu/~ullman /mmds/booka.pdf (дата обращения 12.05.2018)

[Родишевский] Родишевский А. Алгоритмы приблизительного сравнения текста [Электронный ресурс]//Морфоэндро, портал искусства и культуры [сайт] URL: http://www.morfoedro.it/doc.php?n=223&lang=ru (дата обращения 12.05.2018)

[Jörg и др., 1996] Jörg, Xu, Xiaowei, Simoudis, Evangelos, Han, Jiawei, Fayyad, Usama M., eds. A density-based algorithm for discovering clusters in large spatial databases with noise. // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining 1996. pp. 226–231.

Page 79: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

78

[Люгер и др., 2005] Люгер Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем / Под ред. Н. Н. Куссуль. -- 4-е изд.. -- М.:Вильямс, 2005.

[Клячкин и др., 2016] Клячкин, В. Н. Статистические методы анализа данных / В. Н. Клячкин, Ю. Е. Кувайскова, В. А. Алексеева. – М. : Финансы и статистика, 2016.

[Tien, 2003] Tien D. Common mistakes in neural network training [Электронный ресурс][PDF]. URL: https://ac.els-cdn.com/S1474667017335334/1-s2.0-S14746670 17335334-main.pdf?_tid=8e61598a-944d-4016-82dc-7d4fb939232e&acdnat=1526 727327_6dc70f85ed7053f262aa5369b1790159 (дата обращения 12.05.2018)

[Воронов и др., 2007] Воронов И. В., Политов Е. А., Ефременко В. М. Обзор типов искусственных нейронных сетей и методов их обучения [Электронный ресурс] URL: https://cyberleninka.ru/article/v/obzor-tipov-iskusstvennyh-neyronnyh-setey-i-metodov-ih-obucheniya (дата обращения 12.05.2018) RESEARCH OF THE APPLICATION OF METHODS

IDENTIFICATION OF SIMILAR OBJECTS FOR SOLVING THE PROBLEM OF CONSTRUCTION OF

MODEL, ALLOWING THE IDENTIFICATION OF PHYSICAL PERSONS

Fronina M.M. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper describes the application of methods of machine learning in the problem of identification of individuals. The purpose of the work is the development of the WEB service for making decisions about the identification of individuals. To solve this problem, artificial neural networks are used.

Keywords: identification, machine-learning, classification, regression, artificial neural network.

Page 80: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

79

УДК 004.9

ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА

В ЗАДАЧЕ ВЫЯВЛЕНИЯ СХОЖИХ ПОЛЬЗОВАТЕЛЬСКИХ ЗАПРОСОВ

Воронина В.В. ([email protected]) Золотова К.П. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В работе исследуется применение методов интеллектуального анализа текста в задаче выявления схожих пользовательских запросов. Проводится сравнение результатов нескольких моделей классификации, которые получены с помощью программной реализации.

Ключевые слова: классификация, анализ текста, модель, пользовательские запросы, точность модели, система, объект обслуживания, услуга.

1 Введение

Многопользовательские прикладные системы в настоящее время широко применяются для планирования, организации и контроля над различными сферами деятельности компаний [Ночевнов, 2015]. При работе в данных системах у пользователей часто возникают вопросы и проблемные ситуации.

У многих компаний существуют структурные подразделения, которые занимаются поддержкой пользователей, также существуют сторонние организации, работа которых ориентирована на обучение и решение проблем пользователей. Для отслеживания обращений существуют различные информационные системы, в которых регистрируют пользовательские запросы или обращения клиентов, которым необходимо получить какую-либо услугу. При регистрации запросов могут возникнуть существенные проблемы в правильности их обработки, так как необходимо указать верные характеристики по текстовому описанию обращения. Поэтому проблема анализа текста является актуальной, так как в настоящее время существует заинтересованность в современных

Page 81: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

80

методах и программных компонентах текстовой аналитики, которые эффективно работают с большим объемом данных. Реализация таких инструментов позволит облегчить процесс анализ данных для поддержки процессов принятия решений.

Объектом исследования является процесс выявления схожих пользовательских запросов.

Цель работы – разработка информационной системы для автоматизированного выявления схожести пользовательских запросов.

Методы анализа текста многообразны, поэтому необходимо определить адекватную модель, которая будет показывать высокую точность результата при анализе текстовой информации.

2 Постановка задачи и обзор методов решения

Рассмотрим процесс регистрации пользовательских запросов, который состоит из следующих действий:

1. На электронную почту поступают письма от пользователей. 2. Сервис-аналитик регистрирует запрос в системе. 3. Сервис-аналитику необходимо определить тип обращения и

функциональный модуль. 4. Необходимо назначить исполнителя запроса.

При исследовании процесса регистрации пользовательских запросов были выявлены следующие проблемы:

большие трудозатраты на подбор характеристик запроса; существует вероятность одновременной регистрации схожих

запросов от пользователей для разных исполнителей; регистрация запроса с неверными характеристиками при

повторении через интервал времени подобного запроса. Для решения данных проблем необходимо реализовать программный

продукт, который будет определять характеристики запроса по описанию обращений пользователя. Эта задача относится к задаче классификации текста, так как набор возможных значений признаков для обращений заранее известен.

Классификация данных – общая задача машинного обучения (machine learning), в этом направлении интенсивно применяются методы оптимизации и аналитической геометрии [Ikonomakis и др., 2005].

Для того чтобы выявить, какая модель является наиболее эффективной, в данной работе используются 4 модели классификации, а именно: классификатор на логистической регрессии (LogisticRegression), классификатор на основе ансамбля решающих деревьев (RandomForestClassifier), наивный байесовский классификатор

Page 82: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

81

(MultinomialNB) и линейный классификатор со стохастическим градиентным спуском (SGDClassifier).

Логистическая регрессия (Logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам[Соболева].

Наивный байесовский классификатор — простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости. В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия. [Rish, 2001]

Достоинством метода является простота его реализации и то, что метод обладает минимальной вероятностью ошибок, также потребность в малом количество данных для обучения, необходимых для оценки параметров, требуемых для классификации

Деревья классификации (деревья решений) Деревья решений отлично справляются с задачами классификации, т.е.

отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения[Шахиди]. Random Forest - это алгоритм машинного обучения, заключающийся в использовании ансамбля решающих деревьев. Основная идея заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт невысокое качество классификации, но за счёт их большого количества результат получается хорошим.

Метод стохастического градиента Градиентные методы - это широкий класс оптимизационных

алгоритмов, используемых не только в машинном обучении. [Бросалин] Возможны 2 основных подхода к реализации градиентного спуска: 1. Пакетный (batch), когда на каждой итерации обучающая выборка

просматривается целиком, и только после этого изменяется. Это требует больших вычислительных затрат. [Бросалин]

2. Стохастический (stochastic/online), когда на каждой итерации алгоритма из обучающей выборки каким-то (случайным) образом выбирается только один объект. Таким образом вектор настраивается на каждый вновь выбираемый объект. [Бросалин]

Главным достоинством SGD (stochastic gradient descent) можно назвать его скорость обучения на избыточно больших данных.

3 Реализация информационной системы выявления схожих пользовательских запросов

Информационная система включает в себя 2 модуля:

Page 83: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

82

1. Скрипт для анализа текста, в котором реализованы методы классификации. Язык разработки – Phyton.

2. Конфигурация на платформе 1С, в которую загружаются пользовательские обращения, и которая представляет интерфейс для анализа текста.

Задача классификации текстов при помощи машинного обучения решается в два этапа: этап обучения и этап применения. На этапе обучения строится алгоритм обучения. Входные данные для алгоритма - это обучающая выборка, состоящая из множества объектов, каждый из которых задан вектором признаков и меткой одного из классов. Такая выборка представляется в виде файла формата «.xlsx» и содержит следующие поля: описание, услуга, объект обслуживания.

По обучающей выборке алгоритм обучения строит классификатор, который на этапе применения будет предсказывать метки классов для объектов, не входящих в обучающую выборку. Для этого формируется файла формата «.xlsx», содержащий описание запроса, который выгружается из интерфейса 1С.

Точность классификатора - это отношение правильно классифицированных объектов к общему числу классифицированных объектов, вычисляется по формуле (1): = , (1)

где P – количество документов, по которым классификатор принял правильное решение, а N – размер обучающей выборки.

Между модулями системы происходит файловый обмен. В системе 1С содержится обработка «Классификатор текста», которая предоставляет возможность выполнить обучение одной из четырех моделей и выполнить классификацию введенного текста.

На этапе обучения, как показано на рисунке 1, происходит выбор модели классификации и файла с обучающей выборкой, после программно формируется bat-файл, в которой прописываются команды и параметры для запуска скрипта для выполнения обучения.

Page 84: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

83

Рисунок 1 – Обучение модели

На этапе анализа необходимо указать текст описания пользовательского запроса и нажать «Выполнить» как показано на рисунке 2. Описание сохраняется в файл формата «.xlsx», аналогично этапу обучения будет сформирован bat-файл для запуска скрипта, на вход которого будет поступать данный файл. По завершению выполнения скрипта будут сформированы файл с результатом классификации и файл, содержащий данные о точности модели, которые будут загружены в интерфейс для визуального предоставления результатов.

Рисунок 2 – Результаты классификации текста

Page 85: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

84

4 Сравнение моделей классификации

В системы были выполнены эксперименты для каждой из моделей. Все модели были обучены на одной обучающей выборке, содержащей 9276 строк.

Результаты классификации и точность моделей для характеристики «Объект обслуживания» представлены в таблице 1.

Таблица 1 – Результаты анализа для характеристики «Объект обслуживания» Описание\Модель Logistic

Regression RandomFores

tClassifier MultinomialN

B SGDClassifier

Объект обслуживания ошибка возврата

НДФЛ сотруднику

1С:ЗУП 1С:ЗУП 1С:ЗУП 1С:ЗУП

просьба изменить наименование структурного

подразделения в 1с бп

1С:Бухгалтерия

1С:Бухгалтерия

SAP R3 1С:Бухгалтерия

в SAP R3 нужно реализовать доработку по загрузке МВЗ

SAP R3 SAP R3 SAP R3 SAP R3

нужно изменить отчет для кадрового

персонала в 1с

1С:Бухгалтерия

1С:Бухгалтерия

SAP R3 1С:ЗУП

Точность модели, %

62,76 60,15 59,83 63,3

Наилучшей моделью в правильности определения «объекта

обслуживания» оказалась «SGDClassifier», которая обладает наибольшей точностью из представленных моделей. Плохие результаты показала модель «MultinomialNB».

Результаты классификации и точность модели для характеристики «Услуга» показаны в таблице 2.

Наилучший результат в предположении характеристики «Услуга» показала модель LogisticRegression. Наихудшей оказалась модель «MultinomialNB».

Page 86: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

85

Таблица 2 – Результаты анализа для характеристики «Услуга» Описание\Модель Logistic

Regression RandomFores

tClassifier MultinomialN

B SGDClassifier

Услуга ошибка возврата

НДФЛ сотруднику

Диагностика и

устранение внештатных ситуаций

Диагностика и устранение внештатных ситуаций

Диагностика и устранение внештатных ситуаций

Диагностика и устранение внештатных ситуаций

просьба изменить наименование структурного

подразделения в 1с бп

Ведение НСИ

Консультирование по функциям системы

Диагностика и устранение внештатных ситуаций

Ведение НСИ

в SAP R3 нужно реализовать доработку по загрузке МВЗ

Внесение изменений

в ИС

Администрирование учетных записей

пользователей

Диагностика и устранение внештатных ситуаций

Внесение изменений в

ИС

нужно изменить отчет для кадрового

персонала в 1с

Диагностика и

устранение внештатных ситуаций

Консультирование по функциям системы

Диагностика и устранение внештатных ситуаций

Ведение НСИ

Точность модели, %

85,34 76,66 66,99 87,84

5 Заключение

Все модели классификации показали неплохую точность результатов. Однако лучшие результаты при определении характеристики «Объект обслуживания» показала модель «SGDClassifier», а характеристики «Услуги» - «LogisticRegression».

Данные модели обладают рядом достоинств и недостатков. Точность результатов зависит от количества данных в обучающей выборке, поэтому с увеличением базы данных можно будет увеличить размер обучающей выборки, и тем самым повысить точность результатов. Главным недостатком является сложность структуры написание текста обращения, которое влияет на результат предсказаний, поэтому возможно полученные точности являются пределом для этой задачи.

Список литературы

[Ikonomakis и др., 2005] M. Ikonomakis, S. Kotsiantis, V. Tampakas Text Classification Using Machine Learning Techniques [Электронный ресурс]

Page 87: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

86

– Режим доступа: http://infoautoclassification.org/public/articles/Ikonomakis-et.-al._Text-Classification-Using-Machine-Learning-Techniques.pdf

[Rish, 2001] Rish I. An empirical study of the naive Bayes classifier – [Электронный ресурс] – режим доступа: https://www.researchgate.net/publication/228845263_An_Empirical_Study_of_the_Naive_Bayes_Classifier

[Sumathy, Chidambaram] Sumathy K.L., Chidambaram M. Интеллектуальный анализ текста [Электронный ресурс] – Режим доступа: http://research.ijcaonline.org/volume80/number4/pxc3891685.pdf

[Бросалин] Бросалин Д. С. Использование методов машинного обучения для создания биржевого робота – [Электронный ресурс] – режим доступа: https://ipi1.ru/images/PDF/2016/54/ispolzovanie-metodov-mashinnogo.pdf

[Ночевнов, 2015] Ночевнов Е. В. Разработка инструмента для анализа запросов пользователей в прикладных системах (на примере Redmine), Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2015, номер 4, 66–71 [Электронный ресурс] – Режим доступа: http://www.mathnet.ru/links/11509a3ba72e9eb9e8db2cf680f8bd1a/vagtu403.pdf

[Соболева] Соболева Д. Многоклассовая логистическая регрессия – [Электронный ресурс] – режим доступа: https://algowiki-project.org/ru/Участник:Дарья_Соболева

[Шахиди] Шахиди А. Деревья решений — общие принципы работы [Электронный ресурс] – Режим доступа: https://basegroup.ru/community/articles/description STUDY OF APPLICATION OF METHODS OF TEXT MINING IN THE TASK OF IDENTIFYING SIMILAR

USER QUERIES

Voronina V.V. ([email protected]) Zolotova K.P. ([email protected]),

Ulyanovsk state technical University, Ulyanovsk

The paper studies the intellectual analysis of text in the task of investigating similar user requests. A comparison is made between the results of several classification models that are obtained with the help of software implementation.

Keywords: classification, service, text analysis, model, user request, the accuracy of the model, system, service object.

Page 88: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

87

УДК 004.9

КЛАСТЕРНЫЙ АНАЛИЗ С ПОМОЩЬЮ ПРОГРАММЫ ALISOFT

Булатова В.Ф. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В работе описан функционал программы, которая реализует иерархические агломеративные методы кластерного анализа. Описаны преимущества созданной программы по сравнению со стандартными пакетами статистического анализа.

Ключевые слова: кластерный анализ, матрица расстояний, метрика, Visual Studio

1 Введение

Кластерный анализ – один из методов многомерного анализа, который предназначен для получения однородных групп (кластеров) объектов [Буреева, 2007]. Разбиение на кластеры происходит с помощью некоторой метрики, например, евклидова расстояния, которая посредством формирования матрицы расстояния и используя определенные методы объединения кластеров, образует группы схожих объектов. Дендрограмма – это графическое изображение результата процесса последовательной кластеризации, осуществляемой на основе матрицы расстояний [Мандель, 1988].

Стоит учесть тот факт, что кластерный анализ не позволяет сделать статистические выводы, так как он является описательной процедурой, но дает хорошую возможность изучить структуру совокупности исследуемых данных [Сокэл, 1980].

2 О программе

Для кластерного анализа с помощью агломеративных методов была создана и протестирована программа AliSoft в среде Visual Studio 2012 на языке C# на платформе .NET 4.5. Код программы так же редактируется в Visual Studio версии 2010, 2013, 2015. Главное условие, чтобы имелась платформа .NET 4.5. В случае с Visual Studio 2010 программа доступна для редактирования и при имеющейся платформе .NET 4.0.

Page 89: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

88

Для создания приложения использовались следующие движки: Windows Forms - для создания графического интерфейса

пользователя (ГИП, GUI); библиотека .NET System.Drawing - для отрисовок в формах.

Пространство имен System.Drawing обеспечивает доступ к базовым функциональным возможностям графического интерфейса.

Для автоматического тестирования использовался движок Catosaur.Aerobics для .NET 4.5, и тестовые таблицы [Алиева, 2017b].

Интерфейс программы представлен на рисунке 1.

Рисунок 1 – Интерфейс программы

Для того, чтобы пользователь правильно определил алгоритм своих действий в программе и узнал специфику использования определенных пунктов программы, в интерфейсе программы имеется кнопка «?», означающая справку (рис.1, п.3).

В данном программном продукте имеется возможность стандартизации исходных данных, благодаря чему матрица расстояний может формироваться на основе исходных, либо нормированных данных, в зависимости от специфики мер расстояния. Действие стандартизации выставляется вручную (рис.1, п.2).

Стандартизация используется для того, чтобы сделать исследуемые признаки безразмерными, иначе все производимые операции с данными будут бессмысленными. Применяется в том случае:

если признаки измерены в различных физических единицах, если признаки измерены в одних и тех же единицах, но имеют

очень большой разброс значений, для того, чтобы такие признаки не оказались доминирующими.

Page 90: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

89

Так как не для всех мер расстояния необходима нормировка данных, то изначально метка стандартизации данных в программе снята.

Еще одним достоинством программы является то, что при ее использовании имеется возможность наблюдать за всем процессом построения дендрограмм на разных шагах кластеризации.

Можно определить алгоритм процесса кластеризации в программе в виде следующей последовательности действий:

Первый этап работы – выбор необходимых исходных данных (рисунок 1, п.1). Заметим, что исходные загружаются из предварительно подготовленных файлов. Если в папку, откуда загружаются данные, добавить другой файл формата .txt, то он так же появится в выпадающем списке данных.

После выбора определенной статистики исходные данные при нажатии на кнопку «Обновить» справа загружаются в специально отведенное окно для вывода данных (рисунок 1, п.4).

Для таблиц имеется возможность указывать, сколько символов (вместе с пустотами) занимает каждая колонка (столбец). Необходимо учитывать, что если ячейка превышает заданное число, то вся строка будет неровной. Кроме того, имеется возможность открыть данные в новом окне.

Каждая ячейка окрашивается согласно её назначению: у минимальных значений красная заливка ячейки, у максимальных значений ячейка имеет синий фон, обычные значения – белый (рисунок 1, п.4).

Одним из важнейших преимуществ является возможность редактирования исходных данных и добавления новых (рисунок 1, п.4).

Редактор таблиц состоит из 2 вкладок - ячейки и строки/столбцы. Таблицу можно просматривать, и, если возможно (опционально, т.е.

если отключена стандартизация) - редактировать. Естественно, опция редактирования по умолчанию включена, так как это редактор.

Чтобы отредактировать ячейку, необходимо нажать на нее и изменить значение ячейки, после чего нажать ENTER (но ENTER не обязательно). Чтобы отменить изменения необходимо нажать ESCAPE и будет восстановлено старое значение.

Во вкладке "Строки/Столбцы" можно смотреть текст таблицы, копировать его и (опционально) свободно менять таблицу: добавлять, изменять или удалять ячейки, добавлять строки и столбцы, так же переименовывать их.

Второй этап работы – выбор метода объединения кластеров. Выбор осуществляется из представленных на форме методов (рисунок 1, п.5).

AliSoft реализовывает следующие методы кластерного анализа: метод одиночной связи (ближнего соседа), метод полной связи (дальнего соседа), метод невзвешенного попарного среднего и метод взвешенного попарного среднего.

Page 91: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

90

Третий этап работы – выбор меры расстояния между объектами (рисунок 1, п.6).

Матрицы расстояний рассчитываются по следующим мерам расстояния: евклидово расстояние, квадрат евклидова расстояния, манхэттенское расстояние, метрика Брея-Кертиса и метрика на основе корреляции. Отметим, что евклидово расстояние (и его квадрат) высчитывается по исходным, а не по стандартизованным данным, поэтому для данных мер расстояния будут использованы исходные данные, а для остальных метрик – стандартизированные данные.

В отличие от стандартных метрик для нахождения матриц расстояний, которые используются в стандартных математических пакетах, данный программный продукт включает также метрику Брея-Кертиса: d (x, x ) = ∑ | || |. (1)

и метрику на основе корреляции: d(x, x ) = 1 − |r |. (2)

Выражение манхэттенского расстояния часто делится на среднее сумм по координатам. В этом случае образуется такой вид расстояния, который называется метрикой Брея-Кертиса. Данная метрика будет использоваться для более детальной проверки процесса кластеризации [Алиева, 2017а].

Метрика на основе корреляции применяется для исследования взаимосвязи двух переменных, она помогает определить, насколько пропорциональна изменчивость двух переменных. Так как в уравнении метрики коэффициент метрики вычитается из единицы, то чем сильнее связи между переменными, тем меньше расстояние между ними [Мандель, 1988].

Результат выбора определенной меры расстояния загружается во вкладку «Матрицы расстояний», но при этом учитывается и метод объединения (стандартно выбран метод полной связи и евклидово расстояние).

Четвертый этап – стандартизация данных (рисунок 1, п.2). Необходимо поставить галочку возле кнопки «Стандартизация», если у выбранной меры расстояния имеется условие, определяющее необходимость стандартизации, затем нажать кнопку «Обновить». При проставлении галочки стандартизированные данные подтягиваются в специальное отведенное для них место, т.е. туда же, куда подтягиваются и исходные данные.

Построение дендрограмм по методам и при различных видах расстояний полноценно реализовывается только при выполнении пятого этапа.

Page 92: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

91

Пятый этап – это выбор шага кластеризации для объединения в кластеры (рисунок 1, п.7). В программу внедрена возможность наблюдать результаты построения дендрограмм и новую сформированную матрицу объединения на разных этапах кластеризации (рисунок, п.11).

Матрица объединения и реальная дендрограмма будет сформирована на n-1 шаге, т.к. мы имеем 24 объекта, то конечный результат мы получим на 23 шаге.

В окне результатов во вкладке «Расстояния» (рисунок 1, п.8) можем наблюдать построенную по метрике матрицу расстояний n x n при чем на любом шаге.

Во вкладке «Объединение кластеров» (рисунок 1, п.9) возможно просмотреть вновь сформированную матрицу на определенном этапе кластеризации, причем к таблице выделены максимальный (синий) и минимальный (красный) элемент. А во вкладке «Дендрограммы» (рисунок 1, п.10) наблюдать результат построения дендрограммы на выбранном шаге.

Построение дендрограмм – это важнейший пункт данной программы, так как результат иерархических агломеративных методов кластерного анализа представляется в визуальном виде – в виде дендрограмм. Поэтому очень важно проверить, что результат построения дендрограмм в данном программном продукте правильный. Для проверки используем известный математический пакет Statistica [StatSoft].

Например, в качестве исходных данных возьмем коэффициенты рождаемости, метод полной связи, евклидово расстояние (рисунки 2-3).

Рисунок 2 – Результат построения дендрограммы в программе

Page 93: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

92

Рисунок 3 – Дендрограмма в пакете Statistica

Как мы можем наблюдать, результаты методов в программе AliSoft и математическом пакете Statistica совпадают. Следовательно, можно сделать вывод, что программа в целом (в частности, расчет матриц расстояний, объединение кластеров, отрисовка дендрограммы по методам) разработана корректно.

3 Заключение

С помощью данной программы исследуется применение иерархических агломеративных методов кластерного анализа для обработки коэффициентов рождаемости, смертности и миграции на 1000 человек населения в Ульяновской области с 2004 по 2014 годы и делаются выводы на основе построения дендрограмм о группировке кластеров, а также о выбросах [Рыбкина и др, 2016].

Актуальность разработки и применения данной программы заключается в том, что результаты исследования социально-экономических показателей, взятых в работе в качестве исходных данных,

Page 94: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

93

могут быть использованы для выявления и анализа общих для кластера характеристик.

Описанная программа AliSoft позволяет выполнить кластерный анализ и проследить результаты расчетов на каждом шаге построения дендрограмм, что повышает эффективность разбиения совокупности муниципальных образований на группы, близкие по показателям. После статистических исследований каждого из полученных кластеров и, соответственно, обнаруженных выбросов, возможна разработка математических моделей для каждого кластера [Родионова и др., 2014].

Список литературы

[Алиева, 2017а] Алиева В.Ф., науч. рук. Родионова Т.Е. Применение методов кластерного анализа для анализа рождаемости в регионе / В сборнике: Прикладная математика и информатика: современные исследования в области естественных и технических наук Материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. 2017. С. 23-26.

[Алиева, 2017b] Алиева В.Ф., науч. рук. Родионова Т.Е. Применение агломеративных методов кластерного анализа для анализа смертности в Ульяновской области / Сборник научных трудов IX Всероссийской научно-технической конференции «Информатика и вычислительная техника» (ИВТ-2017) Ульяновск, 31 мая - 2 июня 2017г. - Ульяновск: УлГТУ, 2017. с19-24

[Буреева, 2007] Буреева Н.Н. Многомерный статистический анализ с использованием «STATISTICА». учебно методический материал / Буреева Н.Н. – Нижний Новг.: Из во Нижегородского государственного университета им. Н.И. Лобачевского. 2007. – 112 с.

[Мандель, 1988] Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика. 1988.

[Рыбкина и др., 2016] Рыбкина М.В., Родионова Т.Е., Лаптев Н.В. Регулирование трудовой мобильности как фактор инвестиционной привлекательности региона (на примере Ульяновской области) / Вестник Университета (Государственный университет управления). 2016. 6. С. 34-39

Page 95: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

94

[Родионова и др., 2014] Родионова Т.Е., Рыбкина М.В. Применение математического моделирования для анализа влияния социальной сферы на качество жизни населения (на примере Ульяновской области) / Экономический анализ: теория и практика. 2014. 32 (383). С. 61-66.

[Сокэл, 1980] Сокэл Р.Р. Кластер-анализ и классификация: предпосылки и основные направления. /Под ред. Дж.Вэн Райзина М: Мир, 1980, с. 7-19

[StatSoft] StatSoft. Кластерный анализ. [Электронный ресурс] //. Электронный учебник по статистике: [сайт]. URL: http://statsoft.ru/home/textbook/modules/stcluan.html (дата обращения: 02.15.2018).

CLUSTER ANALYSIS WITH ALISOFT PROGRAM

Bulatova V.F. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

In this paper, a program functional is described that implements hierarchical agglomerate methods of cluster analysis. The advantages of the created program are compared with the standard packages of statistical analysis.

Keywords: cluster analysis, distance matrix, metric, Visual Studio

Page 96: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

95

УДК 519.248:681.518.5

КРИТЕРИИ КАЧЕСТВА ОЦЕНКИ ИСПРАВНОСТИ ТЕХНИЧЕСКОГО ОБЪЕКТА

Жуков Д.А. ([email protected]) Клячкин В.Н. ([email protected])

Ульяновский государственный технический университет, Ульяновск

Для распознания состояния технического объекта могут быть использованы различные методы, в том числе методы машинного обучения (нейронные сети, бэггинг деревьев решений, логистическая регрессия, методы бустинга и другие). В статье рассматриваются меры качества распознания исправного состояния объекта: дисперсия ошибки, F-мера, площадь под ROC-кривой

Ключевые слова: техническая диагностика, бинарная классификация, меры качества

1 Введение

Для обеспечения надежности аппаратуры важна диагностика текущего состояния и прогнозирование этого состояния в будущем [Биргер 1978]. При этом активно используются как обычные статистические методы, так и методы машинного обучения. Прогнозирование сводится к оценке состояния объекта на предстоящий интервал времени [Клячкин и др., 2016]. Часто рассматривается и задача обеспечения стабильности функционирования аппаратуры, решаемая как стандартными методами, так и методами многомерного контроля [Клячкин, 2009]. Основная задача контроля – определение вида технического состояния: является объект исправным или неисправным.

Для распознавания исправности состояния объекта проводится бинарная классификация, и объекты подразделяются на исправные и неисправные. Практическая реализация этих методов возможна, например, на базе библиотеки инструментов Statistics and Machine Learning Toolbox в пакете Matlab [Жуков и др., 2018].

Распознавание состояния объекта проводится по результатам измерений показателей функционирования. В качестве исходных данных рассматривается множество N прецедентов (x(i), y(i)), i = 1…N: объекты с

Page 97: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

96

заданными d показателями функционирования х = (х1, х2, …, хd) и соответствующими состояниями y, принимающими одно из двух значений (0,1); y = 1 соответствует исправному состоянию, y = 0 – неисправному. На основе этих данных надо восстановить зависимость между показателями функционирования и состоянием объекта. Это частный случай одной из задач машинного обучения – классификации при обучении по прецедентам.

Оценки качества классификации, полученной методами машинного обучения, существенно отличаются в зависимости от выбранного критерия.

2 Метрики качества классификации

Для того, чтобы корректно отобразить качество уже обученного классификатора могут быть использованы различные метрики [Соколов, 2016]. Учитывая в дальнейшем определенную метрику или совокупность метрик, можно будет точнее определить наилучший метод классификации.

2.1Дисперсия ошибки (доля неправильных ответов) Самой простой и понятной метрикой является дисперсия ошибок или

доля правильных ответов [Klyachkin et al., 2017]: = 1 ( − )

Однако данная метрика является малоинформативной в задачах с неравными классами, что может привести к неправильной интерпретации полученных результатов.

2.2 F-мера Более информативными критериями, чем доля неправильных ответов

являются точность (precision) и полнота (recall). = + , = + ,

где TP– количество правильно классифицированных исправных состояний, FP– количество неправильно классифицированных исправных состояний, FN– количество неправильно классифицированных неисправных состояний.

Page 98: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

97

Таблица 1 – Матрица ошибок y = 1 y = 0 = 1 True Positive (TP) False Positive (FP) = 0 False Negative (FN) True Negative (TN)

Точность – доля объектов, классифицированных как положительные, в

действительности, являющиеся положительными. Полнота – доля положительных объектов, выделенных классификатором.

Один из методов объединения точности и полноты в одну метрику качества – F-мера (среднее гармоническое этих двух характеристик): = 2 ∗ ∗+ .

Гармоническое среднее не зависит от распределения классов, а также близко к нулю, если хотя бы один из аргументов близок к нулю.

2.3 Площадь под ROC-кривой При конвертации вероятности принадлежности к классу, выбирается

порог t. Логичным кажется порог равный 0.5, но зачастую он не является оптимальным [Wittenetal., 2005].

Чтобы оценить модель, не привязываясь к выбору порога, можно использовать – площадь под ROC-кривой (рисунок 1). Для построения кривой ошибок по оси абсцисс откладывается FPR (FalsePositiveRate), а по оси ординат TPR (TruePositiveRate). = + , = + .

Каждая точка на графике соответствует выбору некоторого порога. Площадь под кривой показывает качество алгоритма. Крутизна кривой является важной характеристикой – мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеальном случае должна стремиться к точке (0,1).

Page 99: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

98

Рисунок 1 – График ROC-кривой

3 Численное исследование

Для исследования качества метрик была использована кросс-валидация, при которой выборка разбивается на N частей (блоков). (N – 1) часть используется для обучения, а одна – для контроля. Последовательно перебираются все варианты: процесс повторяется N раз так, чтобы каждый из блоков использовался один раз как тестовый набор. Для каждого разбиения решается задача обучения по выборке lо и вычисляется функция ошибок Q(a,X) на контрольной выборке lк. Среднее значение этой функции по всем вариантам разбиения и характеризует обобщающую способность алгоритма и по существу, является оценкой качества диагностики технического объекта по рассматриваемому алгоритму.

Для проведения испытаний использовались данные по двум техническим объектам, работа которых определяется восьмью показателями функционирования; по объекту 1 получено 348 наблюдений (из них в 246 объект оказался исправным), по объекту 2 – 1557 наблюдений (исправное состояние в 1204 случаях). В качестве классификаторов применялись методы машинного обучения: нейронные сети (НС), бэггинг деревьев решений (БДР), логистическая регрессия (ЛР), методы бустинга: AdaBoost (AB) и GentleBoost (GB).

В таблице 2 представлены полученные значения метрик качества классификации для первого объекта.

Page 100: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

99

Таблица 2 – Меры качества для объекта 1 Точность Полнота F-мера AUC-ROC

ЛР 0,22 0,85 0,85 0,85 0,84

НС 0,23 0,86 0,84 0,84 0,87 БДР 0,18 0,88 0,87 0,87 0,93 AB 0,20 0,87 0,85 0,86 0,81 GB 0,22 0,85 0,84 0,84 0,85

Из таблицы 2 видно, что лучшим методом по всем мерам получился бэггинг деревьев решений.

Таблица 3 – Меры качества для объекта 2 Точность Полнота F-мера AUC-ROC

ЛР 0,21 0,99 0,79 0,88 0,57

НС 0,22 0,99 0,78 0,87 0,55 БДР 0,22 0,95 0,80 0,87 0,61 AB 0,21 0,98 0,79 0,88 0,58 GB 0,22 0,97 0,79 0,87 0,63

Для второго объекта значения некоторых метрик качества получились значительно хуже, чем для первого объекта, однако значения точности и F-меры получились достаточно высокими.

4 Заключение

Использование различных метрик качества классификации позволяет лучше оценить качество классификации. Проведенное исследование показывает неоднозначность этой оценки по различным критериям. Например, для объекта 1 по критерию худший вариант – НС (самая большая дисперсия), а по критерию ROC – АВ (наименьшее значение площади). Выбор метрики определяется конкретными входными данными, а также методами их предварительной обработки: использования стандартизации данных, удаления незначимых показателей качества функционирования объекта и др.

Список литературы

[Биргер 1978] Биргер И.А. Техническая диагностика. – М. : Машиностроение, 1978. – 240 с.

[Воронина и др., 2017] Воронина В.В. Теория и практика машинного обучения : учебное пособие / В. В. Воронина, А. В. Михеев, Н. Г. Ярушкина, К. В. Святов. –Ульяновск : УлГТУ, 2017. – 290 с.

Page 101: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

100

[Воронцов, 2016] Воронцов К.В. Машинное обучение. Композиция классификаторов https://yadi.sk/i/FItIu6V0beBmF

[Жуков и др., 2018] Жуков Д.А., Клячкин В.Н. Диагностика исправности технического объекта с использованием пакета Matlab // Перспективные информационные технологии: труды Международной научно-технической конференции. – Самара: Изд. Самарского научного центра РАН. 2018. С. 55-57.

[Клячкин, 2009] Клячкин В.Н. Статистические методы в управлении качеством: компьютерные технологии. – М.: Финансы и статистика, ИНФРА-М, 2009. –304 с.

[Клячкин и др., 2016] Клячкин В.Н., Кувайскова Ю.Е., Алексеева В.А. Статистические методы анализа данных. – М. : Финансы и статистика, 2016. –240 с.

[Мерков, 2011] Мерков А.Б.Распознавание образов. Введение в методы статистического обучения. – М. : Едиториал УРСС,2011. – 256 с.

[Соколов, 2016] Соколов Е.А. Машинное обучение [Электронный ресурс] http://wiki.cs.hse.ru/ Машинное _обучение _1/2016_ 2017

[Klyachkin et al., 2017] Klyachkin V.N., Kuvayskova Yu.E., Zhukov D.А. The use of aggregate classifiers in technical diagnostics, based on machine learning // CEUR Workshop Proceedings, vol.1903. Data Science. Information Technology and Nanotechnology. 2017. P. 32-35.

[Witten et al., 2005] Witten I.H., Frank E. Data mining: practical machine learning tools and techniques. 2nd ed. – San Francisco : Morgan Kaufmann Publishers, 2005. – 525 р.

STATEMENT OF THE OBJECT OF THE TECHNICAL OBJECT

Zhukov D.A. ([email protected]) Klyachkin V.N. ([email protected])

Ulyanovsk state technical university, Ulyanovsk

Various methods can be used to recognize the state of a technical object, including methods of machine learning (neural networks, decision tree bugging, logistic regression, boosting methods, etc.). In the article, measures of the quality of recognition of an operational state of an object are considered: error variance, F-measure, area under the ROC curve

Keywords: technical diagnostics, binary classification, quality measures

Page 102: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

101

УДК 004.9

МЕТОДИКА РАЗРАБОТКИ ОНТОЛОГИИ В ПРЕДМЕТНОЙ ОБЛАСТИ ПРОГРАММНОЙ

ИНЖЕНЕРИИ*

Долгановская А.Ю. ([email protected]) Ярушкина Н.Г. ([email protected])

Ульяновский государственный технический университет, Ульяновск

Работа посвящена описанию методика разработки онтологии в предметной области программной инженерии. В качестве примера использования методики проводится онтологический анализ ГОСТ 28195-89 «Оценка качества программных продуктов». Онтология имеет формат OWL и строится с помощью редактора Protégé 5.0

Ключевые слова: онтология, программная инженерия, методология построения онтологии

1 Введение

Онтология – это модель представления знаний определенной предметной области, которая состоит из множества определений основных понятий (имен классов, индивидуумов, свойств объектов и т.д.), а также различного рода семантических связей между ними. В основе онтологии находится словарь терминов, отражающих понятия предметной области, и совокупность правил (аксиом), согласно которым эти термины могут быть скомбинированы для построения достоверных утверждений о состоянии рассматриваемой области в некоторый момент времени [studopedia.ru, 2015].

Для систематизации, интерпретации и специфицирования знаний в области программной инженерии, а также для их дальнейшего хранения и использования были разработаны онтологии на основе ГОСТов программной инженерии.

В данной статье рассматривается методология создания онтологий в предметной области программной инженерии и приводится пример ее

* Работа выполнена при финансовой поддержке РФФИ (проект 17-07-00973).

Page 103: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

102

использования на основе онтологического анализа ГОСТ 28195-89 «Оценка качества программных продуктов».

2 Этапы построения онтологии в предметной области программной инженерии

Обобщенная методика разработки онтологий в предметной области программной инженерии включает в себя следующие шаги:

1. Перечисление основных терминов предметной области Процесс разработки онтологии обычно начинается с составления

глоссария терминов, который в дальнейшем используется для исследования свойств и характеристик, представленных в нем сущностей [ict.nsc.ru]. Первоначально важно получить полный список таких терминов, не беспокоясь о пересечении понятий, которые они представляют, об отношениях между терминами, о возможных свойствах понятий или о том, чем являются понятия – классами или индивидами [w.ipages.ru].

Следующие три этапа – определение классов и индивидов, разработка иерархии классов и определение свойств объектов и их иерархия, – тесно взаимосвязаны между собой, и практически выполняются параллельно.

2. Определение классов На этом этапе из выделенных в предыдущем пункте сущностей

необходимо определить, какая из них является классом, а какая относится к представителям индивидов или свойств. Для этого необходимо помнить, что каждый класс описывает группу сущностей (индивидов), которые имеют общие характеристики [Сытник и др., 2015]. Из списка, составленного на предыдущем шаге, выбираются термины, описывающие типы независимо существующих объектов. Именно они становятся классами, которые в дальнейшем организуются в иерархическую таксономию. Уже на этом этапе важно различать классы и принадлежащие им индивиды.

3. Разработка иерархии классов Основным отношением между классами является иерархическое

отношение «класс-подкласс». Класс А является подклассом класса B, если все экземпляры класса А являются экземплярами класса В [Наместников, 2016].

Существует несколько возможных подходов для разработки иерархии классов [Uschol и др., 1996]:

процесс нисходящей разработки начинается с определения самых общих понятий предметной области с последующей конкретизацией понятий;

Page 104: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

103

процесс восходящей разработки начинается с определения самых конкретных классов, листьев иерархии, с последующей группировкой этих классов в более общие понятия;

процесс комбинированной разработки – это сочетание нисходящего и восходящего подходов: сначала определяются более заметные понятия, а затем соответствующим образом они обобщаются и ограничиваются.

Для организации классов в иерархическую таксономию при построении отологий предметной области программной инженерии используется третий подход комбинированной разработки, включающий в себя ответы на вспомогательный вопрос: если объект является экземпляром одного класса, будет ли он обязательно экземпляром некоторого другого класса?

4. Определение свойств объектов и их иерархия Определение свойств часто выполняется параллельно с определением

классов, при этом естественно определять свойства, связывающие классы, именно при определении и организацию этих классов в иерархию. На этом этапе для выделенных свойств целесообразно сразу указывать их домен, диапазон и характеристики.

5. Определение аксиом классов, свойств и проверка онтологии на согласованность

На этом шаге происходит наложение ограничений на свойства и классы. После этого в процессе разработки онтологию возможно проверить на внутреннюю согласованность в редакторе с помощью машины логического вывода.

6. Определение индивидов Для того чтобы онтологию можно было использовать на практике, ее

необходимо наполнить конкретными индивидами. Индивид является представителем или экземпляром конкретного класса.

7. Проверка онтологии с индивидами на согласованность После наполнения онтологии экземплярами необходимо проверить

онтологию на согласованность. Это также осуществляется с помощью машины логического вывода. Но если предыдущая проверка была направлена на выявление аномалий в структуре классов и свойств с учетом заданных ограничений, то эта – на выявление аномалий в классификации индивидов.

3 Пример применения методики построения онтологии в предметной области программной инженерии

В качестве примера применения представленной методики в предметной области программной инженерии приводится онтологический

Page 105: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

104

анализ межгосударственного стандарта «Оценка качества программных средств» (ГОСТ 28195-89) [docs.cntd.ru, 1989], реализация которого проводилась в редакторе онтологий Protégé 5.0.

ГОСТ 28195-89 устанавливает общие положения по оценке качества программных средств вычислительной техники (далее – ПС), поставляемых через фонды алгоритмов и программ (ФАП), номенклатуру и применяемость показателей качества ПС.

Изучив стандарт, был сформирован список его основных терминов. Часть выделенных сущностей представлена в Таблице 1.

Таблица 1 – Частичный список терминов ГОСТ 28195-89 Термин

Оценка качества ПС Операции оценки качества Выбор номенклатуры показателей качества Определение значений показателей качества Сравнение показателей качества с базовыми значениями Методы определения показателей качества ПС По способам получения информации ОПС Измерительный метод Регистрационный метод Органолептический метод Расчетный метод По источникам получения информации Традиционный метод Экспертный метод Социологический метод

Проанализировав полученный список терминов, было выделено 104 класса, из которых была организована иерархическая таксономия. Кроме этого из этого списка были выявлены индивиды, и была определена принадлежность этих индивидов классам. Часть иерархии классов и индивидов представлена в таблице 2.

Page 106: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

105

Таблица 2 – Иерархическая таксономия классов и индивидов Наименование класса Индивиды

ОценкаКачества ПС ОперацииОценкиКачества • Выбор номенклатуры

показателей качества • Определение значений

показателей качества • Сравнение показателей

качества с базовыми значениями

МетодыОпределенияПоказателей КачестваПС

ПоСпособамПолучения ИнформацииОПС

• Измерительный метод • Регистрационный метод • Органолептический метод • Расчетный метод

ПоИсточникамПолучения Информации

• Традиционный метод • Экспертный метод • Социологический метод

Из таблицы видно, что классы ОценкаКачестваПС, ОперацииОценкиКачества, МетодыОпределенияПоказателейКачества ПС являются классами верхнего уровня, а классы ПоСпособамПолученияИнформацииОПС, ПоИсточникамПолученияИнформации – подклассами класса МетодыОпределенияПоказателейКачестваПС.

Полученная иерархия классов разрабатываемой онтологии была создана в редакторе Protégé 5.0 (рисунок 1).

Page 107: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

106

Рисунок 1 – Разработанная иерархия классов в редакторе онтологий Protege 5.0

Далее были выделены свойства объектов, соединяющие индивидов рассматриваемых классов, перечислены их домены, диапазоны и характеристики. Пример свойств представлен в таблицы 3.

Таблица 3 – Свойства объектов, их характеристики, домены и диапазоны ГОСТ 28195-89

Свойство Домен Диапазон Характеристики ВключаетВСебя ОценкаКачест

ваПС ОперацииОценкиКачества

Обратное Асимметричное Иррефлексивное

ВключаетсяВ ОперацииОценкиКачества

ОценкаКачестваПС

Обратное Асимметричное Иррефлексивное

РешаетЗадачи ОценкаКачестваПС

ОсновныеЗадачиРешаемыеПриОценкеКаче

стваПС

Обратное

Асимметричное

Иррефлексивное

Page 108: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

107

Из таблицы видно, что свойство ВключаетВСебя связывает индивидов из класса ОценкаКачестваПС с индивидами класса ОперацииОценкиКачества. При этом оно обладает следующими характеристиками:

свойство является ассиметричным, так как утверждение «Оценка качества ПС включаетВСебя Выбор номенклатуры показателей качества», где Оценка качества ПС – индивид класса ОценкаКачестваПС, а Выбор номенклатуры показателей качества – индивид класса ОперацииОценкиКачества, является справедливым, а утверждение «Выбор номенклатуры показателей качества включаетВСебя Оценка качества ПС» таковым не является;

свойство является иррефлексивным, так как оно не может связывать любой индивид класса ОценкаКачестваПС сам с собой;

и, наконец, свойство является обратным свойству ВключаетсяВ: если индивид класса ОценкаКачестваПС связан с индивидом класса ОперацииОценкиКачества с помощью свойства ВключаетВСебя, то индивид класса ОперацииОценкиКачества должен быть связан с индивидом класса ОценкаКачестваПС свойством ВключаетсяВ.

Выделенные свойства также созданы в редакторе онтологий Protégé 5.0 (рисунок 2). Им назначены домены, диапазоны и установлены характеристики.

Рисунок 2 – Сформированные свойства в редакторе Protege 5.0

Page 109: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

108

На следующем шаге на свойства и классы были наложение ограничения. При онтологическом анализе были применены универсальные ограничения для 24 классов. Пример такого ограничения представлен на рисунке 3.

Рисунок 3 – Пример универсального ограничения

Представленное ограничение показывает, что класс индивидов УстойчивостьФункционирования, который описывает показатели качества, применяющихся при оценке только Инструментально-технических средств программирования, Операционных средств и средств их расширения и т.д.

Корректность построенной онтологии проверялась с помощью запуска логической машины HermiT 1.3.8.413. Во избежание ошибок в процессе разработки онтологии логическая машина запускалась несколько раз.

4 Заключение

В работе представлена обобщенная методика создания онтологий в предметной области программной инженерии. Ее применение было описано с помощью проведения онтологического анализа ГОСТ 28195-89 «Оценка качества программных средств» в редакторе онтологий Protégé 5.0. Онтология содержит 104 класса, примеры 254 индивидов и примеры 18 свойств. Для большинства классов были указаны ограничения, а для свойств выделены домены и диапазоны. Корректность построенной онтологии была проверена с помощью запуска логической машины HermiT 1.3.8.413. Таким образом, построенная на основе описанной методики онтология является корректной и не противоречивой.

Список литературы

[Сытник и др., 2015] Сытник А.А., Шульга Т.Э., Вагарина Н.С., Мельникова Н.И. Основы построения OWL-онтологий с использованием редактора Protégé desktop 5.0 beta. – Саратов: Сарат. гос. техн. ун-т, 2015. 84 с.

Page 110: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

109

[Наместников, 2016] Наместников А.М. Введение в онтологический анализ. Практический курс на примере Protégé 5.0. – Ульяновск: УлГТУ, 2016. 36 с.

[Uschol и др., 1996] Uschol M., Gruning М. Ontologies: Principles Methods and Application. – The University of Edinburg, 1996. 63 с.

[studopedia.ru, 2015] Понятие онтологии. Общая характеристика подхода [Электронный ресурс]. URL: https://studopedia.ru/7_61685_ponyatie-ontologii-obshchaya-harakteristika-podhoda.html (дата обращения: 24.05.2018).

[docs.cntd.ru, 1989] ГОСТ 28195-89 Оценка качества программных средств. Общие положения [Электронный ресурс]. URL: http://docs.cntd.ru/document/1200009135 (дата обращения: 24.05.2018).

[w.ipages.ru] Ной Н., МакГиннесс Д. Разработка онтологий 101: руководство по созданию Вашей первой онтологии. – Стэнфордский Университет, Стэнфорд, Калифорния, [Электронный ресурс]. URL: http://w.ipages.ru/index.php?ref_item_id=44379&ref_dl=1#_ftn1 (дата обращения: 24.05.2018).

[ict.nsc.ru] Голиков Н.В. Применение онтологий. – Институт вычислительных технологий СО РАН, Новосибирск, [Электронный ресурс]. URL: http://www.ict.nsc.ru/ws/YM2006/10628/golikov.html (дата обращения: 24.05.2018).

METHODOLOGY OF DEVELOPMENT OF ONTOLOGY IN THE SUBJECT FIELD OF PROGRAM ENGINEERING

Dolganovskaya A.Yu. ( [email protected]) Yarushkina N.G. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The work is devoted to the description of the methodology of ontology development in the subject domain of software engineering. As an example of using the methodology, ontological analysis of GOST 28195-89 "Evaluation of the quality of software products" is conducted. The ontology is in OWL format and is built using the Protégé 5.0 ontology editor.

Keywords: ontology, software engineering, methodology of ontology construction

Page 111: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

110

УДК 004.021+004.62

МОДЕЛИРОВАНИЕ ПОЛЬЗОВАТЕЛЯ ИНФОРМАЦИОННОГО РЕСУРСА ДЛЯ ФОРМИРОВАНИЯ РЕКОМЕНДАЦИЙ

Камалетдинова Л.Р. ([email protected]), Романов А.А. ([email protected])

Ульяновский государственный технический университет, Ульяновск

Статья посвящена созданию модели пользователя информационного ресурса с целью формирования рекомендаций. Процесс выдачи рекомендаций включает в себя не только прогнозирование возможных вариантов, которые бы понравились пользователю., Процесс включает этапы формирования моделей пользователей информационных ресурсов, вычисление различий в предпочтениях каждого пользователя, формирование кластеров данных, имеющихся в базе данных каждого пользователя информационного ресурса, определение схожести полученных кластеров и формирование на основании полученного процента схожести окончательных групп пользователей информационного ресурса. Группы представляют собой конкретные модели, с которыми в дальнейшем можно сравнить поведение пользователя в рамках используемого им ресурса с целью формирования единиц, которые бы понравились пользователю. В рамках исследования были изучены существующие методы и выбраны наиболее подходящие для реализации поставленной задачи. В статье освещены этапы формирования рекомендаций, основанные на модели пользователя информационного ресурса.

Ключевые слова: кластеризация, минимальное остовное дерево, взвешенный неориентированный граф, триграммы, алгоритм Краскала, комбинированная функция расстояния, формирование рекомендаций, моделирование пользователя информационного ресурса, коэффициент Жаккара, Евклидово расстояние

Введение

В рамках исследования необходимо разработать модель пользователя информационного ресурса для формирования рекомендаций, которые ему вероятнее всего понравятся. Цель разработки модели пользователя в

Page 112: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

111

рамках данного исследования – повышение качества рекомендаций при выделении товаров ресурса как «избранные». Для достижения поставленной цели необходимо реализовать следующие задачи:

1. Построить модель пользователя информационного ресурса. 2. Определить методы, необходимые для выдачи рекомендаций. 3. Построить алгоритм выдачи рекомендаций. 4. Описать этапы формирования рекомендаций согласно

алгоритму выдачи рекомендаций. Объектом данного исследования является процесс выдачи

рекомендаций пользователю товаров, обладающих некоторыми свойствами, с учетом вводимых параметров пользователя и списка товаров, которые пользователь выделил как понравившиеся. Тогда предметом исследования является моделирование пользователя информационного ресурса для формирования рекомендаций пользователю товаров, обладающих некоторыми категориальными и количественными свойствами, с учетом вводимых параметров пользователя, списка товаров, которые пользователь выделил как понравившиеся, и списков товаров, которые другие пользователи выделили как понравившиеся.

1 Анализ существующих решений

На данный момент известно, что в каждом интернет-магазине реализована функция выдачи рекомендаций при поиске и просмотре товара, поэтому в качестве существующих решений необходимо рассмотреть платформу продажи товаров AliExpress.

Сайт предоставляет рекомендации, основываясь на характеристиках текущего и ранее просмотренных товаров. При добавлении товаров в разделы интернет-магазина «Избранное», «корзина», система выдает 5 единиц, имеющих характеристики, согласно анализируемым ранее товарам. При загрузке главной страницы сайта, авторизовавшись в системе, главная страница собирается не из случайных товаров, а подбираются товары, которые вероятнее всего могут понравиться пользователю. Однако, среди рекомендаций может появится ненужная, лишняя информация, так как система проводит анализ всех просмотренных товаров и, анализируя действия других пользователей, выбирается лишь наличие текущего товара в списке покупок, а сравнение списка товаров пользователей и поиск наиболее схожих интересов среди пользователей не происходит.

Модель пользователя должна учитывать не только схожесть характеристик анализируемых товаров, но и схожесть списков товаров пользователей, проводить анализ товаров, искать наиболее схожие списки пользователей и строить рекомендации уже на основе схожести

Page 113: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

112

пользовательских предпочтений, также, не забывая о характеристиках товаров.

2 Построение модели пользователя

Каждый пользователя ресурса регистрируется в системе и таким образом создается запись в базе данных. Считаем что, каждый пользователь информационного ресурса имеет набор товаров, которые он выделил как понравившиеся. Товары имеют свои характеристики такие, как: Наименование, Категория, Подкатегория, Фирма, Качество, Цена, Бесплатная Доставка, Цвет, Сайт.

Представим перечисленные характеристики товаров, как множества [Новиков, 2017]. Обозначим их следующим образом: множество наименований как NA, множество категорий – CA, множество подкатегорий – SC, множество фирм – F, множество значений характеристики «качество» – Q, множество цен – P, множество значений характеристики «бесплатная доставка» – FP, множество цветов – CO, множество сайтов – S. Так как каждая характеристика товара является элементом множества характеристик, товар представляет собой набор характеристик, представленный в формуле 1: = ( , , , , , , , , ), (1) где ∈ , ∈ , ∈ , ∈ , ∈ , ∈ , ∈ , ∈ , ∈ .

Обозначим множество товаров – T, тогда товар с определенным набором характеристик является элементом множества товаров: ∈ .

Так как пользователь имеет определенный набор товаров, которые он выделил как «избранные», пользователь будет представлен в виде (формула 2.2): = , (2) где ⊆ , а ∈ .

Таких пользователей информационного ресурса может быть несколько и у каждого есть набор предпочитаемых товаров (рисунок 1).

Рисунок 1 – Визуальное изображение пользователей информационного ресурса.

Некоторые товары из списка «понравившиеся» у разных пользователей могут совпадать. Таким образом, создавая модель

Page 114: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

113

пользователя, необходимо выделить кластеры, куда будут входить пользователи с совпадающими предпочтениями (схожими товарами).

Для того чтобы получить кластеры со схожими товарами, необходимо проанализировать все списки товаров пользователей, которые они выделили как «избранные». При анализе списка товаров пользователей необходимо определить отношение количества совпадающих товаров к общему количеству товаров в анализируемых, сравниваемых списках.

Представим списки пользовательских «избранных» товаров как , , … , , где ⊆ , ⊆ , ⊆ . Тогда кластеры будут представлять собой подмножества товаров, полученные в ходе объединения подмножеств пользовательских «избранных» товаров, количество не совпадающих товаров которых минимально (формула 3): = ( _ ∪ ) ⇔ (|( |), (3) где ⊆ , ⊆ , представляющие сравниваемые списки «избранных» товаров пользователей, , ∈ , а множество ⊆ , представляющее кластер.

Процесс формирования кластера, представленный в формуле 3, отображен на рисунке 2.

Рисунок 2 – Визуальное отображение формирования кластеров.

Обозначим множество M, как множество, содержащее набор товаров в модели, ⊆ . Так как полученные кластеры и будут представлять собой модель пользователя информационного ресурса (рисунок 3), то получим формулу 4:

M = K , (4) где множество ⊆ , представляющее кластер, множество ⊆ , содержащее набор товаров в модели.

Page 115: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

114

Рисунок 3 – Модель пользователя информационного ресурса.

Модель пользователя информационного ресурса — кластер, полученный путем объединения пользовательских групп с наибольшим количеством совпадающих «избранных» товаров, имеющих свои характеристики (см. формулу 1), каждого фактического пользователя информационного ресурса.

В случае если списки пользовательских товаров отсутствуют, товары будут кластеризоваться на основе их характеристик (см. формулу 1). Тогда полученные кластеры будут являться моделью пользователя информационного ресурса.

2 Алгоритм выдачи рекомендаций

Согласно построенной модели формирование рекомендаций будет проходить согласно приведенному ниже алгоритму.

Существует несколько случаев, при которых происходит выдача рекомендаций:

1. Существует множество некластеризованных объектов, и у пользователя нет ни одного товара в списке: 1.1. Кластеризуем товары с учетом их характеристик. 1.2. Выбираем кластер, к которому относится товар. 1.3. Формируем и выдаем рекомендации.

2. Существует множество некластеризованных объектов, и у пользователя есть товары в списке: 2.1. Кластеризуем товары с учетом их характеристик. 2.2. Выбираем наиболее схожий с пользовательской группой

кластер. 2.3. Формируем и выдаем рекомендации.

3. Существуют несколько пользовательских групп объектов, и у пользователя нет ни одного товара: 3.1. Выбираем все существующие пользовательские группы

товаров и объединяем их в кластеры. 3.2. Проверяем, к какому кластеру относится текущий товар:

3.2.1. Если товар найден среди пользовательских кластеров: 3.2.1.1. Формируем и выдаем рекомендации.

3.2.2. Если товар не найден среди пользовательских кластеров: 3.2.2.1. Кластеризуем товары с учетом их характеристик.

Page 116: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

115

3.2.2.2. Выбираем кластер, к которому относится товар. 3.2.2.3. Формируем и выдаем рекомендации.

4. Существуют несколько пользовательских групп объектов и у пользователя есть товары в списке: 4.1. Выбираем все существующие пользовательские группы

товаров и объединяем их в кластеры. 4.2. Выбираем наиболее схожий с пользовательской группой

кластер. 4.3. Формируем и выдаем рекомендации.

3 Используемые методы

При вычислении расстояния между объектами будет использоваться комбинированная функция, учитывающая как численные, так и текстовые характеристики.

Для вычисления расстояния между числовыми характеристиками будет использоваться «Взвешенное» евклидово расстояние [Буреева, 2007]. Евклидово расстояние представляет собой геометрическое расстояние между объектами в многомерном пространстве признаков.

А для вычисления меры сходства между текстовыми характеристиками будет использоваться метод триграмм. Метод триграмм подразумевает деление двух текстов по кортежам, состоящим из 3х подряд идущих символов, и их сравнение.

В задаче выбора метода кластеризации был выбран метод, основанный на минимальном остовном дереве [Дьяконов, 2010]. Алгоритм кластеризации, основанный на минимальном остовном дереве [Дьяконов, 2010] – алгоритм, не предполагающий, что кластеры являются сферической формы, и способный выделять кластеры произвольной формы. В основе алгоритма лежит идея построения взвешенного связного неориентированного графа [Кормен и др., 2005]: каждый объект в заданном множестве представляет собой вершину графа, а ребро между двумя вершинами есть расстояние между объектами. На основе графа выполняется построение минимального остовного дерева (дерево, ребра которого имеют минимальное значение, без образования циклов) [Дьяконов, 2010], используя алгоритм Краскала [Белоусов и др., 2006](соединение ребер, имеющих наименьший вес). На основе дерева происходит выделение кластеров путем удаления ребер, имеющих максимальное значение. Алгоритм не подразумевает наличия центров кластеров, и кластеры представляются списком объектов.

В качестве меры схожести групп пользователей будет использоваться коэффициент Жаккара [Елисеева и др., 1977], отражающий насколько общая часть объектов относится к их общему количеству. Коэффициент необходим для кластеризации групп пользователей со схожими

Page 117: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

116

предпочтениями и вычисления меры схожести между кластером и группой пользователя.

Предлагается для процесса формирования и выдачи рекомендаций использовать метод формирования рекомендаций, путем случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе, будет подбирать наиболее оптимальный вариант, учитывая уровень оптимальности, заданный пользователем. Метод для формирования рекомендаций использует такие операторы, как «скрещивание» [Гладков и др., 2006] и «мутация» [Гладков и др., 2006]. В данном проекте «скрещивание» производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе. В качестве объектов-родителей для скрещивания используются объекты одного из кластеров. Полученный объект-потомок подвергается мутации. «Мутация» в рамках данного проекта подразумевает изменение одной из характеристик объекта с целью получения нового объекта. Множество характеристик будет определяться множеством характеристик существующих объектов. В рамках метода формирования рекомендаций разрабатывается функция, выполняющая поиск рекомендаций и определения уровня оптимальности каждого решения. Функция производит поиск возможных товаров-рекомендаций на основе мутированного объекта-потомка по всей базе данных и выбирает те товары, которые соответствуют пользовательскому значению оптимальности.

4 Этапы формирования рекомендаций согласно алгоритму

Для численных характеристик будет использоваться взвешенное Евклидово расстояние [Буреева, 2007], вычисляемое по формуле 5: = ∑( − ) , (5)

где и – значение объекта i-той характеристики, а – вес, указанный изначально в базе данных.

Для вычисления меры схожести одной текстовой характеристики будет использоваться формула 6: = , (6)

где m - количество совпадающих триграмм, a – количество триграмм в значении характеристики 1го объекта, b – количество триграмм в значении характеристики 2го объекта.

Для вычисления меры схожести всех текстовых характеристик будет использоваться среднее арифметическое, отображенное на формуле 7:

Page 118: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

117

= ∑ , (7)

где N - количество текстовых характеристик. Так как значение расстояния R может лежать в диапазоне [0,∞], а

значение схожести S в диапазоне [0,1] – необходимо нормировать параметр R и привести его в диапазон [0,1], используя формулу 8: = _ , (8)

где – максимальное расстояние. Итоговое расстояние прямо пропорционально числовому расстоянию

и обратно пропорционально мере схожести. Получим следующую формулу вычисления итогового расстояния между объектами под номером 9: = 1 − + , (9) где S – мера схожести текстовых характеристик, Rl – мера расстояния между числовыми характеристиками.

2. Кластеризация будет производиться методом [Дьяконов, 2010], основанным на минимальном остовном дереве, в основе которого лежит взвешенный неориентированный граф [Кормен и др., 2005].

В качестве исходных данных имеются объекты O с известными расстояниями между ними I. Матрица расстояний [Носов и др., 2008] для исходных данных будет выглядеть, как представлено в таблице 2, где n принадлежит множеству N (натуральных чисел).

Матрица расстояний является квадратной и симметричной относительно главной диагонали.

Таблица 1 – Матрица расстояний между объектами.

объекты o1 o2 o3 ... on

o1 - I12 I13 ... I1n

o2 - - I23 ... I2n

o3 - - - ... I3n

... ... ... … … ...

on - - - ... -

На основе данной матрицы расстояний строим взвешенный неориентированный граф, представленный в формуле 10

G(O,I) , (10) где G – граф, состоящий из O – множества объектов (o1,…,on) и I – множества расстояний (I12,…,In-1n) между объектами (o1,…,on).

Схематично граф представлен на рисунке 4, где вершинами графа выступают объекты (o1,…,on), а дугами графа с известным значением веса являются расстояния (I12,…,In-1n) между объектами (o1,…,on).

Page 119: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

118

Рисунок 4 – схематичное отображение взвешенного неориентированного графа.

Согласно алгоритму кластеризации, следующим шагом необходимо построить минимальное остовное дерево [Кормен и др., 2005]. Принцип построения дерева заключается в том, чтобы соединять вершины графа, имеющие минимальное значение веса дуги между ними (формула 11) так, чтобы не образовывалось циклов.

Ix = min(I) , (11) где I – множество расстояний (I12,…,In-1n).

Схематичное представление дерева отображено на рисунке 5.

Рисунок 5 – схематичное изображение минимального остовного дерева.

Последним шагом является выделение кластеров из минимального остовного дерева путём удаления ребер, имеющих вес превышающий значение среднего арифметического значения (формула 12).

Ix>average(min(I)) , (12) где I – множества расстояний (I12,…,In-1n).

Схематичное отображение полученных путем удаления ребер из дерева кластеров показано на рисунке 6.

Page 120: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

119

Рисунок 6 – схематичное отображение кластеров.

Таким образом, будут получены кластеры, содержащие объекты, имеющие категориальные и числовые свойства.

3. Отдельным этапом необходимо выделить процесс объединения групп понравившихся товаров пользователей в кластеры. Объединение возможно при наличии одинаковых товаров в обеих сравниваемых группах. Необходимо вычислить коэффициент схожести групп – коэффициент Жаккара, который определяет степень сходства двух множеств [Елисеева и др., 1977].

Коэффициент схожести вычисляется по формуле 13: = ∩∪ , (13)

где A – множество товаров в первой группе, B – множество товаров во второй группе, ∩ – количество одинаковых товаров в обеих группах, а ∪ – количество всех товаров в обеих группах.

Определив для всех пользовательских групп коэффициент схожести, необходимо объединить их в кластеры. Объединение возможно при условии, что коэффициент Жаккара для полученных множеств будет превышать среднее арифметическое значение (14)

(kij>average(K)) , (14) где kij – сравниваемое значение коэффициента Жаккара, K – множество значений коэффициента Жаккара, average(K) – среднее арифметическое значение всех возможных значений коэффициента Жаккара, i,j ∈ N.

Необходимо ввести значение вычисляемой величины, которая бы добавлялась к значению среднего арифметического, в случае если при стандартном значении среднего арифметического происходит объединение всех пользовательских групп в один большой кластер. Данное значение высчитывается, основываясь на количестве значений коэффициента Жаккара (формула 10) равных нулю, и среднее арифметическое, согласно формуле 15: = ( )

, (15)

Page 121: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

120

где average(K) – среднее арифметическое значение всех возможных значений коэффициента Жаккара, а count0 – количество значений коэффициента Жаккара равных нулю.

Для определения меры схожести между кластером и пользовательской группой будет использоваться формула 16, отражающая отношение количества совпадающих товаров пользовательской группы и кластера: = ∩

, (16)

где A – множество товаров в группе, B – множество товаров в кластере, ∩ – количество совпадающих товаров группы и кластера. Присоединение пользовательской группы к кластеру возможно, если

значение коэффициента из формулы 16 будет максимально возможным. 4. Получив кластеры, приступим к формированию рекомендаций. Суть алгоритма формирования рекомендаций в том, что происходит

выбор исходных объектов и выполняется для них скрещивание, а затем мутация одной или нескольких характеристик. Так, будет получен совершенно новый объект. Далее, для полученного нового объекта вычисляется функция оптимальности. Функция возвращает объекты и соответствующие им значения оптимальности. Для данного исследования необходимо, чтобы функция оптимальности возвращала меру схожести с мутированным объектом, и оцениваемый объект существовал в базе данных. Пределы значения функции оптимальности: [0, 1).

Алгоритм включает в себя следующие шаги: 1. Выбираем произвольно объекты внутри кластера. Производим

скрещивание. 2. У получившегося потомка мутируем одну из характеристик

(изменяемое значение лежит в пределах допустимого для каждой характеристики).

3. Рассчитываем оценку, используя функцию оптимальности. Функция, вычисляющая оптимальность рекомендаций,

определяется, как представлено в формуле 17: = ( ) , (17)

где tm – мутированный объект. Функция оптимальности возвращает объекты и

соответствующий им уровень оптимальности согласно формуле 18: ( ) → ( , … , , ) , (18)

где t1, tn – объекты, полученные в ходе вычисления функции

оптимальности, optt – значение оптимальности этих объектов, n ∈ N. 4. Повторяем шаги 1-3 до тех пор, пока выполняются условия:

Page 122: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

121

< , где optt – значение оптимальности рекомендованных объектов, optu – значение оптимальности, установленное пользователем. < , где countt – количество рекомендованных объектов, полученных в ходе вычисления функции оптимальности, countu – количество рекомендованных объектов, установленное пользователем. 5. Выводим потомков, удовлетворяющих условиям пункта 4, в

качестве рекомендаций.

Заключение

В данной работе отражены наиболее важные аспекты формирования рекомендаций:

определена роль пользователя системы, его характеристики и взаимосвязь с товарами ресурса;

определены методы, необходимые для улучшения качества рекомендаций при добавлении единиц ресурса в «Избранное»;

построен алгоритм реализации цели проекта. Разработанный алгоритм выдачи рекомендаций отличается от

существующих аналогов тем, что учитывает не только характеристики товаров, но и мнение других пользователей ресурса.

Список литературы

[Гладков и др., 2006] Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы: Учебное пособие. – 2е изд. – М.: Физматлит, 2006. – 320 с.

[Буреева, 2007] Буреева Н.Н. Многомерный статистический анализ с использованием ППП «STATISTICA». Учебно-методический материал по программе повышения квалификации «Применение программных средств в научных исследованиях и преподавания математики и механики». Нижний Новгород, 2007. – 112 с.

[Дьяконов, 2010] Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (Практикум на ЭВМ кафедры математических методов прогнозирования): Учебное пособие. – М.: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова, 2010. – 278 с.

[Елисеева и др., 1977] Елисеева И.И., Рукавишниов В.О. Группировка, корреляция, распознавание образов: (статистические методы классификации и измерения связей). – М.:Статистика, 1977. – 143с.

[Кормен и др., 2005] Кормен, Т., Лейзерсон, Ч., Ривест, Р., Штайн, К. Глава 23. Минимальные остовные деревья // Алгоритмы: построение и

Page 123: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

122

анализ = Introduction to Algorithms / Под ред. И. В. Красикова. – 2-е изд. – М.: Вильямс, 2005. – 1296с.

[Белоусов и др., 2006] Белоусов А. И., Ткачев С. Б. Дискретная математика. – М.:МГТУ, 2006. – 744 с.

[Носов и др., 2008] Носов В.И., Бернштейн Т.В., Носкова Н.В., Храмова Т.В. Элементы теории графов. Учебное пособие. – Новосибирск, 2008. – 107 с.

[Новиков, 2017] Новиков Ф.А. Дискретная математика: Учебник для вузов. 3е изд. Стандарт третьего поколения. – СПб.: Питер, 2017. – 496 с.: ил. – (Серия «Учебник для вузов»).

MODELING THE USER OF THE INFORMATION RESOURCE TO MAKING RECOMMENDATIONS

Kamaletdinova L.R. ([email protected]), Romanov A.A. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The paper describes the creation of a user model of an information resource to making recommendations. The recommendation process includes not only predicting preferred options for user. The process includes the steps of calculating differences in preferences for each user, clustering available data in the database of each information resource user, determining the similarity of the obtained clusters and forming the similarity of user groups of the information resource based of the obtained similarity percentage. Groups are specific models with which we can later compare the behavior of the user within the resource used by him with the aim of forming units that the user would like. The research describes existing methods the most suitable for the implementation of the task.

Keywords: clustering, minimum spanning tree, weighted undirected graph, trigrams, Kruskal algorithm, combined distance function, forming recommendations, modeling an information resource user, Jaccard coefficient, Euclidean distance

Page 124: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

123

УДК 519.246

МОДЕЛИ СИСТЕМ КВАЗИПЕРИОДИЧЕСКИХ ПРОЦЕССОВ В ВИДЕ ОТСЧЕТОВ ПО СПИРАЛИ НА ДВАЖДЫ СТОХАСТИЧЕСКИХ ЦИЛИНДРИЧЕСКИХ

ИЗОБРАЖЕНИЯХ

Крашенинников В.Р. ([email protected]) Субботин А.Ю. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В работе описываются авторегрессионные модели систем квазипериодических случайных процессов в виде взаимно зависимых отсчетов по спирали на дважды стохастических изображениях, определённых на цилиндре.

Ключевые слова: система квазипериодических процессов, цилиндрическое изображение, дважды стохастическая авторегрессия, взаимное влияние

1 Введение

Процессы и их системы в технических, экономических, медицинских, социальных и других объектах часто имеют квазипериодический характер, то есть, наряду с заметной периодичностью (например, с сезонной), имеется непредсказуемая возмущающая составляющая. Для эффективного решения задач, связанных с обработкой таких процессов, необходима их математическая постановка, включающая в себя математическое описание, то есть модель процесса. При этом каждый из процессов обычно представляются в виде последовательности системы случайных величин, то есть случайного процесса, в рассматриваемом случае – квазипериодического.

Имеется ряд подходов к описанию квазипериодичности: наложение на основную гармонику шума или более высоких частот, периодическая нестационарность (флуктуация моментов и других свойств) и так далее. Общим проявлением подобных представлений является высокая корреляция значений процесса на расстояниях, кратных периоду. В настоящей работе это свойство взято за основу, то есть в качестве главного свойства квазипериодического процесса.

Page 125: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

124

В качестве квазипериодов процесса можно было бы взять строки некоторого прямоугольного изображения: требуемая коррелированность будет обеспечиваться коррелированностью изображения по вертикали. Рассмотрим, например, изображение на прямоугольнике размеров TK , заданное моделью Хабиби [Habibi 1972]:

lklklklklk xrxrxx ,1,1,11,, ξβρρ , (1)

где k – номер строки; l – номер столбца; lk , ξ - совокупность независимых

стандартных случайных величин. На рисунке 1 показан пример имитации изображения с помощью этой

модели.

а) б)

Рисунок 1 – Изображение, имитированное моделью (1): а) развертка изображения, б) первые и последние пять столбцов изображения (а)

Параметры ρ,r влияют на коррелированность изображения по

вертикали и горизонтали соответственно; β влияет на дисперсию

изображения. Порождаемое изображение имеет КФ ||||2

,, ][),( nmnlmklk rxxMnmV ρβ ,

построчный график которой показан на рисунке 2.

Рисунок 2 – График КФ модели (1)

Корреляционные связи между элементами изображения убывают вдоль строк и столбцов. Соседние строки прямоугольного изображения при 1r имеют высокую корреляцию между собой, поэтому при

Page 126: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

125

объединении строк в последовательность можно получить модель квазипериодического процесса. Однако начало и конец каждой строки, находясь на значительном расстоянии друг от друга, практически независимы между собой, поэтому значительно отличаются друг от друга, что заметно на рисунке 1,б. Поэтому на стыках квазипериодов процесса, полученного соединением строк, будет слабая корреляция соседних значений, приводящая к резким скачкам, несвойственным относительно непрерывным процессам. На рисунке 3 показан отрезок имитации такого процесса. Границы периодов обозначены вертикальными линиями, где и заметны резкие скачки.

Рисунок 3 – График отрезка имитации процесса моделью (1)

Таким образом, прямоугольные изображения не дают приемлемых представлений квазипериодических процессов. В настоящей работе рассматривается моделирование процессов и их систем с помощью изображений на цилиндре, отсчёты которых вдоль спирали не имеют нежелательных резких скачков.

2 Модели процессов на основе цилиндрических изображений

Рассмотрим спиралевидную сетку на цилиндре (рисунок 4). Строки этой сетки представляют собой витки спирали (винтовой линии). Для описания изображения, заданного на этой сетке, применим аналог авторегрессионной модели Хабиби (1), в которой k – номер витка спирали и l – номер узла в витке, T – период, то есть количество точек в одном витке [Васильев и др., 2015, Krasheninnikov et al. 2018]. Эта модель может быть представлена в эквивалентном виде как развёртка изображения вдоль спирали:

nTnTnnn xrxrxx ξβρρ 11 , (2)

где n – номер точки изображения при сквозной нумерации по этой спирали.

Разрез изображения, полученного с помощью этой модели, показан на рисунке 5.

Page 127: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

126

Рисунок 4 – Спираль

Рисунок 5 – Развертка цилиндрического изображения

Можно показать, что КФ модели (2) имеет вид

nnk

T

k kk

k

rsrs

sz

zz

z

TrnV ρ

ρρρβ

))(1)(1())( 1()1(

1)(

2

1

02

2 ,(3)

где k

Ti

Tk erz

π2

и Ts ρ . Вид графика такой КФ показан на рисунке 6.

Рисунок 6 - График КФ процесса модели (2)

Характерной особенностью КФ (3) является её непрерывность на стыках периодов, в отличие от рисунка 2. Изображение на рисунке 5 также непрерывно вдоль линии разреза, что заметно на приставленных к этому изображению его нескольких первых столбцов. В результате процесс, описываемый моделью (2), то есть развёртка цилиндрического

Page 128: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

127

изображения по спирали, не имеет резких скачков на стыках периодов (рисунок 7).

Рисунок 7 – График отрезка имитации процесса моделью (2)

Таким образом, модели вида (2) могут быть использованы как модели квазипериодических процессов, например, в [Крашенинников 2015] они были применены для представления и обработки речевых сигналов, а в [Крашенинников и др. 2015] для описания вибрации технического объекта.

Однако изображения, порождаемые моделями (1) и (3) однородны, что ограничивает область их применения, так как многие изображения и сигналы имеют существенную и случайную неоднородность, что требует математического описания. В работах [Васильев и др. 2017b, Васильев и др. 2015, Vasiliev et al. 2017, Woods et al. 1987] предложено представлять неоднородность изображений, в виде «дважды стохастических» моделей. В этом представлении насколько обычных «управляющих» изображений задают случайные параметры «управляемого» итогового изображения. Неоднородность итогового изображения определяется локальными особенностями управляющих изображений. В этих работах управляющие и управляемые изображения являлись авторегрессионными, заданными на прямоугольных сетках.

Для представления неоднородных цилиндрических изображений применим дважды стохастическую модель, подобную рассмотренным в [Васильев и др., 2017b]. Для этого возьмём в качестве управляющих два изображения nrR и nρ , заданные моделями (2) с некоторыми

своими значениями параметров. Управляемое итоговое изображение X также задаётся моделью (2) с переменными параметрами

,, nnnn brra ψφρρ (4)

где ρ,r – средние значения параметров ρ,r ; nn ψφ , – независимые

стандартные случайные величины; ba, – постоянные коэффициенты.

На рисунке 8 показан пример применения этой модели для имитации изображения на цилиндре. Управляющее изображение здесь одно ( P=R ), оно показано на рисунке 8,а. Итоговое изображение на рисунке 8,б имеет

3 5 6

Page 129: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

128

ярко выраженную неоднородность, вызванную именно изменяемостью параметров корреляции модели (3). Тёмные участки изображения 8,а соответствуют малым значениям nρ и nr , поэтому на этих местах

изображение 8,б коррелировано меньше. На рисунке 9 показаны графики двух отрезков квазипериодического

сигнала, имитированного с помощью описанной дважды стохастической модели с периодом Т=25. Квазипериоды разделены вертикальными линиями. Параметры nρ и nr изменяются со временем, поэтому

меняются и корреляционные свойства итогового процесса. Верхний график соответствует большим значениям этих параметров, поэтому процесс близок к чисто периодическому. При малых значениях параметров периодичность слабее (нижний график).

а) б)

Рисунок 8 – Имитация дважды стохастического изображения на цилиндре: а) управляющее изображение, б) итоговое изображение.

Рисунок 9 – Графики участков имитированного квазипериодического процесса

Page 130: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

129

Таким образом, описанные дважды стохастические модели цилиндрических изображений могут служить основой для моделирования и имитации квазипериодических процессов с широким спектром нестационарности путём подходящего набора параметров моделей.

3 Модели систем процессов на основе цилиндрических изображений

В рассмотренных выше моделях входящие в них изображения неравноправны: имеются управляющие изображения, которые влияют на параметры авторегрессии управляемого изображения, развёртка которого и есть результирующий процесс. Рассмотрим теперь модели, в которых несколько цилиндрических изображений влияют друг на друга, то есть имеется своего рода обратная связь.

Возьмём для простоты две модели вида (2) с одинаковыми коэффициентами корреляции по горизонтали и вертикали:

,y y y

,

12

1

12

1

nnTnnTnnnnn

nnTnnTnnnnn

rrry

xxxx

φβ

ξαρρρ

(5)

где параметры авторегрессии определяются аналогично модели (4), но со взаимным влиянием изображений X и Y друг на друга:

., 11 nnnn xbrryaρρ (6)

Параметры nα и nβ , влияющие на дисперсию изображений, выберем

так, чтобы обе дисперсии были единичными: .1,1 22

nnnn r βρα (7)

На рисунке 10 показаны два изображения, имитированные с помощью модели (5)-(7). Эти изображения, в отличие от рисунка 8, имеют похожую текстуру, что объясняется их «равноправностью».

Рисунок 10 – Имитация двух дважды стохастических изображений

Page 131: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

130

Развёртка любого из изображений на основе модели (5)-(7) может использоваться для моделирования процесса. Совокупность двух развёрток определяет пару коррелированных квазипериодических неоднородных процессов, показанную на рисунке 11.

Рисунок 11 – График участка системы из двух имитированных процесса

Отметим, что возможно построение и более сложных моделей систем квазипериодических процессов на основе изображений на цилиндре с обратной связью, когда насколько изображений определяют случайные параметры авторегрессии друг друга.

Заключение

Для представления квазипериодических неоднородных случайных процессов и их систем предложны модели в виде композиции цилиндрических авторегрессионных изображений. Процесс формируется в виде отсчётов цилиндрического изображения вдоль спирали. Квазипериодичность процесса обеспечивается тем, что соседние квазипериоды соответствуют соседним виткам спирали с задаваемой корреляцией. Неоднородность процесса достигается тем, что параметры результирующего цилиндрического изображения зависят от случайных значений нескольких «управляющих» цилиндрических изображений. Рассмотрены также модели с «обратными связями», когда несколько цилиндрических изображений одновременно управляют параметрами друг друга.

Список литературы

[Васильев и др., 2017a] Васильев К.К., Крашенинников В.Р. Статистический анализ последовательностей изображений. М.: Радиотехника, 2017, 248 с.

Page 132: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

131

[Васильев и др., 2017b] Васильев К.К., Дементьев В.Е. Представление и обработка спутниковых многозональных изображений. Ульяновск: Изд-во УлГТУ, 2017, 251 с.

[Васильев и др., 2015] Васильев К.К., Дементьев В.Е., Андриянов Н.А. Анализ эффективности оценивания изменяющихся параметров дважды стохастической модели // Радиотехника. 2015. 6. С. 12-15.

[Крашенинников 2015] Крашенинников, В.Р. Статистические методы обработки изображений. Ульяновск: Изд-во УлГТУ, 2015, 167 с.

[Крашенинников и др., 2016] Крашенинников, В.Р., Кувайскова Ю.Е. Прогнозирование динамики объекта с использованием авторегрессионных моделей на цилиндре // Радиотехника. 2016. 9. С. 36-39.

[Habibi 1972]1Habibi A. Two-dimensional Bayesian Estimate of Images // Proc. IEEE 60(7). 1972. p. 878-883.

[Krasheninnikov et al. 2018] Krasheninnikov V.R., Vasiliev K.K. Multidimensional Image Models and Processing // Intelligent Systems Reference Library 135. Springer International Publishing. 2018. p. 11-64.

[Vasiliev et al. 2017] Vasiliev K.K., Dementiev V.E., Andriyanov N.A. Filtration and Restoration of Satellite Images Using Doubly Stochastic Random Fields // CEUR Workshop Proceedings. 2017. Vol. 1814. pp. 10-20.

[Woods et al. 1987] Woods J.W., Dravida S., Mediavilla R. Image Estimation Using Doubly Stochastic Gaussian Random Field Models // Pattern Analysis and Machine Intelligence. 1987. Iss. 2. Vol. 9. p. 245-253.

MODELS OF SYSTEMS OF QUASIPERIODIC PROCESSES AS VALUES ON SPIRALS ON DOUBLE

STOCHASTIC CYLINDRICAL IMAGES

Krasheninnikov V.R. ([email protected]) Subbotin A.Yu. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The paper describes autoregressive models of systems of quasiperiodic random processes in the form of samples on a spiral of mutually dependent double stochastic images defined on a cylinder.

Keywords: system of quasiperiodic processes, cylindrical image, double stochastic autoregression, mutual influence

Page 133: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

132

УДК 004.9

ПРЕДСТАВЛЕНИЕ И ОБРАБОТКА НЕЧЕТКИХ ВРЕМЕННЫХ РЯДОВ НА ОСНОВЕ FUZZY OWL

Ишмуратова Г.Р. ([email protected]) Ярушкина Н.Г. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В работе описывается процесс представления и обработки нечетких временных рядов на основе нечеткой онтологии. Разработанное программное обеспечение позволяет интегрировать и проводить анализ нечетких временных рядов на основе Fuzzy OWL.

Ключевые слова: онтология, нечеткая онтология, временные ряды, нечеткие временные ряды, C#, sqlite, тип данных, степень принадлежности

1 Введение

В настоящее время феномен неопределенности, выражаемый терминами и понятиями, довольно распространен в человеческих знаниях и связан с нашей неспособностью точно задать определения таких понятий в определенных областях и контекстах. Это связано с тем, что неопределенные понятия обычно имеют нечеткие границы, которые не допускают резкого различия между объектами. [Spyrou, 2014]

Нечеткие понятия и термины в экспертных и основанных на знаниях системах были рассмотрены с использованием теории нечетких множеств.

Нечеткие онтологии – расширения классических онтологий, которые используя те же принципы, что и теория нечетких множеств, позволяют присваивать степени принадлежности неопределенным онтологическим элементам, в целях количественной оценки их неопределенности для решения этой проблемы [Spyrou, 2014].

Одной из самых актуальных задач интеллектуального анализа данных, также использующая принципы и теорию нечетких множеств, являются задачи анализа нечетких временных рядов.

В данной работе предоставляется описание программного продукта, интегрирующий нечеткую онтологию и нечеткие временные ряды, и предоставляющий широкое множество результатов поставленной задачи,

Page 134: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

133

каждый из которых обладает определенным значением степени принадлежности.

2 Основная часть

Система представления и преобразования временных рядов на основе Fuzzy OWL необходима для интеграции нечетких временных рядов и нечеткой онтологии.

Для начала работы системы необходимо подготовить данные для загрузки.

На вход системы подаются 2 файла, структура которых представлена на рисунках ниже:

1. Файл формата .csv, наименование которого заключается в наименование объекта исследуемого временного ряда. Файл представлен на рисунке 1.

Рисунок 1 – Файл временного ряда

Нечетким временным рядом (НВР) называют упорядоченную в равноотстоящие моменты времени последовательность наблюдений над некоторым процессом, состояния которого изменяются во времени, если значение состояния процесса в момент ti может быть выражено с помощью нечеткой метки . [Ярушкина и др., 2010]

2. Файл формата .xml, который содержит описание построенной нечеткой онтологии. Файл представлен на рисунке 2.

Page 135: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

134

Рисунок 2 – Файл онтологии

Онтология – детальная формализация некоторой области знаний с помощью концептуальной схемы.[NSC, 2018] Построение онтологий – сложный и занимающий много времени процесс. Одним из основных интерфейсов для построения онтологии является Protégé [ELBIB, 2004] – локальная, свободно распространяемая Java-программа, которая и была использована при построении текущей онтологии. Программа предназначена для построения прикладной области. Её первоначальная цель – помочь разработчикам программного обеспечения в создании и поддержке явных моделей предметной области и включение этих моделей непосредственно в программный код.

Protégé основан на фреймовой модели представления знания и снабжен рядом плагинов [WIKIPEDIA, 2018b], что позволяет его адаптировать для редактирования моделей хранимых в разных форматах. Для построения текущей онтологии указанный редактор был расширен свободно распространяемым плагином FuzzyOWL Plugin, который предоставляет возможность создания и представления нечетких элементов онтологии в нотации Fuzzy OWL. [Protegewiki, 2018] Интерфейс установленного плагина Fuzzy OWL представлен на рисунке 3.

Page 136: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

135

Рисунок 3 – Работа с плагином Fuzzy OWL

Пример объявления нечеткого типа данных «ОпасноМалоТВГЛевДв» разработанной OWL онтологии.

<AnnotationAssertion> <AnnotationProperty IRI="#fuzzyLabel"/> <IRI>#ОпасноМалоТВГЛевДв</IRI> <Literal datatypeIRI="&rdf;PlainLiteral"> <fuzzyOwl2 fuzzyType="datatype"> <Datatype type="triangular" a="0" b="100" c="200.5" /> </fuzzyOwl2> </Literal> </AnnotationAssertion> Для данного проекта был выбран язык C# (MS VS 2015), на платформе

.NET4.5. В данной системе был рассмотрен способ организации взаимодействия

с компактной встраиваемой реляционной базой данных SQLite. SQLite не использует взаимодействие типа клиент-сервер. SQLite представляет собой библиотеку, с которой программа компонуется и СУБД становится составной частью программы. [WIKIPEDIA, 2018a] Протокол обмена представляет собой вызовы функций библиотеки SQLite. Такой способ упрощает программу и сокращает время отклика. Для хранения базы данных, включая определения, таблицы, индексы и данные используется единственный стандартный файл на том компьютере, на котором исполняется программа.

Описание основных классов разработанной системы: DB – класс, обеспечивающий работу с БД для хранения

вспомогательных данных. Ontology — класс, реализующий основные методы для работы

с онтологией.

Page 137: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

136

OntologyAnnotation – класс, реализующий методы для считывания аннотации с файла онтологии.

OntologyDeclaration – класс, реализующий методы для считывания описания классов с файла онтологии.

OntologySubObjectPropertyOfObjectProperty – класс, реализующий методы для считывания описания объектных свойств с файла онтологии.

OntologyDatatypeDefinition – класс, реализующий методы для считывания описания типа данных с файла онтологии.

File – класс, реализующий методы для считывания данных с файлов.

MainForm – главное окно системы. SettingForm – окно по настройке пути к файлам загрузки. ClassTree – класс, реализующий метод по обрисовке дерева. TS – класс, реализующий методы преобразования временных

рядов в нечеткие временные ряды. ResultAlgorithm – класс, реализующий методы по

лингвистическому резюмированию. Процесс работы системы: Шаг 1. Главное окно системы представлено на рисунке 4.

Рисунок 4 – Главное окно системы

Перед началом работы системы необходимо указать пути к загружаемым файлам на вкладке «Настройки» (рисунок 5).

Page 138: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

137

Рисунок 5 – Окно сохранения настроек

Шаг 2. После сохранения настроек, необходимо загрузить временные ряды, нажав на кнопку «Загрузить данные» на главной форме на вкладке «Временные ряды».

Шаг 3. Процесс работы с онтологией состоит из этапов: 1. Парсинг файла онтологии. 2. Добавление объектов в базу данных. 3. Построение иерархии объектов.

Предусмотрена возможность считывания классов, индивидов, объектных свойств, свойств типов данных, и типов данных нечеткой онтологии (рисунки 6-8).

Рисунок 6 – Иерархия классов

Page 139: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

138

Рисунок 7 – Описание объектных свойств

Рисунок 8 – Описание типов данных

Шаг 4. Для объединения временных рядов и полученных с онтологии типов данных, необходимо на вкладке «Объединение» для 1 временного ряда удерживая клавишу «Ctrl» подобрать 5 описаний типов данных. После нажатия на кнопку «Аннотировать» выбранная комбинация отображается в иерархии деревьев во второй половине экрана. Пример работы представлен на рисунке 9.

Page 140: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

139

Рисунок 9 – Форма объединения временных рядов и типов данных

Шаг 5. Для вычисления степени принадлежности необходимо на вкладке «Результат», нажать на кнопку «Провести исследование», и будет производиться расчет степени принадлежности каждого значения временного ряда согласно полученному объекту типа данных. Результат работы вычислений приведен на рисунке 10.

Рисунок 10 – Форма вывода результата

Шаг 6..Во время расчета степени принадлежности, на вкладке «Лингвистическое резюмирование» для каждого временного ряда, чье значение является критическим выводится сообщение с значением степени принадлежности, и одним из объектом классов онтологии на который стоит обратить внимание и который связан с данным типом данных. Результат работы продемонстрирован на рисунке 11.

Page 141: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

140

Рисунок 11 – Форма лингвистического резюмирования

3 Заключение

В ходе проделанной работы было разработано программное обеспечение, позволяющее:

1. загружать временные ряды 2. преобразовывать временные ряды в нечеткие временные ряды 3. загружать и парсить файл нечеткой онтологии 4. интегрировать нечеткие временные ряды с нечеткой

онтологией 5. провести анализ и получить результат объединения

Список литературы

[Ярушкина и др., 2010] Ярушкина Н.Г., Афанасьева Т.В., Перфильева Т.В. Интеллектуальный анализ временных рядов.– Ульяновск: УлГТУ. 2010,320 с.

[ELBIB, 2004] Обзор инструментов инженерии онтологии [Электронныйресурс] //Официальный сайт: [сайт].URL: http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004/part4/op (дата обращения: 21.05.2018).

[Spyrou, 2014] Spyrou E., Lakovidis D., Mylonas P. Semantic multimedia analysis and processing // Proc. CRC Press, Taylor & Francis Group, USA. 2014. pp. 135-161.

[WIKIPEDIA, 2018a] SQLite [Электронныйресурс] //Официальный сайт: [сайт].URL: https://ru.wikipedia.org/wiki/SQLite (дата обращения: 21.05.2018).

Page 142: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

141

[WIKIPEDIA, 2018b] Protege [Электронныйресурс] //Официальный сайт: [сайт].URL: https://ru.wikipedia.org/wiki/Protégé (дата обращения: 21.05.2018).

[NSC, 2018] Словарь-справочник по информатике (онтология) [Электронныйресурс] //Официальный сайт: [сайт].URL: http://www.nsc.ru/win/elbib/data/show_page.dhtml?77+57+35(дата обращения: 21.05.2018).

[Protegewiki, 2018] FuzzyOWL2 [Электронныйресурс] //Официальный сайт: [сайт].URL: https://protegewiki.stanford.edu/wiki/FuzzyOWL2 (дата обращения: 21.05.2018).

PRESENTATION AND PROCESSING OF FUZZY TIME SERIES BASED ON FUZZY OWL

Ishmuratova G.R. ([email protected]) Yarushkina N.G. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The paper describes the process of representing and processing fuzzy time series based on a fuzzy ontology. The developed software allows integrating and analyzing fuzzy time series based on Fuzzy OWL.

Keywords: ontology, fuzzy ontology, time series, fuzzy time series, C #, sqlite, data type, degree of membership

Page 143: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

142

УДК 004.021

ПРИМЕНЕНИЕ F-ПРЕОБРАЗОВАНИЯ В ЗАДАЧЕ АДАПТАЦИИ КАЧЕСТВА ВИДЕО ПОТОКА ДЛЯ

ПЕРЕДАЧИ В БЕСПРОВОДНЫХ СЕТЯХ

Афанасьева Т.В. ([email protected]) Максимов Д.А. ([email protected]) Ульяновский Государственный Технический

Университет, Ульяновск

В работе описывается использование метод F-преобразования для сглаживания временных рядов характеристик канала связи, определяемым с помощью протокола RTCP при трансляции видео в сети интернет. Полученные данные могут быть использованы для оценки и прогнозирования качества канала данных и создании механизма адаптации к помехам на их основе.

Ключевые слова: F-преобразование, сглаживание временных рядов, адаптация видео трансляций, QoS сети.

1 Введение

Рост технологий беспроводного доступа наряду с продвинутыми алгоритмами кодирования обещают улучшение потоковой передачи видео для пользователей мобильных устройств. Однако беспроводные каналы характеризуются изменяющейся пропускной способностью и наличием помех, что затрудняет предоставление хорошего качества восприятия пользователю для приложений потокового воспроизведения видео. Для решения данной проблемы может быть предложен механизм адаптации видео, путём снижения качества в случаях ошибок беспроводного канала данных для обеспечения непрерывного воспроизведения. В статье [Nilanjan, 2012] рассматривается похожий механизм адаптации, однако не сообщается, используется ли алгоритм предобработки полученных значений. В результате анализируемые значения хаотичны, что затрудняет их анализ и предсказывание. В данной статье я рассматриваю структуру такого модуля для адаптации видео и предлагаю алгоритм F-преобразования [Перфильева, 2003][Ярушкина, 2010] для сглаживания значений, которые будут использоваться в этом модуле.

Page 144: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

143

2 Анализ предметной области

Одним из протоколов для передачи мультимедиа по сети является протокол Real-time Transport Protocol (RTP) [RTP], который переносит в своём заголовке передаются временная метка и номер пакета. Вкупе с протоколом Real-Time Transport Control Protocol (RTCP) [RTCP], который используется для определения качества обслуживания (QoS), обратной связи и синхронизации между медиа-потоками, это позволяет отслеживать состояние канала передачи данных. Мною были выделены следующие важные характеристики:

Номер пакета (Sequence) – монотонно возрастающий идентификатор пакета;

Задержка (Delay) – задержка отправки пакета от передатчика к приёмнику, мс., [0, +∞);

Разброс (Jitter) – разброс задержки прихода пакетов из одной последовательности, мс., [0, +∞):

Смещение от начала (Skew) – сумма задержек пакетов относительно начала, мс, (-∞, +∞);

Пропускная способность (Bandwidth) – пропускная способность канала на момент загрузки пакета (ограничена сверху размером пакета), [0, +∞).

Данные значений характеристик были получены в процессе моделирования трансляции видео потока от передатчика к приёмнику через зашумлённый канал, с использованием приложений «FFmpeg» [FFmpeg] (приёмник/передатчик потокового видео) и «Clumsy» [Clumsy] (интерфейс, моделирующий зашумлённый канал), RTP поток анализировался утилитой WireShark [Wireshark]. Результаты сохранялись в формате «CSV».

Ниже представлен график собранных значений по характеристике «Задержка». Данная характеристика была выбрана т.к. является независимой и имеет значительное влияние на непрерывное воспроизведение видео потока на стороне приёмника по причине задержки приёма новых кадров, что опустошает буфер воспроизведения.

Значения данной характеристики колеблются около 0 в первой трети графика (рисунок 1) (с 700 до 796 номера) с небольшими выбросами до 19 мс., однако в остальной части графика (с 797 до 1000 номера) значения выбросов возрастают до 86 мс. и становятся более частыми. Данное

Page 145: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

144

поведение отлично подходит для изучения сглаживающих свойств F-преобразования.

Рисунок 1 – График значений характеристики «Задержка» (Delay)

3 Описание модуля адаптации видео

Я бы хотел рассмотреть F-преобразование, как один из методов предобработки в модуле для анализа и адаптивной настройки параметров кодирования. Ниже представлена упрощённая IDEF диаграмма (рисунок 2) такого модуля. Данные с приёмника получаются с помощью контрольного протокола RTCP. Подсистема сбора данных преобразует эти данные во временные ряды характеристик мультимедиа потока, которые преобразуются для дальнейшего анализа. Данное преобразование может включать в себя исключение выбросов, нормализацию, сглаживание и другие методы предобработки. В качестве алгоритма сглаживания я предлагаю использовать F-преобразование. Обработанный ВР может быть использован для прогнозирования будущих характеристик потока для упреждения возможных помех или сразу передан с подсистему анализа, которая, опираясь на полученные данные оценивает текущее (или возможное будущее) состояние потока и изменяет параметры кодирования энкодера видео для обеспечения непрерывного воспроизведения видео и обеспечения наилучшего качества восприятия пользователя.

0

20

40

60

80

100

700

712

724

736

748

760

772

784

796

808

820

832

844

856

868

880

892

904

916

928

940

952

964

976

988

Задерж

ка, мс.

Номер пакета в последовательности

Задержка (Delay)

Page 146: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

145

Рисунок 2 – IDEF диаграмма модуля адаптивной настройки параметров кодирования

4 Обработка последнего интервала F-преобразования

В процессе исследования алгоритма F-преобразования была обнаружена проблема при расчёте последнего значения данного преобразования, которая заключается в том, что значение ∈ [ , … , ] (где [ , … , ] – кортеж действительных чисел результата прямого F-преобразования) было получено только с помощью левой части функции принадлежности А , т.к. значений > на ВР не существует, следовательно, данное значение искажено вследствие отсутствия влияния значений ВР , > . Для решения данной проблемы я генерировал значения , ∈ [ ; ] с помощью функции ( ) ∶ → +∑ − , ∈ [ ; ].

5 Проведение эксперимента

Для изучения сглаживающих свойств F-преобразования было разработано ПО обладающее возможностью загружать данные ВР в формате «CSV», сглаживать загруженный ВР с помощью метода F-преобразования (прямого и обратного), давая возможность пользователю настроить параметры преобразования (интервал), выводить полученные ВР в виде графиков и таблиц, с возможностью масштабирования и рассчитывать точность обратного F-преобразования с помощью критериев MAPE и SMAPE. Общая схема взаимодействия модулей ПО представлена на упрощённой диаграмме IDEF (рисунок 3).

Рисунок 3 – IDEF диаграмма декомпозиции ПО

Page 147: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

146

В качестве ВР для проведения исследования использовались значения характеристики «Задержка», содержащий 300 значений. ВР был загружен в ПО и сглажен F-преобразованием с интервалом 5 и 19. Результаты в виде графиков представлены на рисунках 4 и 5.

ВР является хаотичным с большими выбросами. В результате сглаживающее воздействие в данном случае является наиболее сильным, что показывают значения MAPE и SMAPE: MAPE = 224.80%, SMAPE = 19.06% при интервале 5, MAPE = 348.57%, SMAPE = 26.17% при интервале 19, что означает сильное отличие от значений исходного ВР.

Рисунок 4 – График ВР «Задержка» (интервал 5)

Page 148: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

147

Рисунок 5 – График ВР «Задержка» (интервал 19)

6 Выводы

По полученным результатам можно сказать, что алгоритм F-преобразования обладает хорошими сглаживающими свойствами. Наибольшему сглаживанию поддаются ряды, обладающие частыми выбросами, например, такие как исследуемый ряд «Задержка». При увеличении интервала усиливался сглаживающий эффект, однако увеличивалось значение критериев точности. При значении интервала сглаживания равного 19 на исследованных ВР полученный ряд представлял собой линию тренда данного ВР.

7 Заключение

В ходе данной работы был изучен алгоритм сглаживания на основе F-преобразования, предложен способ его применения в прикладной области адаптации потоковой передачи видео в условиях нестабильного канала связи в качестве одного из алгоритмов предобработки, спроектирована и реализована система, которая производит F-преобразование временного ряда согласно настройкам пользователя, выводит информацию в текстовом и графическом виде, рассчитывает оценки точности.

Дальнейшее развитие данной работы заключается в реализации модуля адаптации видео и изучения его эффективности.

Page 149: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

148

Список литературы

[Nilanjan, 2012] Nilanjan Banerjee et al., Dynamic Source and Channel Rate Adaptation for Video Streaming over Wireless Fading Channels / Nilanjan Banerjee, Swades De, Pradipta De, Kiran Dhamale. – 2012. – pp. 6

[Перфильева, 2003] Перфильева И. Нечеткое преобразование / И. Перфильева // Нечеткая логика. – Амстердам, 2003. – С. 275–300.

[Ярушкина, 2010] Ярушкина, Н. Г. Интегральный метод нечеткого моделирования и анализа нечетких тенденций / Н. Г. Ярушкина, Т. В. Афанасьева, И. Г. Перфильева // Автоматизация процессов управления. – Ульяновск: УлГТУ. – 2010. – 2(20). – С. 59–64.

[RTP] Real-Time Transport Protocol (RTP) [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Real-time_Transport_Protocol (дата обращения: 25.04.2018)

[RTCP] Real-Time Transport Control Protocol (RTCP) [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/RTCP (дата обращения: 25.04.2018)

[FFmpeg] FFmpeg [Электронный ресурс]. – Режим доступа: https://www.ffmpeg.org/ (дата обращения: 25.04.2018)

[Clumsy] Clumsy [Электронный ресурс]. – Режим доступа: https://github.com/jagt/clumsy (дата обращения: 25.04.2018)

[Wireshark] Wireshark [Электронный ресурс]. – Режим доступа: https://www.wireshark.org/ (дата обращения: 25.04.2018)

APPLICATION OF F-TRANSFORMATION IN THE ADAPTATION OF VIDEO STREAM QUALITY IN

WIRELESS NETWORKS

Afanasieva T.V. ([email protected]) Maksimov D.A. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper describes the use of the F-transformation method to smooth the time series of the characteristics of the communication channel, determined using the RTCP protocol when streaming video on the Internet. The data obtained can be used to estimate and predict the quality of the data channel and to create a mechanism for adapting to the network interference based on them.

Keywords: F-transformation, time series smoothing, video stream adaptation, network QoS.

Page 150: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

149

УДК 004.051

ПРИМЕНЕНИЕ МЕТОДОВ СИСТЕМНОГО АНАЛИЗА ДЛЯ РЕШЕНИЯ ЗАДАЧИ ВЫБОРА ИНСТРУМЕНТА

АВТОТЕСТИРОВАНИЯ МОБИЛЬНЫХ ПРИЛОЖЕНИЙ

Савенкова Е.А. ([email protected]) Воронина В.В. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В работе дается руководство по выбору инструментов автоматизированного тестирования. При оценке используются методы системного анализа. Приводятся перечни основных инструментов для написания автотестов, и пример выбора лучшего из них для моделируемого проекта согласно предлагаемой методике.

Ключевые слова: автоматизированное тестирование, автотесты, мобильное приложение, инструменты автотестирования, методика выбора инструмента автотестирования

Этап тестирования имеет большое значение для процесса выпуска релизов мобильного приложения. При отсутствии этого этапа в общей цепочке процесса создания нового продукта или его новой версии, компания-разработчик рискует выпустить приложение, не удовлетворяющее требованиям качества и надежности: программу с большим количеством разноуровневых багов. И, если, мелкий баг (синтаксическая ошибка в тексте, неправильный цвет кнопки и т.п) не так значим для большинства пользователей, то баг, связанный, например, с отказом в работе какого-либо функционала может серьезно навредить репутации компании-разработчика, заставив пользователей отказаться от его продукции. Это же в свою очередь приведет падению доходов компаний заказчика и разработчика. Таким образом, этап тестирования программного продукта является крайне важной вехой в его жизненном цикле.

Зачастую при тестировании одного и того же функционала приложения специалист по тестированию ПО повторяет одни и те же действия, и ожидает увидеть в ответ корректную обработку программой этих действий. Особенно много времени специалисты тратят на так

Page 151: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

150

называемое регрессионное тестирование. Регрессионное тестирование - тестирование программного обеспечения, направленное на обнаружение ошибок в уже протестированных участках исходного кода. [Панкратов С., 2010] Одним из способов уменьшить временные затраты на данном этапе является автоматизация данного процесса.

Автоматизированное тестирование программного обеспечения — часть процесса тестирования на этапе контроля качества в ходе разработки программного обеспечения [tpl-it, 2018]. Оно использует программные средства для выполнения тестов и проверки результатов выполнения, что помогает сократить время тестирования и упростить его процесс. Идея заключается в том, чтобы переложить большую часть нагрузки по регрессионному тестированию на автотесты. Специалисту по тестированию ПО останется только просмотреть сформированный отчет со скриншотами найденных ошибок, и направить их разработчикам на исправление.

Автоматизированное тестирование – динамично развивающаяся область, в которой уже разработано множество инструментов под различные платформы, структуры и функционал приложений. Это в свою очередь породило довольно серьезную проблему подбора подходящего набора инструментов под конкретную задачу. Нередко в практике возникают ситуации, когда только в процессе работы с инструментом приходит понимание, что он плохо подходит для решаемой задачи. Процесс выбора инструмента – один из основных и, пожалуй, самых важных этапов в автотестировании любого приложения. Поэтому необходимо тщательно подойти к этому вопросу. Рассмотрим, как с помощью методов системного анализа можно решить обозначенную проблему.

Процесс подбора инструментов может быть разделен на несколько этапов.

Первым этапом анализа является выбор характеристик инструмента, которые нам важны в первую очередь. Например, выделим следующие семь основных характеристик: язык написания, возможность делать скриншоты проваленных тестов, простота установки, презентабельность отчетов, стоимость инструмента, наличие литературы для ознакомления, возможность покрытия функционала искомого приложения. Обозначим эти семь характеристик как х1, х2, х3, х4, х5, х6 и х7 соответственно, и выведем общую формулу коэффициента пригодности инструмента автотестирования: Кприг = ∑ ∗ , (1) где i – порядковый характеристики, хi – значение i-ой характеристики, vi - вес i-ой характеристики.

Page 152: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

151

Следующим этапом установим важность каждой характеристики. Для этого присвоим каждой характеристики степень важности от 1 до 7, причем так, чтобы было явное ранжирование характеристик по шкале важности (чем меньше позиция на шкале, тем выше важность, и на одной позиции может быть лишь одна характеристика). Как правило, коэффициенты назначаются экспертом. [Студенческая библиотека онлайн, 2017] Пример ранжирования характеристик по важности приведен в таблице 1. В нашем случае эксперт выделил самую важную характеристику – простота установки, затем возможность покрытия функционала приложения и наличие необходимой литературы. А стоимостью инструмента и дополнительными особенностями (например, возможностью делать скриншоты проваленных тестов) эксперт решил пренебречь. Для подстановки значений в формулу (1) найдем обратную величину от степени важности, тем самым получив вес каждой характеристики: = 1 , (2)

Рассчитанные по формуле (2) веса характеристик представлены в таблице 1 (столбец третий). Теперь у нас достаточно данных, чтобы рассчитать по формуле (1) коэффициент пригодности: приг = 0,25 ∗ + 0,14 ∗ + + 0,2 ∗ + 0,17 ∗ + 0,33 ∗ ++ 0,5 ∗ , (3)

Формула (3) отражает расчет локального коэффициента пригодности, применимого к нашему проекту. Таблица 1. Степень важности и вес характеристик инструментов Характеристика Степень

важности (s)

Вес характеристики (v)

Язык написания (х1) 4 0,25 Возможность делать скриншоты проваленных тестов (х2)

7 0,14

Простота установки (х3) 1 1 Презентабельность отчетов (х4) 5 0,2 Стоимость инструмента (х5) 6 0,17 Наличие литературы для ознакомления (х6)

3 0,33

Возможность покрытия функционала приложения (х7)

2 0,5

Третьим этапом мы должны математически определить параметры

формулы (3). То есть соотнести некое числовое значение с нашей характеристикой, отражающее ее степень представленности в

Page 153: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

152

инструменте. Для этого воспользуемся шкалами оценок. Составим шкалу оценок для каждой рассматриваемой характеристики. Необходимо по возможности задать одинаковый масштаб для каждой шкалы, чтобы будущие оценки были наиболее адекватными, и не были заведомо занижены или завышены для каких-либо характеристик. [Студенческая библиотека онлайн, 2017]

Примеры шкал оценок представлены в таблицах 2-8. Для оценивания использовались контрольные точки 0, 1, 2 и 3. В случае оценки характеристики «возможность делать скриншоты проваленных тестов» использовались два крайних значения – 0 и 3, чтобы не нарушить адекватность модели.

Таблица 2. Шкала оценок для характеристики «Язык написания»

Язык хорошо известен автоматизатору 3

Автоматизатор знает язык, но плохо 2

Автоматизатор не знаком с данным языком программирования, но искомый проект написан на данном языке или язык совпадает с разговорным языком автоматизатора

1

Автоматизатор не знаком с данным языком программирования, и искомый проект написан на другом языке

0

Таблица 3. Шкала оценок для характеристики «Возможность делать

скриншоты проваленных тестов»

Возможность присутствует 3

Возможность отсутствует 0

Таблица 4. Шкала оценок для характеристики «Простота установки»

Продукт легко интегрировать в текущий проект 3

С интеграцией продукта могут возникнуть некоторые незначительные сложности

2

Продукт тяжело интегрировать, но есть подробные инструкции 1

Об интеграции данного продукта никому из команды ничего неизвестно, отсутствуют инструкции

0

Page 154: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

153

Таблица 5. Шкала оценок для характеристики «Презентабельность отчетов»

Отчет выдается в удобном виде, содержит все необходимые данные 3

Отчет присутствует, содержит все необходимые данные, но неудобен для анализа

2

Отчет содержит не все необходимые для анализа данные 1

Отчет отсутствует, требуется дополнительная интеграция с другими инструментами

0

Таблица 6. Шкала оценок для характеристики «Стоимость инструмента»

Инструмент бесплатен 3

Низкая 2

Средняя 1

Высокая 0

Таблица 7. Шкала оценок для характеристики «Наличие литературы

для ознакомления»

Информация по работе с данным инструментом избыточна 3

Некоторая информация присутствует на родном автоматизатору языке, дополнить ее можно иностранными источниками

2

Литература есть, но в малом количестве и только на иностранных языках

1

Необходимая литература отсутствует 0

Page 155: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

154

Таблица 8. Шкала оценок для характеристики «Возможность покрытия функционала приложения»

От 80 - 100% 3

От 60 - 80% 2

От 30 - 60 % 1

От 0 до 30% 0

Проценты таблицы 8 определяются по результатам тщательного анализа самого приложения. То есть рассматривается каждый экран приложения и определяются все действия и результаты, которые там присутствуют. Исходя из их количества происходит подсчет искомых процентов.

Взаимодействие с любым мобильным приложением состоит из следующих примитивных действий пользователя:

a. нажатие на элемент (тап на кнопку и т.п) –a; b. двойное нажатие на элемент – b; c. свайп – c; d. удерживание и перенос элемента – d; e. ввод символов – e; f. наведение курсора на элемент – f; g. просмотр информации – g; h. добавление изображения – h; i. выбор элемента из списка – j; j. сканирование штрих-кодов – k.

Для удобства сразу для каждого примитивного действия указано их условное буквенное обозначение (от a до j).

Результаты пометим как rj. Набор примитивных результатов, получаемых на вышеперечисленные действия, представлен далее:

1. переход на экран внутри приложения; 2. показ статичных элементов (неизменяемый контент экрана); 3. показ нестатичных элементов (тоста с ошибкой/тултипа с

подсказкой); 4. смена элементов на одном экране; 5. открытие попапа; 6. закрытие попапа; 7. установка курсора в поле ввода; 8. удаление курсора с поля ввода;

Page 156: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

155

9. переход по ссылке вне приложения; 10. добавление картинки/документа/аудио-видео-файла; 11. запись символов в поле; 12. перелистывание элементов; 13. удаление элемента; 14. объединение элементов (списков); 15. перенос/перемещение элемента; 16. увеличение элемента; 17. перекраска (изменение цвета) элемента; 18. анимация; 19. звуковые эффекты; 20. переход в другие приложения (звонок, почта, подтверждение

оплаты от банка и т.п). По одному примитивному действию пользователя может выполняться

сразу несколько ответов. Например, в играх-шутерах при двойном нажатии левой кнопкой мыши происходит несколько анимаций (вылет серии пуль из автомата, разбиение предметов на куски), которые сопровождаются звуковыми эффектами (звук стрельбы и разбивающихся предметов), а также происходит смена элементов на экране (появляется автомат убитого противника, либо какой-то иной бонус). При активации какого-либо купона происходит нажатие на кнопку активации, а в результате происходит перекраска элемента (кнопка активации перестает быть активной), переход на какой-либо экран, сопровождающийся тостом об успешной активации. Таким образом, каждую операцию, требующую проверки, можно представить в виде матрицы действия-ответов следующего вида: О = | ; , … , , (4) где – любое действие из множества действий F (от a до k примитивных действий пользователя), rji – ответные действия приложения на действие

. Рассмотрим выделение таких единичных операций на примере. Пусть

дано приложение-сборник статей по какой-либо тематике. Приложение состоит из окна авторизации, окна регистрации, окна со списком ссылок на источники с указанием темы статей. Над списком можно выполнять поиск и фильтрацию по общим темам. Условно все окна можно представить так, как показано на рисунке 1.

Не будем усложнять процесс и делать для каждого пользователя индивидуальный список его публикаций с возможностью добавлять новые статьи, удалять и редактировать их внутри приложения. Пусть наше приложение будет предоставлять доступ к какой-либо полезной для всех пользователей информации с возможностью только ее просмотра.

Page 157: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

156

Рисунок 1 – Пример приложения

Несмотря на кажущуюся простоту приложения, в нем заложено довольно много примитивных действий и результатов. Рассмотрим подробнее каждое окно.

Экран 1. Авторизация. Пусть а1 - это нажатие на поле ввода логина. Результат - r7. e1 - ввод символов в поле логина. Результат - r11. а2 - нажатие на поле ввода пароля. Результат - r7 е2 - ввод символов в поле пароля. Результат - r11. а3 - нажатие кнопки “Войти”. Возможные результаты - r1(переход на

экран 3) , r3 (вывод тоста о том, что Логин/пароль неверны), r3 (какое-то поле не заполнено), r2(показ статичных элементов экрана3).

а4 - нажатие на ссылку “Регистрация”. Результат - r1(переход на экран 2) r2.

Расписав так действия по каждому экрану получим набор единичных операций, представленный в таблице 9.

Таблица 9. Набор единичных операций приложения Действие

Ответ

Действие

Ответ

Действие

Ответ

Действие

Ответ

Действие

Ответ

a r7 a r1 e r11 e r4 a r20 e r11 a r2 a r1 a r1 a r20 a r7 a r2 a r2 a r2 a r4 e r11 a r7 a r3 a r1 a r8 a r1 a r7 a r3 a r2 c r2

Page 158: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

157

a r3 a r7 a r3 a r20 d r15 a r3 e r11 a r7 a r20 d r4 a r2 e r11 e r11 a r20 d r12 a r2 d r12 a r17 a r1 d r15 a r4 a r1 a r2 d r4 a r17 a r2 a r17

Посчитаем частоту встречи каждой единичной операции. Частоты единичных операций для исследуемого приложения представлены в таблице 10.

Таблица 10. Частота встречи единичных операций действие результат частота действие результат частота a r1 7 a r20 5 a r2 9 e r4 1 a r3 5 e r11 6 a r4 2 c r2 1 a r7 6 d r4 2 a r8 1 d r12 2 a r17 3

Предположим, что наше приложение написано под Android на языке Java, и мы ищем инструмент написания автотестов для Android приложений. Рассмотрим три основных инструмента, ориентированных на тестирование Android -приложений – Espresso, Robotium, TestDroid – и два универсальных инструмента - JamoSolution, Cucumber.

Рассмотрим Espresso. Espresso — это инструмент для тестирования пользовательских интерфейсов Android-приложений.[Титов В., 2014] Язык - Java. Основной API невелик и прост, но поскольку исходный код инструмента открыт, можено расширить его для своих нужд.[Componentix, 2014] Информацию по Espresso можно найти в интернет-источниках, однако самые толковые статьи более продвинутого плана имеются только на английском языке. Язык написания совпадает с языком написания проекта, и предположим, что автоматизатор немного знаком с основами Java. Espresso бесплатна и проста в установке. Из минусов – нет возможности делать скриншоты проваленных тестов и отчеты недостаточно презентабельны. Требуются дополнительные надстройки, чтобы улучшить качество этих функций.

Теперь поговорим о функциональности. Espresso плохо взаимодействует с тулбарами (не сможет проверить сама переходы назад с наших экранов), и не сможет проверить корректность перехода на нужную ссылку другого приложения (браузера, почты, телефона и т.п), фиксируется лишь момент нажатия, а все, что не касается проекта – не

Page 159: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

158

учитывается. Рассчитаем количество «потерь» протестированной функциональности для Espresso, используя таблицу частот (таблица 10).

Итого ar1=5/7, ar2=5/9, ar3=3/5, ar4=2/2, ar7=6/6, ar8=1/1, ar17=3/3, ar20=0/5, er4=1/1, er11= 6/6, cr2=1/1, dr4=2/2, dr12=2/2, dr15=2/2.

Таким образом коэффициент поддерживаемости Espresso функций данного проекта равен:

Кподд( ) = 0,71 + 0,56 + 0,60 + 1 + 1 + 1 + 1 + 0 + 1 + 1 + 1+ 1 + 1 + 1 = 10,87 Поделив полученное значение на максимальный коэффициент (Кmax=

14) и домножив результат на 100%, получим значение коэффициента поддержки в процентах:

Кподд(%, ) = 10,87 14 ∗ 100 = 78% По аналогии проведем анализ оставшихся четырех инструментов

(таблица 11). Здесь х1 – язык написания, х2 – возможность делать скриншоты проваленных тестов, х3 – простота установки, х4 – презентабельность отчетов, х5 – стоимость инструмента, х6 – наличие литературы для ознакомления, х7 – возможность покрытия функционала приложения.

На основании установленных оценок характеристик, представленных в таблице 11, можно рассчитать критерии пригодности каждого инструмента для нашего моделируемого приложения-сборника статей. Для этого подставим все необходимые значения в формулу (3). Пример расчета для Espresso: Кприг( ) = 0,25 ∗ 2 + 0,14 ∗ 0 + 3 + 0,2 ∗ 1 + 0,17 ∗ 3 + 0,33 ∗ 2+ 0,5 ∗ 3 = 6,37

Таблица 11. Сравнение характеристик пяти инструментов автотестирования

Espresso Robotium TestDroid JamoSolution Cucumber

x1 2 2 2 0 1

x2 0 0 0 3 0

x3 3 3 1 1 0

x4 1 2 1 2 2

Page 160: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

159

x5 3 3 0 0 3

x6 2 2 1 1 3

x7 3 3 3 2 2

Kприг 6,37 6,57 3,73 3,15 3,15

Аналогично выполним расчет коэффициента пригодности для каждого рассматриваемого инструмента. Рассчитанные значения коэффициентов пригодности представлены в таблице 11 в последней строке. Таким образом, согласно нашей методике, для приложения-сборника статей более выгодным будет использование Robotium в качестве инструмента для написания автотестов. Для подтверждения адекватности полученных выводов было опрошено несколько экспертов, занимающихся автоматизированным тестированием. Большинство из них признали инструмент Robotium наиболее подходящим для данной задачи. В дальнейшем планируется провести большее количество экспериментов для подтверждения эффективности предлагаемой в статье методики.

Список литературы

[Панкратов С., 2010] Тестирование программного обеспечения [Электронный

ресурс] // [сайт].URL: https://social.msdn.microsoft.com/Forums/ru-RU/e750a78b-0c1f-4766-81a2-7cea9b4b3ea2/105810771089109010801088108610741072108510801077?forum=fordesktopru (дата обращения: 30.05.2018).

[tpl-it, 2018] Автоматизированное тестирование [automated testing] [Электронныйресурс] // Официальныйсайт tpl-it: [сайт].URL: http://tpl-

it.wikispaces.com/Автоматизированное%20тестирование%20%28automated%20testing%29 (дата обращения: 30.05.2018).

[Студенческая библиотека онлайн, 2017] Измерение, измерительные шкалы

[Электронный ресурс] // Официальный сайт Studbooks.net [сайт].URL: http://studbooks.net/1178929/menedzhment/izmerenie_izmeritelnye_shkaly (дата обращения: 30.05.2018).

[Титов В., 2014] Приятное тестирование с Espresso [Электронный ресурс] //

[сайт].URL: https://habr.com/post/212425/ (дата обращения: 30.05.2018). [braveDEVELOPERS, 2016] Автоматическое тестирование в Android

Page 161: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

160

[Электронныйресурс] // Официальныйсайт bravedevelopers: [сайт].URL: http://bravedevelopers.com/android-test-with-espresso/ (дата обращения: 30.05.2018).

[Componentix, 2014] 20+ инструментов для тестирования мобильных приложений[Электронный ресурс] // [сайт].URL:

https://habr.com/company/badoo/blog/337126/ (дата обращения: 30.05.2018).

[TEST PASSED, 2016] Библиотеки для автоматизированного тестирования

[Электронныйресурс] // Официальныйсайт bravedevelopers: [сайт].URL: http://bravedevelopers.com/android-test-with-espresso/ (дата обращения: 30.05.2018).

[Сафронов В., 2014] Лекция 1: Системный анализ как методология решения

проблем [Электронный ресурс] // [сайт].URL: http://victor-safronov.ru/systems-analysis/lectures/zhivickaya/03.html (дата обращения: 30.05.2018).

APPLICATION OF SYSTEM ANALYSIS METHODS TO SOLVE THE INSTRUMENT CHOICE PROBLEM OF

SELF-TEST MOBILE APPS

Savenkova Е.А. ([email protected]) Voronina V.V. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The paper provides guidance on the selection of automated testing tools. Methods of system analysis are used in the evaluation. Lists of the main tools for writing autotests are given, and an example of choosing the best one for the simulated project according to the proposed method.

Ключевые слова: automated testing, automated tests, mobile application, tools for automated testing, method of the selection tool for automated testing

Page 162: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

161

УДК 004.892

ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ

ЛИНГВИСТИЧЕСКИХ И ВРЕМЕННЫХ КРИТЕРИЕВ

Михайлова Е.С. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

Одной из проблем прогнозирования является выбор подходящей модели, которая дала бы точный результат не только в тестируемой части временных рядов (TS), но и в реальном прогнозе. Чтобы выбрать подходящую модель (TS), мы разработали лингвистическое описание поведения TS, основанное на идентификации общей тенденции. В данной работе мы ориентируемся на расширение лингвистического описания поведения TS, чтобы изучить его эффективность для образца TS.

Ключевые слова: временной ряд, прогнозирование, лингвистическое описание, общая нечеткая тенденция.

1 Введение

Традиционной практической задачей в разных областях является анализ временных рядов (TS), которые хранятся в наборах данных. Эти TS могут иметь разную длину, поведение, частоты, поэтому для получения соответствующих прогнозов необходим некоторый набор моделей ТS. Существуют различные методы прогнозирования, модели и их комбинации для TS со стационарными и нестационарными свойствами. Однако, многие из них могут производить прогнозы данных ТS с почти одинаковой точностью проверки, а также могут давать высокую неточность, когда они применяются к реальной практической задаче. Проблема заключается в том, как выбрать из набора данных методов прогнозирования соответствующий (или их комбинацию) для получения адекватных и точных прогнозов TS в реальной практической задаче.

Page 163: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

162

Для того, чтобы выбрать адекватную и точную модель из множества моделей прогнозирования TS, обычно используются различные числовые критерии. Иногда они противоречивы: лучшая модель TS, оцененная по одному из критериев, не является лучшей, если оценивать по другому критерию.

Другая проблема - переобучение, когда модель на выходе представляет собой TS не аналогичное исходному. Таким образом, эта модель не эффективна в прогнозировании и не хороша в обобщении тенденций. Эта проблема возникает также, когда длина TS мала и недостаточно данных для обучения или проверки модели прогнозирования.

С другой стороны, одна из развивающихся тенденций в анализе TS направлена не только на прогнозирование, но и на их лингвистическое описание. Это лингвистическое описание основано на понятиях нечетких множеств и лингвистических переменных, и предоставляет информацию о поведении TS. Кроме того, лингвистическое описание поведения TS может быть дополнительным критерием оценки модели TS. В нашей работе мы предложили и применили алгоритм лингвистического описания TS, основанный на нечетких тенденциях выбора лучшей модели TS. Мы учитываем пять типов тензорных тенденций: «увеличение», «снижение», «стабильность», «колебание» и «хаос».

2 Гауссово распределение областей

Применение теории нечетких множеств к представлению TS в качестве предварительной обработки или пост-обработки представлено в работе [Song etc] Q. Song и B. Chissom, авторы впервые применили теорию нечетких множеств для представления TS в прогнозирование численности учащихся. Затем в работах [Wagner etc, 2011], [Yarushkina etc, 2012] было разработано приложение нечеткого представления числового TS. Чтобы получить нечеткое представление числового TS, авторы описали преобразования и получили различные формы нечетких TS, а именно TS значений, TS первых различий и TS тенденций. Это преобразование числового TS в нечеткое TS («numerical-to-fuzzy transformation») требует предопределения некоторой лингвистической переменной. Известно, что понятие лингвистической переменной, введенное L. Zadeh, объединяет численные и лингвистические данные функцией принадлежности. В связи с этим предлагаемая методология обнаружения аномалий в бизнес-

Page 164: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

163

процессе основана на трех лингвистических TS, полученных с использованием нечетких TS.

В этой работе, с использованием работы [Maciel etc, 2015], предложено применение лингвистической переменной не только в виде «numerical-to-fuzzy», но и в «numerical-to-linguistic» преобразованиях TS.

Ниже мы вспомним понятие лингвистической переменной с использованием статьи: = | ∈ , ≤ , = 1,2, … , , (1)

где числовой TS некоторого индикатора бизнес-обработки X, с n наблюдениями, упорядоченными по временным моментам t, а множество W определяет интервал допустимых числовых значений X.

Пусть лингвистическая переменная L по Zadeh есть переменная , с множеством языковых терминов = | = 1,2, … , , < . (2)

Следуя нечеткой теории [Santos etc, 2015], каждый xt соответствует единственному моменту времени t численного TS (см. формулу 1), и в то же время xt связывается, по крайней мере, с одним лингвистическим членом множества (см. формулу 2), с положительным значением его функции принадлежности (xt). Тогда мы можем рассмотреть связь

между моментом времени t и номером i лингвистического члена множества , выраженного через (xt). Чтобы упростить дальнейшее

описание, воспользуемся дополнительным обозначением степени принадлежности ∈ к лингвистическому члену ∈ в виде yti =

(xt), где ∈ [0,1]. 3 NLX - преобразование как инструмент создания

лингвистического TS

Преобразование «Numerical-to-Linguistic» (NLX-преобразование) численного TS, с использованием лингвистической переменной L, является алгоритмом производства лингвистического TS | =1,2, … , ; ∈ .

| = 1,2, … , → | = 1,2, … , , (3)

NLX-преобразование числового TS включает в себя три этапа: Шаг 1. Предобработка. Построение лингвистической переменной L с

использованием набора языковых терминов = | = 1,2, … , , < для числового TS бизнес-индикатора X. Как уже упоминалось выше,

Page 165: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

164

построение может быть выполнено автоматически, и мы рекомендуем использовать семь термов = «very small», = «small», = «below average», = «average», = «above an average», = «large», = «very large». В общем случае количество языковых терминов и их функции принадлежности для описания уровня бизнес-индикатора могут быть любыми. Более того, можно применять символы алфавита как имена лингвистических членов = «A», = «B», = «C», = «D», = «E», = «F», = «G».

Шаг 2. Получение нечеткого TS с использованием лингвистической переменной L. Результат преобразования TS представлен в матричной форме: = | | , ( = 1,2, … , ; = 1,2, … ) , (4)

где yti = (xt), ∈ [0,1]. Шаг 3. Создание языковых TS уровней индикаторов. = , = ( ), = 1,2, … ; = 1,2, … ; ∈ 1,2, … , (5) Необходимо отметить, что лингвистический TS | ∈ , =1,2, … , является четким TS, и каждое значение является наиболее

подходящей лингвистической характеристикой численного значения бизнес-индикатора ∈ .

4 Генерирование лингвистических TS на основе FT-преобразования

Как отмечалось в предыдущем разделе, лингвистические термины | = 1,2, … , , < определяются на частично упорядоченных отрезках множества численных TS бизнес-индикатора X. Поэтому мы предполагаем, что лингвистические термины также частично упорядочены, например, чем больше число i лингвистического термина, тем больше его значение . Под этим свойством, упорядочения уровней, индикатор будет применять для создания языковых значений типов и интенсивностей для изменения индикатора.

Предположим, что для лингвистический член и для лингвистический член был определен с использованием выражения (5). Тогда лингвистическое значение типа изменения получается следующим образом: = "increase", ℎ >

"stability", ℎ =" ", ℎ < (6)

Page 166: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

165

Применяя формулу (6) к любой временной точке t=1,2,…n лингвистическому TS, создаются типы изменения для бизнес-индикатора X (обратите внимание, если t = 1 значение установлено как «undefined»).

Чтобы получить лингвистическую TS интенсивности изменения , достаточно вычислить первые разности численного TS для t = 2,3, ... n: = | − | . (7)

А затем использовать NLX-преобразование : |t = 2,3, … n → | = 1 = 2,3, … ,

5 Заключение

В данном исследовании использовалось лингвистическое описание поведения TS, которое применялось для выбора наилучшей нечеткой модели TS в режиме реального прогноза, т.е. когда TS точки были неизвестны для моделей TS. Это лингвистическое описание поведения TS, полученное с помощью расширенного алгоритма идентификации общей тенденции TS, в данной работе, использовали для расчета лингвистического критерия.

Изучение эффективности этого расширенного алгоритма сфокусировано на трех основных нечетких моделях TS: модели с неопределенными значениями TS, модели с размытыми вначале различиями значений TS и модели на основе элементарной нечеткой тенденции (FT). Эти модели были выбраны, поскольку они часто не очень хороши в реальных прогнозах.

Список литературы

[Song etc] Song, Q. Fuzzy time series and its models / Q. Song, B. Chissom // Fuzzy Sets and Systems. 1993, vol. 54, p. 277.

[Wagner etc, 2011] Wagner N., Michalewicz Z., Schellenberg S., Chiriac C., Mohais A. Intelligent techniques for forecasting multiple time series in real-world systems, International Journal of Intelligent Computing and Cybernetics, Vol. 4 Iss:3, pp.284–310, 2011.

[Yarushkina etc, 2012 ] Yarushkina, N., Afanasieva, T., Perfilieva, I. Computational Intelligence in the analysis of time series. – ID “FORUM”: INFRA–M, Moscow, 2012, 160 pp..

[Maciel etc, 2015 ] L. Maciel, A. Lemos, R. Ballini, and F. Gomide, “Adaptive fuzzy c- regressiion modeling for time series forecasting,” in Proc. 16th World Congress of the International Fuzzy Systems Association and 9th

Page 167: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

166

Conference of the European Society for Fuzzy Logic and Technology (IFSA-EUSFLAT 2015), ser. Advances in Intelligent Systems Research. Gijo n: Atlantic Press, 2015.

[Santos etc, 2015] F. J. J. Santos and H. A. Camargo, “A hybrid forecast model combining fuzzy time series, linear regression and a new smoothing technique,” in Proc. 16th World Congress of the International Fuzzy Systems Association and 9th Conference of the European Society for Fuzzy Logic and Technology (IFSA-EUSFLAT 2015), ser. Advances in Intelligent Systems Research. Gijo n: Atlantic Press, 2015.

FORECASTING TIME SERIES USING A COMBINATION

OF LINGUISTIC AND TEMPORAL CRITERIA

Mikhailova E.S. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

One of the problems in forecasting is selection a subset of suitable models, which perform accurate results not only in tested part of time series (TS), but in real forecast. To choose a subset of suitable models from a given set of TS models we developed a linguistic description of TS behavior based on identification of TS general tendency. In this paper we focus on extension of a linguistic description of TS behavior and study it’s efficiency in out of sample TS part.

Keywords: time series, forecasting, linguistic description, general fuzzy tendency.

Page 168: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

167

УДК 004.62

ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ УПРАВЛЯЮЩИХ КОМПАНИЙ

Горбунова Д.Г. ([email protected]) Демкина Н.А. ([email protected])

Костина С.Н. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В данной статье описывается проектирование информационной системы для управляющих компаний с применением технологий умного дома, для обеспечения бесперебойного функционирования жилищно-коммунальных систем, предотвращения сбоев и аварий.

Ключевые слова: проектирование, умный дом, ЖКХ

1 Введение

В настоящее время всё большей проблемой становится деятельность управляющих компаний. У жильцов возникает много сложностей с контролем качества и объема работ, а также с отсутствием влияния на сроки и стоимость услуг, оказываемых УК. Для решения данных проблем решено разработать информационную систему, которая позволит достичь следующие цели:

Автоматизация управления многоквартирными домами; Осуществление посреднических взаимоотношений между

жильцами многоквартирных домов и поставщиками услуг ЖКХ;

Получение прибыли, привлечение новых клиентов; Поддержание бесперебойной работы многоквартирного дома,

контроль за состоянием приборов учета; Автоматизированный учет потребления ресурсов; Автоматизация взаимодействия с жильцами на основе

современных каналов коммуникации. Автоматизация взаимодействия с поставщиками

Page 169: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

168

2 Проектирование информационной системы

В процессе анализа предметной области, было решено разработать информационную систему с двумя подсистемами: для работников УК, которая позволит осуществить эффективное взаимодействие между жильцами и поставщиками услуг ЖКХ (было решено доработать типовую конфигурацию 1С Бухгалтерия Предприятия), и подсистемой для жильцов многоквартирного дома, в виде адаптивного сайта, чтобы легко получить доступ к нему как с домашнего компьютера, так и с мобильного телефона.

Информационная система для работников УК должна обладать следующим функционалом:

Обработка входящих звонков и заявок от жильцов, их формализация и хранение в базе данных,

Ведение истории работ с конкретной компанией по предоставлению услуг,

Сбор и анализ результатов анкетирования, пожеланий, отзывов и заявок от жильцов,

Автоматический сбор показаний с приборов учета, Оповещение об авариях и неполадках, при критических и

аномальных значениях показателей приборов «умного дома» Внедрение электронного документооборота;

Информационная система для жильцов дома должна обладать следующим функционалом:

Ведение личного счета оплат; Возможность пополнения лицевого счета и онлайн оплат

счетов, с помощь платежных систем; Ведение общего фонда сборов; Ведение календарного плана работ и собраний; Возможность участия в электронном анкетировании о

деятельности УК, размещения пожеланий, отзывов и заявок; Отображение новостей дома; Отображение отчетности УК о проведении работ; Отслеживание потребления коммунальных услуг.

Для того, чтобы обеспечивать бесперебойную работу многоквартирного дома, снизить число аварийных ситуаций и сбоев, необходимо установить специальные приборы учета, поддерживающие технологию «Умный дом». В каждой квартире необходимо установить «умные счетчики» водоснабжения, газоснабжения, электроэнергии, средней температуры и влажности воздуха, датчики огня и дыма. Подобные приборы должны быть установлены и в технических помещениях: подвалах, чердаках, крышах, лифтах, лестничных

Page 170: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

169

площадках. Данные о показаниях приборов учета будут автоматически отправляться, и при отклонении от средних показателей, администратору выведется предупреждение о возможной угрозе.

На рисунке 1 представлена диаграмма декомпозиции процесса Управление многоквартирным домом «КАК-ДОЛЖНО-БЫТЬ» в нотации IDF0.

Рисунок 1 – «КАК-ДОЛЖНО-БЫТЬ» Управление многоквартирным домом

На входе в систему поступают Заявки от жильцов, Показания приборов учета (обновляются по требованию администратора или автоматически раз в день для приборов учета вода, газ, электроэнергия; каждый час для приборов общедомовых систем – показатели средней температуры, влажности воздуха, работы электроники в технических помещениях, в лифтовых кабинах, на чердаке, для отслеживания и предотвращения аварийных ситуаций) и обслуживающие компании, которые предоставляют услуги ЖКХ.

Управление в данной системе осуществляется на основе Договора о предоставлении услуг с жильцами, Договора с поставщиками жилищно-коммунальных услуг, Платформы 1С Бухгалтерия предприятия, так как разрабатываемая система является доработкой типовой конфигурации, так же действует на основе Жилищного кодекса РФ и других законодательных актов.

Page 171: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

170

Механизмы данной системы включают в себя: Информационная система для УК, которая выполняет автоматизацию процессов, сама Управляющая компания, в лице сотрудников, а также услуги сторонних компаний.

На выходе: бесперебойная работа многоквартирного дома, а также электронный документооборот, который содержать следующие документы:

1. Документ о присоединении нового дома к УК с каждым собственником (фиксирует факт включения дома в список УК для обслуживания, автоматизирует работу по созданию печатных форм договоров с собственниками жилья, т.к. позволяет распечатать, как и весь комплект, на всех введенных жильцов, так и по отдельности),

2. Документ заключения договора с контрагентом, 3. Документ поступления заявки от пользователя (может

создаваться как в программе вручную, так и автоматически подгружаться с сайта),

4. Документ на оказании услуг (на основание данного документа формируются типовые документы: реализация товаров и услуг, счета-фактуры, печатные формы договоров и т.д.),

5. Документ поступления оплаты от жильцов (регистрирует факт оплаты. На основании вводиться приходный кассовый ордер или платежное поручение),

6. Документ об оплате подрядчикам за оказанные услуги, 7. Документ о регистрации приборов учета, 8. Документ - анкета для жильцов.

И следующие отчеты: Отчет по исполненным заявкам от жильцов (содержит дату

обращения, ФИО жильца, источник обращения, содержание заявки и статус (выполнена/не выполнена), представлен на рисунке 2.

Отчет о сроках и стоимости выполнения работ (содержит в себе информацию о сроках выполнения работ, стоимости проведенных работ, с указанием контрагента исполнителя),

Отчет оплаты от жильцов (включает в себя историю платежей, поступающих от пользователей за определенный период),

Отчет о задолженности (общую задолженность на текущий момент времени или за определенный период),

Отчет о показаниях приборов учета (отображает потребление ресурсов, таких как вода, электроэнергия, газ, за

Page 172: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

171

определенный период, также отчет позволяет получить текущие показания).

Рисунок 2 – Отчет по заявкам от жильцов

Типовые справочники: 1) Справочник Пользователи содержит в себе информацию о

пользователях и правах системы, которые могут работать с данной ИС согласно разработанной документации.

2) Справочник Номенклатура содержит в себе виды работ, услуг и т.д.

Добавленные справочники 1. Справочник Дома УК включает в себя

информацию об адресе дома (это уникальный идентификатор справочника),

полный адрес дома (заполняется из адресного классификатора), количестве жильцов, количестве квартир, общая жилая площадь (для расчета оплаты жальцами услуг в

отношении к площади квартиры), комментарий

2. Справочник Жильцы включает в себя Наименование (уникальное) Физ. Лицо (справочник Физических лиц) Дом (Справочник Дома УК) Квартира (номер квартиры) Собственник (значение да/нет)

3. Справочник Квартиры включает в себя Номер квартиры Дом (Справочник Дома)

Page 173: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

172

Количество собственников Площадь квартиры Задолженность по квартире (рассчитываемое поле, данные

берутся из отчета по задолженностям квартир на текущую дату) Табличная часть жильцов (из справочника Жильца подбираются

те, кто проживает в данной квартире, связь одна (квартира) ко многим (жильцам).

Табличная часть Приборы (из справочника Приборы, указывается какие и сколько приборов установлено в квартире.

4. Справочник Приборы квартиры включает в себя информацию о подключенном оборудовании, которые УК устанавливает в дома. Может пополняться с учетом требований жильцов.

5. Справочник Мероприятия содержит информацию о видах событий, которые может проводить УК (используется для календаря событий, после выгружается на сайт).

3 Заключение

В результате проделанной работы была проанализирована предметная область, созданы прототипы подсистем для управляющих компаний (на базе конфигурации 1С: Бухгалтерия предприятия) и для жильцов. За счет внедрения информационной системы количество подключаемых к управляющей компании домов увеличится, так как для жильцов крайне важно контролировать деятельность управляющей компании и вести с ними активное взаимодействие, что для УК принесет увеличение прибыли и снижение аварий.

Список литературы

[Букреев и др., 2008] Букреев В., Рудык Э. Реформа ЖКХ: проблемы и перспективы // Имущественные отношения в РФ 2008, 2, С. 3-14

[Черемных и др., 2006] Черемных С.В., Семенов И.О., Ручкин В.С. Моделирование и анализ систем. IDEF-технологии: практикум // Финансы и статистика 2006.

[Максимов, 2007] Максимов, А. А стоит ли ставить счетчик? (Энергосбережение. Учет потребляемых коммунальных услуг) // Экономика и жизнь. 2007. 18.С. 39.

[Ахтулов и др., 2008] Ахтулов А.Л., Подкосова Т.Д. ЖКХ: новая система управления // Российское предпринимательство. 2008 12С. 98-101.

Page 174: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

173

[Сандалова, 2016] Сандалова Н.В. Реструктуризация предприятий ЖКХ в условиях кризиса ЖКХ // Экономика и управление предприятием ЖКХ.2016. 4. С. 9-11.

[Никифорова, 2008] Никифорова В. Реформа ЖКХ начинается с внедрения системы менеджмента качества // Стандарты и качество. 2008. 5. С. 51.

[Гордеев, 2008] Гордеев Д.П. Новый порядок управления многоквартирными домами. Журнал руководителя и главного бухгалтера ЖКХ 3. 2008 г. Ч.I, с.10

[Бузырев и др, 2008] Бузырев В.В., Чекалин В.С. Экономика жилищной сферы. – М.: ИНФА-М, 2008.

[Миронов, 2008] Миронов С. Реформа жилищно-коммунального хозяйства: поиск эффективных решений // Проблемы теории и практики управления 2008 6. С. 115 - 124.

DESIGNING AN INFORMATION SYSTEM FOR MANAGEMENT COMPANIES

Gorbunova D.G. ([email protected]) Demkina N.А. ([email protected])

Kostina S.N. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

This article describes the design of an information system for management companies using smart home technologies to ensure the smooth functioning of housing and communal systems.

Keywords: design, smart home technologies, utilities sector

Page 175: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

174

УДК 004.4

ПРОЕКТИРОВАНИЕ ОБРАЗОВАТЕЛЬНЫХ СИСТЕМ НОВОГО ПОКОЛЕНИЯ С ЦИФРОВЫМИ

ТЕХНОЛОГИЯМИ ПОДГОТОВКИ

Нгуен Н.К. ([email protected]) Ку Д.Т. ([email protected]) Нуриев Н.К. ([email protected])

Казанский национальный исследовательский технологический университет, Казань

Проектирование «умных» систем обучения позволяет осуществить массовое эффективное обучение студентов в реально - виртуальной метрической среде. Эффективность систем подготовки, во многом, достигается за счет учета в технологии подготовки фундаментальных законов развития через обучение («зона ближайшего развития», «обучение на высоком уровне трудности», «природосообразное обучение», «закон необходимости разнообразия»).

Ключевые слова: дидактическая инженерия, образовательный процесс, техногенная среда, умных систем обучение, программирования, фреймворк.

1 Введение

За последнее время достаточно много научных работ посвящено проектам онлайн-обучения. Можно говорить, что наступил качественно новый этап в развитии образовательных систем. Среди зарубежных ресурсов, предоставляющих возможность бесплатного онлайн - обучения, наиболее популярными являются Udemy, Coursera, Lynda, edX и Udacity. Эти пять проекта отличаются высоким уровнем организации содержания своих курсов и качеством сервиса дистанционно предоставляемых услуг. В то же время для овладения какой – то компетенцией на базе этих курсов от студента требуется многое, т.е. наличие задатков, заинтересованность, целеустремленность, упорство, высокий уровень начальной подготовки, а также умение работать Web сети по добыванию дополнительной информации. Как правило, наш рядовой студент не всегда всеми этими

Page 176: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

175

перечисленными свойствами обладает, и часто не преодолев трудности, быстро теряет интерес к этим курсам.

В этой ситуации, как показывает практика, эффективными оказываются автоматизированные многоуровневые по сложности курсы, которые построены с учетом «зоны ближайшего развития» студента и направлены на быстрое развитие профессионально значимых способностей, приращение которых образуется в процессе решения учебных проблем по возрастанию сложности на фоне усвоения им знаний. Эти многоуровневые курсы построены на новой дидактической платформе, которая предполагает, что подготовка, а также диагностика достижений студентов ведется в метрическом компетентностном формате. Очевидно, что реализация подготовки в метрическом компетентностном формате (МКФ) с дистанционной поддержкой потребует проектирование инновационного программного обеспечения, соответствующей новой дидактической платформе. Систем представлен как портал и реализован на языке программирования С# c использованием платформа разработки веб-приложений ASP.NET MVC. Эта система поддерживает положительно ответить на следующие основные вопросы дидактики и психологии: какие способности являются ключевыми для инженера; как измерить глубину усвоенных знаний; как измерить сложность решаемых проблем; как измерить качество владения компетенцией; как управлять профессиональным развитием; как автоматизировать учебный курс с элементами искусственного интеллекта.

2 Модель быстрого обучения через «зону ближайшего развития»

В основном, системы подготовки с преподавателем отличаются от самоподготовки с использованием дистанционных технологий тем, что хороший преподаватель с целью быстрого развития студента, при каждом общения «ловит» его «зону ближайшего развития» и, опираясь на результаты обратной связи с ним, планирует и корректирует совместную учебную деятельность. Поэтому, эффективные обучающие курсы с использованием дистанционных технологий должны всегда излагать материал, начиная с «зоны актуального развития» студента. Этот прием является своеобразным психологическим «якорем» привлекая и стимулируя студента к самостоятельной работе.

Рассмотрим модель, на поле компетенции выделим круг проблем распределенных по темам V(1), V(2), …, V(*). Проблемы расположены по возрастанию сложности от центра к периферии, разделенных в зависимости от сложности по абстрактным зонам «актуального развития», «ближайшего развития», «дальнейшего развития» (рисунок 1).

Page 177: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

176

Предположим, на модели круг проблем, сложность которых не превышает s1, соответствует «зоне актуального развития», т.е. студент их способен решить самостоятельно. Разумеется, обучать (развивать) его как решать проблемы этой сложности не имеет смысла. Проблемы, сложность которых более чем s1, но менее чем s2, относятся к «зоне ближайшего развития», поэтому студент способен в какой-то мере их формализовать (способен хотя бы воспринять, понять), но самостоятельно до конца разрешить их он не умеет. В то же время, в этой зоне когнитивная сфера студента наиболее предрасположена к развитию через обучение. Круг проблем, сложность которых более чем s3, относятся к «зоне дальнейшего развития», т.е. проблемы из этой зоны, обучаемый плохо воспринимает (не достаточный уровень развития АВС-способностей и глубина усвоенных знаний), и обучение, как правило, оказывается малоэффективным.

Рисунок 1 – Модель пространства проблем разной сложности соответствующих разным зонам развития

Построим модель компоновки контента, в которой самоподготовка студента ведется в соответствии с уровнем развития его АВС способностей, т.е. в его «зоне ближайшего развития», а «помощь» при разрешении учебных проблем, в основном, он получает из дидактической WEB системы (рисунок 2).

Как следует из рисунка, весь WEB контент разбит на четыре уровня по сложности материала, т.е. выделены разделы (1.1 – 1.8) – первый, (2.1 – 2.8) – второй, (3.1 – 3.8) – третий, (4.1 – 4.8) – четвертый уровня сложности. При этом, любой раздел материала имеет номер с форматом (i, j), где первый индекс i обозначает номер уровня сложности материала, а второй индекс j – порядковый номер темы. Сложность S учебных

Page 178: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

177

проблем, решаемых студентом на первом уровне, не превышает s(1), на втором, третьем, четвертом – соответственно s(2), s(3), s(4).

Рисунок 2 – Модель компоновки WEB контента по разделам для быстрого развития по спирали АВС способностей

Каждый раздел курса содержит свой комплекс заданий (КЗ) и соответствующий теоретический материал (ТМ), например, у раздела 1,5 комплекс заданий имеют номер КЗ(1,5), сложность, которых не превышает S = s(1), а теоретический материал имеет номер ТМ(1,5).

Качество владения компетенцией студентом в рамках каждого раздела оценивается по следующему алгоритму:

Проводится тест на полноту усвоенных знаний студентом (устанавливается процент усвоенного теоретического материала в рамках, например, раздела 1,5 значение величины POL(1,5) = 0.87).

Проводится тест на целостность усвоенных знаний студентом (устанавливается процент усвоенного теоретического материала в рамках раздела, например, значение величины CHL(1,5) = 0.66).

3. Оценивается качество результатов (решений), выполненных в рамках раздела, т.е. оценивается качество решения заданий в процентной шкале, например, качество решения заданий КЗ(1,5) = 92% или КЗ(1,5) = 0,92. Исходя из этого, на этом этапе обучения (например, освоение раздела 1,5) можно оценить актуальный уровень развития АВС способностей студента следующим образом:

АВС(1,5) = КЗ(1,5) * s. (1) В целом, при всех выполненных работах, надежность Q владением

компетенцией в рамках раздела, например 1,5, оценивается по свертке

V

V

V

V

V

V

V

V

Page 179: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

178

значений, т.е. Q(1,5) = а1 * POL(1,5) * CHL(1,5) + (1 – а1) * КЗ(1,5), где а1 – весовой коэффициент, который больше или равно 0 и меньше или равно 1. На практике, как правило, а1 = 0,4. В общем случае, качество владения компетенцией и уровень развития АВС способностей в рамках раздела с номером (i, j) вычисляется по формулам

Q(i, j ) = a1·POL(i, j )·CHL(i, j ) + (1 - a1)·КЗ(i, j ), (2) ABC(i, j) = КЗ(i, j ) · s(i ) , (3)

где i – номер уровня сложности материала, j – номер темы в учебном курсе (см. рисунок 3).

3 Алгоритм обучения и оценки качества владения компетенцией

С каждым дисциплиной, для освоения компетенции на базе курса, студент последовательно должен изучить учебный материал и получить навыки решения проблем на каждом уровне этого курса. Разделы (1.1–1.8), (2.1–2.8), (3.1– 3.8), (4.1– 4.8) относятся соответственно к первому, второму, третьему и четвертому уровням сложности осваиваемого материала, т.е. первый индекс номера раздела, указывает на уровень сложности материала, а второй - на номер темы.

На (рисунок 3) приводится схема технологического маршрута автоматизированной системы подготовки студентов в метрическом компетеносном формате.

Page 180: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

179

Рисунок 3 – Схема организация учебной работы в МКФ с учетом ЗБР

4 Информационной системы для подготовки инженера в МКФ

Эти многоуровневые курсы построены на новой дидактической платформе, которая предполагает, что подготовка, а также диагностика достижений студентов ведется в МКФ. Очевидно, что реализация подготовки в МКФ с дистанционной поддержкой потребует проектирование инновационного программного обеспечения, соответствующей новой дидактической платформе. Необходимость разработки новой Web-оболочки для реализации подготовки в МКФ вызвано тем, что эта подготовка является высокотехнологичной, автоматизированной и в своем развитии устремленным к SMART – системам обучения. В полном объеме эта система подготовки может быть развернута только в реально - виртуальной среде как инструментальное средство, обеспечивающее быстрое развитие будущего инженера. По технологии подготовки инженера в МКФ предполагается организация высокого темпа работы студента и преподавателя. При этом

Page 181: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

180

преподавателю приходится одновременно следить за изменением значений пяти параметров (А, В, С, POL, CHL) развития каждого студента, управлять этим развитием и администрировать Web-систему. Разумеется, технологию подготовки инженера в МКФ можно развернуть и в типовых оболочках. В целом, для быстрой, качественной и надежной подготовки инженеров в метрическом компетентностном формате нужна дидактическая система нового поколения.

Функциональные возможности созданной системы в аспекте профессиональной подготовки: Администратор, Представьтесь, Дисциплины, Учевный план, Расписание экзаменов, Учебные пособия, Проводник, Контакт.

Ниже продемонстрирована работа информационной системы. 1. Пользователь авторизуется в системе (рисунок 4)

Рисунок 4 - Главная информационная система

2. Система проверяет пользователя к какой группе он относится 3. Если пользователь относится к группе преподаватель, то для

него доступен следующий функционал: i) Преподаватель создает дисциплину. ii) В настройках создает группу и сообщает студентам хеш

дисциплины и пароль. iii) Формирует тест для входного тестированияпо уровню

сложности (например, 3 простых вопроса, 3 – средней уровни сложности и 3 – сложных вопроса).

iv) Организуетсреду для обсуждения дисциплины. v) Формирует компетенции (из выпадающего списка выбирает

коды компетенций). vi) В рамках выбранных компетенцийформирует раздел

лекционного материала, лабораторные работы (обязательные лабораторные работы и дополнительные) по уровню

Page 182: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

181

сложности и тестирование (на полноту и целостность) (рисунок 5).

Рисунок 5 - Управление дисциплины

Перечень действий студента при компетентностном формате обучения:

1. Проходит входное тестирование, если студент неправильно отвечает подряд на 3 простых вопроса, то автоматически относится к группе неуспевающих. Это означает, что студент самостоятельно выполняет не относящиеся к учебному процессу лабораторные работы и если он выполнит и преподаватель примет их, то студент переходит к основной программе.

2. Выполняет лабораторные работы по очередности, каждая созданная лабораторная работа преподавателя имеет обязательные связи к созданным ранее лабораторным работам.

По результатам лабораторных работ и тестирований для каждого студента формируются графики компетенций.

5 Заключение

Подготовка инженеров в МКФ реализуется на дидактических системах нового поколения. Проектирование «умных» систем для организации интерактивного онлайн обучения позволяют осуществить массовое эффективное обучение студентов в реально - виртуальной метрической среде, где основные процессы обучения и диагностики качества формализованы. Проект представлен как портал и реализован на языке программирования C# c использованием платформа ASP.NET MVC. Эффективность систем подготовки, во многом, достигается за счет учета в технологии подготовки фундаментальных законов развития через обучение («зона ближайшего развития», «обучение на высоком уровне

Page 183: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

182

трудности», «природосообразное обучение», «закон необходимости разнообразия»).

Список литературы

[Ахметшин, и др., 2011] Ахметшин Д.А., Курмангалиев Д.Р. Концепция использования промежуточных сетей передачи данных при организации публичного доступа в сеть Интернет // Вестник Казанского государственного технологического университета, 2011, 24, 5659с.

[Ахметшин, и др., 2010] Ахметшин Д.А., Курмангалиев Д.Р. Перспективы развития дистанционных технологий в образовательном пространстве университета. // Международный журнал «Educational Technology & Society», Восточно – Европейская подгруппа Международного Форума «Образовательные технологии и общество» – Казань: КГТУ, 2010, 13, 4, 397с.

[Барон, и др., 2012] Барон Л.А., Нуриев Н.К, Старыгина С.Д. Численные методы для IT инженеров: учебное пособие для вузов. – Казань: Центр инновационных технологий, 2012, 176с.

[Дьяконов, и др., 2009] Дьяконов Г.С., Жураковский В.М., Иванов В.Г., Кондратьев В.В., Кузнецов А.М., Нуриев Н.К. Подготовка инженера в реально-виртуальной среде опережающего обучения. – Казань: КГТУ, 2009, 404с.

[Курмангалиев, и др., 2011] Курмангалиев Д.Р., Ахметшин Д.А. Применение терминальных устройств с сенсорным дисплеем в образовательном процессе // Вестник Казанского государственного технологического университета, 2011, 24, 59с.

[Нуриев, и др., 2016] Нуриев Н.К., Старыгина С.Д., Ахметшин Д.А. Проектирование электронного учебного курса с учетом «зоны ближайшего развития» студента // Образовательные технологии и общество, 2016, 19, 1, 558с.

[Nuriyev, и др., 2013] Nuriyev N. K., Nuriyev A. N. Designing of the software web component of the didactic systems of the engineering education // International Conference on Interactive Collaborative Learning (ICL), 2013, pp. 354-358.

[Печеный, и др., 2016] Печеный Е. А., Нуриев Н. К., Старыгина С. Д. Экономико-математические модели в управлении (подготовка IT-инженеров в метрическом компетентностном формате): учеб. пособие. Казань: Центр инновационных технологий, 2016. 224 с.

Page 184: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

183

[Старыгина, и др., 2016] Старыгина С.Д., Нуриев Н.К. Дидактическая инженерия: проектирование ЭОР для подготовки инженеров в метрическом компетентностном формате // Образовательные технологии и общество, 2016, 19, 1, 567с.

[Старыгина, и др., 2015] Старыгина С.Д., Гибадуллина Э.А., Нуриев Н.К. Дидактическая инженерия: алгоритм оценки качества освоения студентом компетенций стандарта // Вестник Марийского государственного университета, 2015, 4 (19), 47с.

[Старыгина, и др., 2006] Старыгина С. Д., Нуриев Н. К. Математическая модель расчета циклов устойчивой компетентности специалистов в области программной инженерии // Вестник Чувашского университета, 2006, 5, 276с.

DESIGNING THE EDUCATIONAL SYSTEMS OF NEW GENERATION BY DIGITAL TECHNOLOGIES

Nguyen N.N. ([email protected]) Cu D.T. ([email protected])

Nuriev N.K. ([email protected]) Kazan National Research Technological University, Kazan

Designing "smart" education system allows implementing mass effective training of students in reality-virtual metric environment. The efficiency of training systems shows in many respects, is made possible by the training technology with fundamental rules of development through education ("zone of proximal development", "high-level learning difficulties", "natural training", "law of diversity").

Keywords: didactic engineering, educational process, technogenic environment, smart education system, programming, platform

Page 185: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

184

УДК 004.9

РАЗРАБОТКА И ИССЛЕДОВАНИЕ ЛИНГВИСТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ТЕКСТОВЫХ ЗАПРОСОВ ПОЛЬЗОВАТЕЛЯ

Григоричева М.С. ([email protected]) Филиппов А.А. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В работе описывается процесс разработки и исследования методов лингвистического анализа текстовых запросов пользователя, позволяющих повысить критерии качества ответа на поисковый запрос пользователя. Предлагаемый метод позволяет на основе исходного запроса пользователя получить запрос в новом формате, который позволит улучшить показатель точности ответа системы на запрос пользователя.

Ключевые слова: информационный поиск, синтаксический анализ, текстовые запросы пользователя

1 Введение

Автоматизация информационного поиска стала объективной необходимостью, обусловленной накоплением огромных фондов информации различного вида и потребностью в сокращении затрат времени на поиск нужных сведений. Первые автоматизированные информационно-поисковые системы работали преимущественно с информацией фактического характера, например, характеристиками объектов и их связей. Со временем появилась возможность обрабатывать текстовые документы на естественном языке и другие форматы представления данных. [Цукерт 2001]

В настоящее время актуальность задач поиска и извлечения информации связана в первую очередь с растущим объемом данных, представленных в слабоструктурированном виде.

Появление и рост численности полнотекстовых баз данных, представляющих собой электронные аналоги печатных изданий и документов, является одним из современных факторов, сильно воздействующих на сферу информационного поиска. [Цукерт 2001]

Page 186: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

185

Критерии качества поиска зависят не только от характеристик самой информационно-поисковой системы, но и от того, как формулирован запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с интересующей его предметной областью, а также с применяемой системой. Остальные пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой. [STUDME, 2018]

В статье предложен метод лингвистического анализа и форматирования текстового запроса пользователя, целью которого является улучшение значений критериев качества ответа на поисковый запрос пользователя.

2 Метод лингвистического анализа и форматирования текстового запроса пользователя

2.1 Постановка задачи Информационный поиск – это процесс поиска в большой коллекции

некоего слабоструктурированного материала (некоего документа), удовлетворяющего информационные потребности пользователя. [Манниш и др., 2011]

Когда мы говорим «слабоструктурированные данные», мы подразумеваем данные, которые не имеют ясной, семантически очевидной и легко различимой структуры. Они представляют собой противоположность структурированным данным, каноническим примером которых являются реляционные базы данных наподобие тех, которые обычно используются предприятиями для хранения реестров продукции и персональных данных сотрудников. [Манниш и др., 2011]

Как известно, для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами. При этом поисковая система генерирует страницу результатов поиска, отсортированных по степени релевантности запросу пользователя. [WIKIPEDIA, 2018]

В рамках данной работы будем рассматривать работу предложенного алгоритма на примере существующей информационно-поисковой «Системы интеллектуального поиска и анализа в Интернет-СМИ и социальных сетях». Алгоритм поиска рассматриваемой системы, который обладает рядом недостатков: Запрос пользователя, содержащий некие устойчивые понятия, которые приобрели в настоящее время новый смысл, обрабатываются системой без учета смысловой специфики, а по сумме слов, входящих в запрос. Это неоправданно увеличивает полноту выборки и снижает его точность.

Page 187: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

186

Целью разработанного метода является улучшение значений критериев качества ответа на поисковый запрос пользователя.

Главной задачей, решаемой для достижения поставленной цели, является преобразование исходного запроса в его представление на языке запросов поисковой системы, позволяющее выделить группы терминов, объединенных некоторой семантикой.

2.2 Реализация метода лингвистического анализа и форматирования текстового запроса пользователя

Характерная особенность информационных потоков в Интернет — это то, что подавляющая часть информационных массивов представляет собой слабоструктурированные документы на естественном языке. А естественными языками, как известно, занимается лингвистика. [6] Для решения поставленной задачи, на первом шаге работы алгоритма метода было принято решение использовать синтаксический анализ.

Для выделения из запроса именных групп (устойчивых словосочетаний, состоящих из существительных и связанных с ними прилагательных.) необходимо выделить значимые термины запроса, а также определить связи между терминами запроса, подобный результат получается в результате синтаксического анализа предложения.

Пользователь вводит запрос, как правило, на естественном языке. Таким образом, запрос пользователя является предложением.

На первом шаге работы алгоритма необходимо произвести синтаксический анализ запроса, вводимого пользователем, с целью получения дерева зависимостей. Полученное представление в дальнейшем будет использовано для обработки текста, предоставляя данные о структуре предложений, зависимостях между словами и типах этих зависимостей.

Синтаксический анализатор реализует построение дерева зависимостей, в узлах которого стоят слова данного предложения с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка отношениям подчинения. [VESTNIK, 2012]

Таким образом, на первом шаге запрос пользователя преобразуется в структуру, где каждому слову присваивается его часть речи, порядковый номер слова в запросе, а также отражаются связи, если между словами предложения они имеются.

Представим дерево синтаксического разбора в виде следующего выражения: =< , >, где – множество узлов дерева синтаксического разбора , который можно представить в следующем виде:

=( , , ), ( , , ), . . . , ( , , ), … , ( , , ),

Page 188: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

187

где – термин запроса, определяющий узел дерева синтаксического

разбора , = , , ..., – морфологический признак термина запроса ,

– порядковый номер термина запроса в исходном запросе. – множество отношений между узлами дерева

синтаксического разбора , которое можно представить в следующем виде: = ∈ , ∈

Определим следующую функцию: (Q, ),

где Q – строка, содержащая исходный запрос пользователя к ИПС, – дерево синтаксического разбора.

На втором шаге мы используем описание синтаксического дерева в виде массива связей между словами. Строка этого массива содержит информацию о двух связанных словах с указанием их частей речи и местоположения в исходном запросе.

Происходит разбор полученного на вход дерева с целью выделения в тексте именных групп – словосочетаний, состоящих из существительных и связанных с ними прилагательных. Такие группы характеризуют содержание запроса пользователя. В рамках данного исследования выделим так называемые простые именные группы и сложные именные группы. Под простой именной группой понимается словосочетание, состоящее из существительного и одного прилагательного. Под сложной именной группой понимается словосочетание, состоящее из существительного и нескольких прилагательных.

Введем множество G именных групп, которое можно представить в следующем виде:

G= , , . . . , , где =( , , … ), – именная группа, состоящая из узлов дерева синтаксического разбора .

Для этого будем использовать следующие правила: 1. Правило поиска простой именной группы. Рассматриваем

отношение . Если в узле ∈ термин имеет морфологический признак = "Существительное", а в узле ∈ термин имеет морфологический признак ="Прилагательное", то является простой именной группой.

2. Правило поиска сложной именной группы. Рассматриваем множество простых именных групп, найденных по правилу 1. Ищем все простые именные группы, в которых присутствует один

Page 189: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

188

и тот же термин с морфологическим признаком m="Существительное" и одинаковым номером . С помощью этого правила формируем элемент множества G именных групп, который является сложной именной группой.

3. Правило окончательного формирования множества именных групп. Из отношений, отобранных по правилу 1, и неиспользованных при формировании сложных именных групп по правилу 2 формируются оставшиеся именные группы .

Таким образом, формируется перечень именных групп исходного запроса G.

На третьем шаге происходит форматирование, таким образом, в процессе работы алгоритма формируется новый запрос ∗.

С помощью функции именные группы из множества G форматируется с учетом позиций каждого термина в предложении исходного запроса. Полученная строка ищется в исходном запросе и в начале и конце группа помечается соответствующим символом языка запросов рассматриваемой информационно-поисковой системы.

Таким образом, функция возвращает строку ∗, содержащую отформатированный исходный текстовый запрос пользователя: ∗= (Q, G). (1)

3 Эксперименты

В процессе эксперимента с разработанным алгоритмом метода лингвистического анализа и форматирования текстового запроса пользователя рассматривается следующий запрос: «Анализ коммерческого предложения».

На первом шаге работы алгоритма полученное на вход предложение из запроса преобразуется в дерево зависимостей, в узлах которого стоят слова данного предложения с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка отношениям подчинения. Иллюстративный пример дерева, полученного по исходной фразе, представлен на рисунке 1.

Page 190: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

189

Рисунок 1 – Иллюстративный пример дерева синтаксического разбора

На втором шаге работы алгоритма происходит выделение именных групп, содержащихся в исходном запросе с использованием правил 1-3 описанных в разделе 2. В итоге была выделены следующие именные группы: «коммерческого предложения».

На последнем шаге происходит форматирование исходного текстового запроса пользователя, с учетом найденной именной группы. В новом запросе выделенная ранее именная группа выделяется символами «“”». Термины запроса, выделенные символом «, фактически, формируют группу семантически связанных между собой терминов предложения на естественном языке. Таким образом, отформатированный исходный запрос будет иметь вид: «Анализ “коммерческого предложения”».

3.1 Оценка качества метода улучшения алгоритма информационного поиска в «Системе интеллектуального поиска и анализа в Интернет-СМИ и социальных сетях»

Для оценки качества предложенного метода используется показатель точности информационного поиска.

Под точностью понимается отношение количества попавших в результат документов, не соответствующих запросу, к общему количеству выбранных документов. Точность вычисляется по формуле 2. = , (2)

где a – количество полученных в результате поиска релевантных документов, b – количество нерелевантных документов, выданных ИПС.

Для исходного запроса: «Анализ коммерческого предложения» из рассматриваемого примера количество полученных в результате поиска релевантных документов равно 4. Количество нерелевантных документов, выданных ИПС, при этом равняется 11 083. Таким образом, точность информационного поиска с использованием исходного запроса будет

равна = =0,00036078.

Page 191: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

190

Для запроса, полученного с использованием предложенного в рамках данной работы метода: «Анализ “коммерческого предложения”» на основе исходного запроса «Анализ коммерческого предложения» количество полученных в результате поиска релевантных документов равно 4. Количество нерелевантных документов, выданных ИПС, при этом равняется 1 213. Таким образом, точность информационного поиска

с использованием исходного запроса будет равна = =0,00328677.

В результате применения предложенного метода на рассматриваемом примере было достигнуто улучшение значения показателя точности информационного поиска за счет уменьшения количества выборки.

4 Заключение

В ходе проделанной работы, был разработан метод Лингвистического анализа и форматирования текстового поискового запроса пользователя, позволяющий на основе исходного запроса получить новый запрос, формат которого позволяет повысить показатели качества работы подсистемы полнотекстового поиска информационно-поисковой системы. Исходный запрос пользователя преобразуется в дерево синтаксического разбора с помощью модуля синтаксического анализа.

Далее происходит разбор полученного дерева с целью выделения в тексте именных групп. Разбор дерева происходит с помощью алгоритма, позволяющего найти связи прилагательного и существительного, тем самым выявить именные группы, которые в новом запросе должны быть выделены специальными символами языка запросов существующей информационно-поисковой системы.

Полученное дерево разбора позволяет на основе разработанной модели правил сформировать новый запрос, формат которого позволяет улучшить значения показателей оценки качества ответа системы на запрос пользователя.

Список литературы

[Цукерт 2001] Цукерт А.Г. Проблемы и перспективы информационного поиска // Изв. Таганрог. гос. радиотехн. ун-та. 2001. Т. 21. 3(21). С. 194–201

[STUDME, 2018] Информационно-поисковые системы [Электронныйресурс].URL: https://studme.org/54443/informatika/informatsionno-poiskovye_sistemy (дата обращения: 17.05.2018).

[Манниш и др., 2011] Манниш, Кристофср Д . 1'ш хаван, Прабхакар, Шютце, Хайнрих. Введение в информационный поиск. : Пер. с англ. — М. : ООО "И.Д. Вильяме", 2011. - 528 с.

Page 192: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

191

[WIKIPEDIA, 2018] Поисковая система [Электронный ресурс].URL: https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0 (дата обращения: 17.05.2018).

[VESTNIK, 2012] Разработка лингвистического парсера русского языка [Электронный ресурс].URL: http://www.vestnik.vsu.ru/pdf/analiz/2012/02/2012-02-29.pdf (дата обращения: 17.05.2018).

[CYBERLENINKA, 2018] Лингвистические средства информационного поиска в интернете [Электронный ресурс].

URL:https://cyberleninka.ru/article/v/lingvisticheskie-sredstva-informatsionnogo-poiska-v-internete (дата обращения: 18.05.2018).

[Sboev и др., 2017] Sboev A.G., Gudovskikh D.V., Ivanov I., Moloshnikov I.A., Rybka R.B., Voronina I. Research of a Deep Learning Neural Network Effectiveness for a Morphological Parser of Russian Language, 2017.

DEVELOPMENT AND RESEARCH OF LINGUISTIC METHODS OF ANALYSIS OF TEXT USER REQUESTS

Grigoricheva M.S. ([email protected]) Filippov A.A. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The paper describes the process of developing and researching methods for the linguistic analysis of text resources that allow improving the criteria for the quality of the response to a user's search query. The proposed method allows on the basis of the initial request of the user to receive a request in a new format that will improve the accuracy of the system response to the user's request.

Keywords: Information search, parsing, text requests from the user

Page 193: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

192

УДК 004.9

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ИНТЕГРАЦИИ КОРПОРАТИВНЫХ

ИНФОРМАЦИОННЫХ СИСТЕМ С ПРИМЕНЕНИЕМ ПЛАТФОРМЫ 1С: ПРЕДПРИЯТИЕ 8

Рахманова Э.И. ([email protected]) Филиппов А.А. ([email protected])

Ульяновский государственный технический университет, Ульяновск

В статье описывается процесс разработки и исследования методов интеграции корпоративных информационных систем. Проанализированы основные преимущества и недостатки способов интеграции. Предложен универсальный подход к реализации интеграции гетерогенных информационных систем с использованием платформы 1С: Предприятие.

Ключевые слова: корпоративные информационные системы, интеграция, сервис – ориентированная архитектура.

1 Введение

Интеграция гетерогенных приложений и систем основная проблема ИТ-инфраструктуры среднего и крупного предприятия. Условие успешного развития любой компании на современном этапе — создание ИТ-инфраструктуры, в которой интегрированы все ее вычислительные, информационные и коммуникационные ресурсы.

Выбор интеграционной стратегии зависит от уровня развития информационных технологий на предприятии, что позволяет преодолевать технологические трудности связывания приложений [Когаловский, 2010].

Общие цели интеграции приложений: уменьшение количества вводимой пользователями

информации; уменьшение затрат на формирование сводной отчетности; уменьшение несогласованности данных в различных

информационных системах; увеличение гибкости системы;

Page 194: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

193

увеличение скорости выполнения типичных задач или формирование гарантий соблюдения сроков;

повышение качества выполнения задач за счет формализации процессов и минимизации человеческого фактора.

В работе описан подход к проектированию интеграции корпоративных информационных систем (КИС) на основе сервис-ориентированной архитектуры (СОА).

Целью подхода является повышение качества интеграции информации, в среде, состоящей из различных ИС (информационных систем) предприятия, с применением инструментального пакета «1С: Интеграция 8».

Данный подход интеграции КИС предлагает [Интеграция 8, ч.1] : построение единого распределённого информационного

ландшафта предприятия; разработку взаимодействия всех интегрируемых приложений

в одном центре; объединение существующих источников информации; предоставление возможности централизованного обмена

данными между разными ИС, с помощью эффективного средства обеспечения стабильности и полноты информационного обмена;

повышение общей производительности информационной инфраструктуры и сокращения трудозатрат на ее администрирование

2 Основные проблемы интеграции и описание методологии проектирования интеграции КИС

Основные проблемы интеграции ИС подразделяют на организационные, методологические и технические [Кусов, 2011].

К организационным проблемам интеграции ИС предприятия относят: отсутствие доверия к корректности информации; интеграция приложений в большинстве случаев влечет за

собой пересмотр корпоративной политики предприятия. Объединение ИС требует изменений в порядке взаимодействия между использующими эти системы подразделениями;

зависимость деятельности предприятия от потери работоспособности одной из интегрируемых ИС. Сбой в работоспособности может принести предприятию существенные денежные и временные расходы.

Выделяют следующие методологические проблемы интеграции ИС:

Page 195: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

194

отсутствие корректного формата или семантического слоя для слияния двух и более несопоставимых наборов данных. Устранение семантических различий между приложениями – одна из наиболее сложных и неформализуемых задач интеграции. Одна и та же сущность может иметь несколько различных семантик, ограничений и допущений в каждой системе.

необходимость наличия методологии для документирования технических аспектов интеграции: определение записей, структур данных, интерфейсов и потоков данных в масштабах всей организации;

необходимость определения правил и методов согласования данных во всех интеграционных проектах.

Определены технические проблемы интеграции ИС: 1. Возможные сбои в работе сетей передачи данных, приводящие

к задержкам и потери информации. 2. Проблемы, вызванные гетерогенной природой существующих

ИС предприятия. 3. Проблема получения доступа к структуре базе данных. 4. Необходимость поддержки и адаптации интеграционного

решения. Для организации взаимодействия между ИС, обычно используются

следующие методы: обмен файлами, организация прямого обмена и построение веб-сервисов. [Степанов, 2014]

Обмен файлами – распространенный подход к организации взаимодействия. Это связано с простотой реализации, высокой надежностью, пропускной способностью и стандартными форматами обмена. Но при оперировании сложными структурами данных, методы, основанные на обмене файлами не пригодны, что является недостатком.

При организации информационного взаимодействия между приложениями методом прямого обмена источник и приёмник используют одну базу данных или связанные базы данных. Преимуществом метода прямого обмена является высокая скорость работы и простота организации взаимодействия. Недостатки данного метода: отсутствие защиты данных от несанкционированного доступа, привязка к определенной системе управления базами данных (СУБД) или технологии, сложность поддержки форматов взаимодействия [Морозова, 2014]

В случае необходимости организации информационного взаимодействия в децентрализованной информационной среде, может использоваться сервис-ориентированный подход, посредством веб-

Page 196: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

195

сервисов, построенных с применением протокола SOAP и/или архитектурного стиля REST.

SOAP – протокол, предназначенный для осуществления взаимодействия между гетерогенными приложениями, реализованными с применением различных технологий и языков программирования. В качестве основного формата сообщений используется язык разметки XML. Для описания схем информационного обмена используется язык XSD. Для определения веб-служб используется язык WSDL[Кусов, 2011].

Преимущества протокола SOAP: формат сообщений стандартизирован; может быть использован любой протокол прикладного уровня; легко обеспечить защиту сообщений при помощи подписи

данных; существует множество реализаций серверов и клиентов для

современных языков программирования; самодокументируемость протокола позволяет сократить объём

артефактов, необходимых для организации информационного обмена.

Недостатки протокола SOAP: используется избыточный формат представления сообщений –

язык разметки XML; необходима высокая квалификация аналитиков и разработчиков; протокол сложен в реализации на мобильных устройствах и

некоторых настольных системах. Архитектурный стиль REST определяет набор принципов,

придерживаясь которых можно построить веб-сервисы, взаимодействие с которыми происходит через вызов соответствующих HTTP методов по определенным адресам.

В процессе выполнения информационного обследования ИТ-инфраструктуры заказчика готовят и анализируют данные. По итогу анализа предлагается модель интеграции существующих и проектируемых прикладных систем.

В результате обследования объекта автоматизации выявляется, что на объекте представлен типовой набор ИС, в который входят следующие системы [Интеграция 8, ч.1] :

Приложения без API (так называемые, унаследованные приложения). Приложения характеризуются наличием пользовательского интерфейса к СУБД, использующихся в качестве хранилищ данных. Большинство унаследованных приложений, используют СУБД средней производительности, которые относятся к распространяемому

Page 197: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

196

программному обеспечению. Логика таких приложений реализована в коде программных модулей.

ИС, имеющие простейший API для настройки функционирования пользовательских приложений.

ИС, имеющие развитый интерфейс, функционирующий в режимах СОМ, CORBA серверов, серверов автоматизации, предоставляющие пользовательский программный интерфейс, Web сервисы и т.д. (приложения как Oracle Business Suite, SAP, MS Axapta, Navision, 1С:Предприятие и т.п.).

Обследование выявляет следующие данные: степень информационной связанности предметных областей предприятия и зоны управляющих воздействий на процедуры обработки информации. Также выясняется, что преимущественно основная обработка информации происходит в предметных прикладных системах.

3 Описание методологии подхода к проектированию интеграции КИС.

Методология подхода к проектированию интеграции при помощи СОА распространяется на зону, определенную методикой обследования объекта автоматизации с применением интеграционной технологической платформы (ИТП) пакета 1С:Интеграция 8. Так как, СОА - это не набор методов и технологий, которым обязан следовать проектировщик и разработчик. Это лишь один из многих подходов к проектированию, разработке, внедрению и модернизации ИС. Таким образом, предложенный подход можно использовать при использовании интеграционных платформ других разработчиков.

Основным понятием для интеграции приложений с помощью ИТП являются декомпозиция бизнес-процессов на задачи (работы), а интегрируемых приложений – на функции (сервисы), реализующие соответствующие задачи. ИТП автоматизирует вызов сервисов приложений в соответствии с логикой выполнения процессов. Такой подход дает возможность создавать композитные приложения, функциональность которых может быть шире, чем просто сумма функциональных возможностей исходных приложений [Интеграция 8, ч.1]

Для эффективного использования функциональных возможностей отдельных ИС предприятия необходимо провести декомпозицию процессов обработки на задачи и сервисы.

Данный метод выделяет процессы и задачи, которые не будут пересекать границ некоей ИС. Такие процессы будем называть внутренними для данной системы. Также выявляются процессы, переходящие границы ИС. Точки перехода границ информационных

Page 198: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

197

систем и информация, которая передается при переходе границ ИС именуется «точками интеграции».

Далее необходимо выявить управляющее воздействие на точки интеграции. В первую очередь, мы выделяем предметную область, после определяем способы отражения управляющих воздействий в информационных системах.

Обычно, управляющее воздействие в ИС возлагается на операторов информационных систем, а именно на пользователей. Другой распространенный способ активизации – ориентация на событие, связанное с изменением состояния данных одной из ИС. Подход специалистов по информационным технологиям часто сводится к выстраиванию системы событий в интересах активизации деятельности.

Управляющий модуль ИТП будет узнавать, когда начинается процесс обработки данных в некоей системе при возникновении события. Для проектирования информационной системы СОА важны только два типа событий: событие предметной области и событие, запрашивающее/подтверждающее выполнение ИС заданного действия.

Для взаимодействия с ИТП нужны программы-посредники, называемые адаптерами. Адаптер и интегрируемое приложение, которое «стоит за ним», представляют сервис ИС [Интеграция 8, ч.2] .

Адаптеры могут быть внутренними, которые работают непосредственно в адресном пространстве диспетчера ИТП, и внешними, которые работают как независимые приложения.

Внутренние и внешние адаптеры взаимодействуют с ИТП через программные интерфейсы (API).

Внутренние адаптеры работают в одном процессе с ИТП. Внешние адаптеры - самостоятельные приложения могут не работать в

одном процессе с интегрируемыми приложениями. Адаптер решает следующие задачи: «Абстрагирование» ядра ИТП от особенностей реализации

интерфейсов внешних приложений. Согласование форматов информации, передаваемой между

внешними приложениями и серверами ИТП. Инициирование действия в приложениях на основании

сообщений, полученных через ИТП. Передача результатов работы приложений в виде сообщений в

ИТП, либо другому приложению, но через ИТП и «с ведома» ИТП.

Стандартные схемы адаптеров основываются на следующем. Для некоторой интеграционной платформы, будь то платформа WebMethods, WebSphere и многие другие, разрабатываются универсальные адаптеры,

Page 199: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

198

которые исполняются в адресном пространстве компонент, составляющих собственно интеграционную платформу.

Достаточно разработать адаптер и внести изменения в описания бизнес-процессов, хранящихся в репозитории. То же касается и случая замены одного приложения другим (смена версии или вообще переход на программу другого разработчика). Отсюда следует, что сервисы реализуется в адаптере. В репозитории сервисов регистрируется сервис адаптера посредника.

Делаем вывод, что управление потоками информации и процедурами обработки осуществляет ИТП. За взаимодействие информационной системы с ИТП отвечает адаптер. Адаптер отвечает также за исполнение объявленных в системе и зарегистрированных в ИТП сервисов системы. Для каждой системы, входящей в информационное пространство, используется отдельный экземпляр адаптера.

Такой подход реализуем и в условиях наличия на предприятии унаследованной системы, не имеющая API. В этом случае условия вынуждают написать приложение-сервис, обеспечивающее, по крайней мере, доступ к информации базы данных унаследованной системы (он и будет зарегистрирован в репозитории). В остальных случаях такой подход проектирования адаптера к ИТП не рекомендуется.

В случае если имеется разработанный сервис, но его результирующий массив не совсем подходит для представления в системе получателя, то разработчикам можно использовать существующий сервис. В настройках реакций подсистемы управления сервисами необходимо спроектировать шаблон xsl преобразования для формирования входных данных сервиса.

Для анализа сложных КИС, содержащих множество сервисов, которые реализуют слабо связанные бизнес-процессы, могут потребоваться специальные формализованные процедуры, основанные на математическом аппарате кластерного анализа.

4 Реализация метода подхода к проектированию интеграции корпоративных информационных систем c применением

инструментального пакета 1С: Предприятие 8

Необходимо организовать взаимодействие между информационной системой управляющей компании (ИС УК) и информационной системой энергогенерирующей компании (ИС ЭГК) передачу показаний использования горячей воды жильцами дома из управляющей компании (далее УК) в энерго-генерирующую компанию (далее ЭГК) обеспечив выполнение процесса, представленного на рисунке 1.

Page 200: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

199

Рисунок 1 – Схема процесса передачи показаний ГВ.

Для инициации процесса передачи показаний из УК в ЭГК необходимо определить прикладное событие, которое будет происходить при проведении документа: «Показания для ЭГК горячая вода». В результате возникновения события в УК, должна быть инициирована отправка данных с показаниями в ЭГК, данные содержат следующую информацию: идентификатор документа «Показания для ЭГК, даты платежей, показания, идентификатор документа «Показание клиентов (ГВ)» - для обратной идентификации начисленных оплат, ФИО клиента и значение показания.

Схема для данных, передаваемых в результате наступления события представлена на рисунке 2.

Рисунок 2 – Схема данных XML.

Page 201: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

200

Создание события в ИС «УК» осуществляется документом «Изменения события». После проведения документа «Изменение события» информация о созданном событии будет автоматически отправлена в ИТП. Регистрация событий в репозитории ИТП осуществляется аналогично регистрации систем.

5 Заключение

В ходе работы рассмотрели процесс разработки и исследования методов интеграции КИС. Проанализировали основные преимущества и недостатки способов интеграции. Предложен универсальный подход к реализации интеграции гетерогенных информационных систем с использованием платформы 1С: Предприятие.

Предложенный подход к интеграции гетерогенных приложения удовлетворяет основным требованиям, которые заказчики предъявляют к средствам интеграции [Интеграция 8, ч.2] :

Гибкость разработки и настройки процессов интеграции Управляемость процессом интеграции как при внедрении

интеграционных процессов, так и при их эксплуатации Снижение рисков потерь данных Снижение зависимости от потери работоспособности одной из

интегрируемых систем Снижение необоснованных дополнительных нагрузок на

прикладные системы, напрямую не связанных с их функциональностью

Снижение необоснованных нагрузок на персонал, отвлекающих персонал от выполнения своих основных (прямых обязанностей)

Повышенные требования к степени автоматизации процессов обработки данных

Методологии подхода к проектированию интеграции КИС при помощи инструментального пакета 1С: Интеграция 8, обеспечивает сравнительно быстрое внедрение новых интеграционных процессов обработки данных информационными системами заказчика, эффективный контроль за процессами и возможность своевременно изменять процессы обработки при изменении специфики деятельности. И, что важно, при имеющихся в распоряжении заказчика достаточно разнородных информационных систем [Интеграция 8, ч.2] .

Список литературы

[Когаловский, 2010] Когаловский М.Р. Методы интеграции данных в информационных системах // Институт проблем рынка РАН. — М.: – Москва, 2010.

Page 202: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

201

[Степанов, 2014] Степанов Д.Ю. Способы интеграции данных корпоративных информационных систем // Естественные и технические науки. — М.: Москва, 2014. — С. 207-213.

[Морозова, 2014] Морозова, О. А. Интеграция корпоративных информационных систем: Учебное пособие. — М.: Финансовый университет, 2014. — 131 с.

[Кусов, 2011] Кусов А.А. Проблемы интеграции корпоративных информационных систем // Управление экономическими системами: электронный научный журнал. — Санкт-Петербург, 2011.

[Интеграция 8, ч.1] Инструментальный пакет «1С:Интеграция 8. Редакция 1.2. Руководство [Электронный ресурс]. – Режим доступа: http:// http://solutions.1c.ru/catalog/integra/structure.citcity.ru/11132 (дата обращения: 21.05.2018).

[Интеграция 8, ч.2] Инструментальный пакет «1С:Интеграция 8. Методика использования [Электронный ресурс]. – Режим доступа: http:// http://solutions.1c.ru/catalog/integra/structure.citcity.ru/11132 (дата обращения: 21.05.2018).

DEVELOPMENT AND INVESTIGATION OF METHODS OF INTEGRATION OF CORPORATE INFORMATIONAL

SYSTEMS WITH APPLICATION OF PLATFORM 1C: ENTERPRISE 8

Rahmanova E.I. ([email protected]) Filippov A.A. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The article describes the process of development and research of methods of integration of corporate information systems. The main advantages and disadvantages of integration methods are analyzed. A universal approach to the integration of heterogeneous information systems using the 1C: Enterprise platform is proposed.

Keywords: corporate information systems, integration, service - oriented architecture.

Page 203: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

202

УДК 004.9

РАЗРАБОТКА СИСТЕМЫ ПОДДЕРЖКИ НАУЧНОГО ПРОЕКТА С ИСПОЛЬЗОВАНИЕМ РЕСУРСОВ

НАУЧНОЙ СОЦИАЛЬНОЙ СЕТИ

Микина К.С. ([email protected]) Тронин В.Г. ([email protected])

Ульяновский Государственный Технический Университет, Ульяновск

Статья посвящена исследованию данных об авторах научных публикаций социальной сети Research Gates в разрезе различных параметров. В качестве основного алгоритма решения, который используется в системе, представлен метод нечеткого поиска в тексте N-грамм. Программа позволяет вывести список подобранных авторов для совместной работы, а также найденных публикаций по ключевому слову.

Ключевые слова: управление проектами, социальные сети, ResearchGates, публикации, автор, N-грамм, TF-IDF, анализ данных

1 Введение

В нашем тысячелетии получило известность такое понятие как информационное общество. Под которым подразумевается общество, в котором значимая часть людей занята хранением, обработкой, реализацией, обработкой информации. Важное значение имеет создание глобального информационного пространства, которое обеспечивает:

1. Достаточно эффективное информационное взаимодействие людей;

2. Доступ членов информационного общества к мировым информационным ресурсам;

3. Удовлетворение потребностей людей в разных видах информационных продуктах и услугах.

Экспоненциальный рост количества генерируемой информации привел к тому, что в настоящее время количество информации удваивается каждые несколько месяцев. Невозможно оперировать таким объемом информации в научных исследованиях без ее обобщения, структурирования в виде знаний. Под понятием "знание" понимается

Page 204: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

203

результат познавательной деятельности, который может быть фактически, либо логически обоснован [GSK, 2018]. Результаты научных исследований, новые знания представляются в виде публикаций. Для создания единого информационного пространства и коммуникации ученых по всему миру используется социальная сеть ResearchGate. ResearchGate – это бесплатная социальная сеть и средство сотрудничества учёных всех научных дисциплин. Она предоставляет такие сетевые приложения, как семантический поиск (поиск по аннотации), совместное использование файлов, обмен базой публикаций, форумы, методологические дискуссии и так далее [Варакин, 2001].

Современные тенденции в управлении проектами характеризуются активным сотрудничеством исследователей на каждом этапе написания научной работы, глобальной географией коллектива, необходимостью анализировать большой объем регулярно обновляющихся данных. В связи с этим, задача данного исследования по улучшению координации проектной деятельности на основе ResearchGate, актуальна.

Предметом исследования является применение метода TF-IDF для анализа данных по публикациям и авторам на основе социальной сети ResearchGate.

Объектом исследования являются наукометрические данные авторов Ульяновского Государственного Технического Университета и их публикаций в социальной научной сети ResearchGate.

Цель данного проекта – разработать программу для управления научными проектами. Для достижения поставленной цели необходимо решить следующие задачи:

1. Исследовать предметную область; 2. Осуществить загрузку публикаций и авторов из научной

социальной сети Research; 3. Реализовать возможность подбора коллектива ученых с

применением метода нечеткого поиска; 4. Реализовать систему с использованием изученных

алгоритмов; 5. Подвести итоги о проделанной работе.

Практическая значимость работы заключается в автоматизации части задач по управлению проектами, например, данная программа поможет подобрать актуальный материал по тематике и помочь сформировать коллектив для совместной работы над проектом.

2 Научная социальная сеть ResearchGate

Научные социальные сети в современном мире представляют готовый бесплатный механизм для популяризации науки.

Page 205: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

204

Научная социальная сеть ResearchGate [RG, 2018] создана в 2008 году физиками Ijad Madisch и Dr. Sören Hofmayer, компьютерщиком Horst Fickenscher. Миссия проекта – объединение исследователей по всему миру и создание свободного доступа к научным результатам. К настоящему времени Research Gate объединяет свыше 12 млн пользователей из более 190 стран, 56 нобелевских лауреатов, представлены ведущие университеты со всего мира. За 2016 год число пользователей увеличилось на 2 млн.

Научная социальная сеть Research Gate позволяет автору: размещать свои публикации в доступ для исследователей со

всего мира; получать статистику о доступе к публикациям; искать работу в соответствии со своим научным профилем; коммуницировать с соавторами, специалистами, коллегами в

предметной области; задавать вопросы, вести обсуждения, цитировать работы.

Каждый ученый имеет возможность самостоятельно вести свой профиль, а также загружать публикации [Тронин, 2017].

3 Обзор аналогов

Существуют другие социальные сети для ученых и исследователей, одна из таких – Google Scholar [GS, 2018]. Это сервис, который создан в 2004 году академией Google. Основная идея этого сервиса осуществить поиск научной литературы. Благодаря использованию единой формы запроса, можно выполнять поиск по разным источникам и в различных дисциплинах. Академия Google классифицирует статьи так же, как и ученые, оценивая весь текст каждой статьи, ее автора, издание, в котором статья появилась, частоту цитирования данной работы. Наиболее уместные результаты всегда отображаются на первой странице. Google Scholar интегрирован с другими сервисами Google (почта, планировщик, файловое хранилище и т. д.) Преимущества Google Scholar в максимальном автоматическом поиске публикаций в Интернет, недостаток – мало инструментов аналитики, отсутствие контроля по качеству представленного материала [Тронин, 2015].

Еще одна сеть, которая позволяет делиться и обсуждать свои идеи – это социальная сеть для сотрудничества ученых Academia.edu [Academia, 2018]. Она открыта в сентябре 2008 года Ричардом Прайсом. К 2017 г. число зарегистрировавших достигло 48 млн человек. Сеть может использоваться для того, чтобы делиться с другими своими статьями, отслеживать их цитируемость, а также следить за новостями исследований и разработок. Основное назначение Academia.edu –

Page 206: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

205

быстрый бесплатный обмен результатами исследований, онлайн рецензирование, поиск единомышленников. Academia.edu отличается тем, что позволяет регистрироваться не только действующим студентам и сотрудникам вузов, но и независимым исследователям. По наполнению публикациями она многократно уступает Google Scholar и ResearchGate.

Рассмотренные социальные сети Google Scholar и Academia.edu имеют ограниченный функционал по работе научной информацией. ResearchGate содержит внутренние механизмы управления проектами – каждый может создать проект, подписчикам делается приглашение присоединиться к вирутальному проекту, каждому участнику научной социальной сети делается рассылка с рекомендациями к ознакомлению с новыми публикациями [Сафиуллин и др., 2015]. Но при этом ResearchGate не автоматизирует подбор коллектива для работы над собственным проектом, не формирует выходную аналитическую информацию о коллективе, а также не осуществляет автоматический поиск подходящих к проекту публикаций.

На основе существующей проблемы было принято решение о разработке системы по управлению научными проектами, которая позволит:

формировать подбор коллектива ученых с применением метода метод нечеткого поиска в тексте N-грамм

вести анализ найденных публикаций авторов по заданным ключевым словам;

вести оценку подобранного коллектива по параметрам; определять список подходящих авторов, публикаций и

нечеткий вывод с рекомендациями по результатам подбора;

4 Описание методов решения

Метод нечеткого поиска в тексте N-грамм был придуман довольно давно, и является наиболее широко используемым, так как его реализация крайне проста, и он обеспечивает достаточно хорошую производительность. Алгоритм основывается на принципе:

«Если слово А совпадает со словом Б с учетом нескольких ошибок, то с большой долей вероятности у них будет хотя бы одна общая подстрока длины N».

Эти подстроки длины N и называются N-граммами [Сметанин, 2018]. Алгоритм метода N-грамм состоит из нескольких этапов:

1. Составляются индексные базы по указанным N-граммам. 2. После чего введенное слово для поиска тоже разбивается на

N-граммы.

Page 207: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

206

3. После чего выполняется полный перебор значений по указанным N-граммам.

После применения основного метода применяется алгоритм TF-IDF [TF-IDF,2017]. (от англ. TF – term frequency, IDF – inverse document frequency). Это статистический метод, используемый для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции. Метод TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов.

Рассмотрим подробнее алгоритм TF-IDF. TF – это отношение числа вхождений некоторого слова к общему

числу слов в выбранном документе. Следственно, оценивается важность слова в пределах одного документа. ( , ) = ∑ , (1)

где есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF – инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес частоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. ( , ) = log | || ∈ | ∈ |, (2)

|D| – число документов в коллекции; ∈ | ∈ – число документов из коллекции в которых встречается , когда не равно 0.

Получаем, что TF-IDF является произведением двух сомножителей: − ( , , ) = ( , ) × ( , ) . (3) Большой вес в TF-IDF получат слова с высокой частотой в пределах

конкретного документа и с низкой частотой употреблений в других документах.

Page 208: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

207

5 Проектирование

Прежде чем приступить к реализации программы построим контекстную диаграмму IDEF0.

Методология IDEF0 является одним из популярных подходов для описания бизнес-процессов. Данная диаграмма моделирует систему наиболее общим образом. Контекстная диаграмма отражает информационные потоки между системой и внешними сущностями, с которыми она должна быть связана [Бутко и др., 2001].

На рисунке 1 представлена контекстная диаграмма предметной области.

Рисунок 1 – Контекстная диаграмма IDEF0

На рисунке 1 видна главная функция системы «Подбор коллектива ученых для работы над совместным проектом». Стрелки, входящие в блок сверху, свидетельствуют об управлении, в данном случае поиск коллектива ученых руководствуется набором правил и параметров. Стрелки, входящие в блок снизу, говорят о механизме, который реализует работу блока, в данном случае механизмом является пользователь, который ведет работу с программой, компьютер и сама программа. Стрелки, входящие в блок слева, показывают о входящих данных – ключевое слово, а также данные с ResearchGate. Стрелки, выходящие из блока, слева указывают на выходные данные. Выходными данными, в разрабатываемой программе, являются перечень подобранных авторов,

Page 209: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

208

показатели активности авторов, найденные публикации по ключевому слову и подобранные список литературы по ключевому слову.

6 Реализация

Разработка системы проводилась с использованием средств языка 1С на базе платформы «1С: Предприятие 8».

В качестве основных параметров выбраны такие показатели как: автор, рейтинг автора, количество публикаций, количество цитирования и количество читателей.

Рассмотрим основные функции разработанной системы. На рисунке 2 представлен результат работы программы. При нажатии

на кнопку "Update data" программа загружает обновленные данные по Ulyanovsk State Technical University с сайта ResearchGate.

Рисунок 2 – Подобранный список авторов по ключевому слову

В поле "Enter keywords" пользователь вводит ключевое слово и происходит поиск авторов и публикаций, удовлетворяющий условиям поиска. В данном случае пользователь ввел ключевое слово "time series".

В первой вкладке "Researchers" показаны предлагаемые авторы для совместной работы и их данные, такие как рейтинг выведенных авторов (колонка Rating), количество публикаций (колонка Research items), количество цитирования (колонка Citations), количество читателей (колонка Reads).

Перечень авторов отсортирован по наиболее релевантным для совместной работы, также для удобства происходит сортировка авторов и

Page 210: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

209

по учебному заведению, первоначально выводятся авторы из Ulyanovsk State Technical University.

Также следует отметить, что при нажатии на автора можно непосредственно перейти на личный профиль автора в ResearchGate и посмотреть более подробную информацию.

На рисунке 3 показана вторая вкладка "Research items". Здесь уже выводится перечень публикаций, удовлетворяющий условиям поиска. При нажатии на публикацию также можно посмотреть ее непосредственно на ресурсе социальной сети.

Рисунок 3 – Перечень публикаций по ключевому слову

7 Заключение

В ходе данной работы изучена предметная область, а именно социальная сеть ResearchGate, изучен основной метод анализа данных. Автоматически загружены в программу исходные данные по заданным параметрам из социальной сети ResearchGate.

В итоге разработана система по управлению научными проектами на основе анализа данных научной социальной сети с применением изученного алгоритма нечеткого поиска в тексте данных в разрезе различных параметров.

Разработанная программа позволяет формировать коллектив ученых с применением метода N-грамм анализа, вести анализ найденных публикаций авторов по заданным ключевым словам, а также определять

Page 211: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

210

список подходящих авторов для совместной работы и находить необходимый перечень публикаций.

Перспективы развития программного продукта: усовершенствование алгоритмов для более качественной визуализации анализа, донастройка параметров нечеткого поиска в тексте для возможности сравнения разных организаций и научных групп.

Список литературы

[Бутко и др., 2001] Бутко В.Р., Дерябкин В.П., САSЕ - технологии моделирования и проектирования АИС - Учебн. пособие. / В. Р. Бутко, - Самара: Самарск. Гос. Экон. академия. 2001.

[Варакин, 2001] Варакин Л. Е., Глобальное информационное общество: Критерии развития и социально-экономические аспекты. -М.: Междунар. акад. связи, 2001.

[Сафиуллин и др., 2015] Сафиуллин А., Тронин В., Сотрудничество и научно-исследовательские сети в экономике знаний // Проблемы теории и практики управления. 2015. 2.

[Сметанин, 2018] Сметанин Н., Нечеткий поиск в тексте [Электронный ресурс] // Официальный сайт Habrahabr: [сайт].URL: https://habr.com/post/114997/ (дата обращения: 12.05.2018).

[Тронин, 2015] Тронин В.Г., Профессиональные социальные сети LinkedIn и академия Google // Вестник Ульяновского государственного технического университета. 2015. 3 (71).

[Тронин, 2017] Тронин В.Г., Планирование и управление научными проектами с применением современных информационно-коммуникационных технологий: учебное пособие / В. Г. Тронин. – Ульяновск : УлГТУ, 2017.

[Academia, 2018] Academia.edu - научная социальная сеть [Электронный ресурс] // Официальный сайт Academia: [сайт].URL: https://www.academia.edu/ (дата обращения: 17.05.2018).

[GS, 2018] Google Scholar - научная социальная сеть [Электронный ресурс] // Официальный сайт ResearchGate: [сайт].URL: https://scholar.google.ru/ (дата обращения: 17.05.2018).

[GSK, 2018] GSK: Информационное общество [Электронный ресурс] // Официальный сайт федеральной службы государственной статистики РФ [сайт].URL:http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/sta

Page 212: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

211

tistics/science_and_innovations/it_technology/ (дата обращения: 11.05.2018).

[RG, 2018] ResearchGate - научная социальная сеть [Электронный ресурс] // Официальный сайт ResearchGate: [сайт].URL: https://www.researchgate.net/ (дата обращения: 17.05.2018).

[TF-IDF, 2017] TF-IDF [Электронный ресурс] // Официальный сайт Wikipedia: [сайт].URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 12.05.2018).

DEVELOPMENT OF THE SCIENTIFIC PROJECT SUPPORT SYSTEM USING THE RESOURCES OF THE

SCIENTIFIC SOCIAL NETWORK

Mikina K.S. ([email protected]) Tronin V.G. ([email protected])

Ulyanovsk State Technical University, Ulyanovsk

The article is devoted to the study of data on the authors of scientific publications of the social network Research Gates in the context of various parameters. The method of fuzzy search in the text of N-grams is presented as the main algorithm of the solution, which is used in the system. The program allows you to display a list of selected authors for collaboration, as well as found publications by keyword.

Keywords: project management, social networks, Researchgate, publications, author, N-Gramm, TF - IDF, data analysis

Page 213: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

212

УДК 004.9

РАЗРАБОТКА СИСТЕМЫ СРАВНЕНИЯ ТЕКСТОВЫХ СООБЩЕНИЙ ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ

ОТВЕТА НА ПОИСКОВОЙ ЗАПРОС НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ РЕКУРРЕНТНОГО ТИПА

Свиязова О.А. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В работе описана система, которая предназначена для повышения эффективности работы систем обмена знаниями и решает задачу сравнения семантики двух текстовых сообщений, используя обученную модель рекуррентной нейронной сети.

Ключевые слова: сравнение текстовых сообщений, рекуррентная нейронная сеть, система обмена знаниями

1 Введение

Системы обмена знаниями ежедневно посещает более 100 миллионов человек. Многие из них задают вопросы с одним и тем же смыслом, сформулированные по-разному. В результате приходится самостоятельно потратить длительное время на поиск лучшего ответа на свой вопрос. Для решения этой проблемы система должна автоматически идентифицировать вопросы с одинаковым смыслом и сразу же предлагать пользователю лучшие из существующих ответов.

Существует множество возможных областей применения для метода сравнения семантики двух сообщений, однако в современных условиях от его наличия особенно выиграют именно пользователи сервисов по обмену знаниями, который смогут гораздо быстрее получать интересующие их ответы.

В подобных системах обнаружение дублирующих вопросов происходит либо средствами пользователей, либо с использованием ряда методов, производящих лексический и семантический анализ текста. Часто они не являются универсальными: применимы только в конкретной системе, для текстов заданной структуры или тематики.

В 2017 году платформа Kaggle, на которой программисты со всего мира участвуют в состязаниях по решению задач машинного обучения,

Page 214: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

213

выложила данные задачи по идентификации пар вопросов с одним смыслом для системы обмена знаниями Quora.

На основе данных этой задачи был разработан модуль на языке программирования Python. Его основная функция – сравнить два входных сообщения и дать ответ на вопрос, несут ли они одинаковую смысловую нагрузку. Также были разработаны две демонстрационные версии системы, использующие модуль сравнения: веб-сервис и приложение для рабочего стола. Они предоставляют пользователю возможность загрузить тестовую выборку пар вопросов и проверить точность работы модуля.

2 Описание реализации

Существуют работающие методы решения задачи сравнения текста средствами машинного обучения. Однако до появления в январе 2017 года набора данных из системы Quora, содержащего более 400 000 пар вопросов, не представлялось возможности протестировать их на выборке достаточного объема [Csernai, 2017]. В результате исследования качества работы некоторых методов на данных Quora наилучшие результаты дали нейронные сети глубокого обучения [Rodrigues et al., 2017]. Поэтому в основу модуля сравнения сообщений легла модель нейронной сети, для оценки которой были использованы данные упомянутого исследования.

Входными данными для модуля является пара текстовых сообщений. Сначала производится их предварительная обработка: из текста удаляются лишние символы, затем сообщения преобразуются в векторные представления. В таком представлении каждому слову из сообщения сопоставляется вектор из вещественных чисел из специально построенного словаря векторов [Николенко, 2018].

Для обработки данных используется сиамская сеть: этот вид архитектуры нейронных сетей содержит две или несколько идентичных подсетей, выходы которых каким-либо образом объединяются. Он хорошо показал себя на задачах по сравнению входных данных различных типов [Neculoiu et al., 2016].

В данном случае каждая из двух подсетей представляет собой рекуррентную нейронную сеть, а именно – сеть с долгой краткосрочной памятью (LSTM). В рекуррентных сетях имеется обратная связь, то есть связь от логически более удаленного элемента к менее удаленному. В таких сетях возникает эффект памяти и способности воспринимать не только статичный образ, но и динамику образов [Воронина, 2017], что лучше всего подходит для анализа текста. LSTM как разновидность рекуррентной сети отличается тем, что содержит дополнительные модули, способные запоминать значения как на короткие, так и на длинные промежутки времени.

Page 215: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

214

Входом подсети является векторное представление одного из пары сообщений.

Функция активации LSTM – гиперболический тангенс: ℎ( ) = . (1)

После обработки данных LSTM высчитывается сходство между двумя векторами на основе расстояния городских кварталов (или манхэттенского расстояния) – согласно этой метрике, расстояние между двумя точками равно сумме модулей разностей их координат [Mueller et al., 2016]: ( , ) = | |. (2)

Результат сравнения представляет собой число от 0 до 1 (чем оно больше, тем выше вероятность, что вопросы одинаковы по смыслу). По умолчанию ответом на вопрос, дублируют ли входные сообщения друг друга, является это число, округленное до 0 или 1.

Полностью архитектура используемой нейронной сети показана на рисунке 1.

Рисунок 1 – Архитектура нейронной сети

При обработке данных модуль загружает сохраненную модель сети, обученную на наборе данных из системы Quora. В связи с этим система на данный момент работает только с англоязычным текстом.

Page 216: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

215

Демонстрационные версии системы в своей работе обращаются к двум главным функциям модуля: сравнение двух входных сообщений или обработка размеченного тестового набора пар сообщений. Во втором случае система возвращает пользователю рассчитанную точность работы модуля, затраченное время и количество обработанных пар сообщений.

На полном тестовом наборе данных Quora система показала точность 0,8. Из данных, использованных для оценки модели, наибольшую точность на той же выборке дала комбинация сверточной и полносвязной нейронных сетей – 0,71.

Работа с моделью нейронной сети была реализована с использованием класса Model из открытой библиотеки Keras [Chollet, 2015].

Веб-сервис использует Flask — фреймворк для создания веб-приложений на языке Python. Относится к категории так называемых микрофреймворков — минималистичных каркасов веб-приложений, сознательно предоставляющих лишь самые базовые возможности [Википедия, 2018].

Для написания приложения для рабочего стола использовался PyQt — набор «привязок» графического фреймворка Qt для Python, выполненный в виде расширения Python.

На рисунке 2 представлен интерфейс демонстрационной версии системы с веб-сервисом.

Рисунок 2 – Главная страница веб-сервиса

Page 217: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

216

На рисунке 3 представлен пример отображения результатов обработки тестовой выборки данных в приложении для рабочего стола.

Рисунок 3 – Результаты обработки

3 Заключение

Разработанная система предоставляет пользователю возможность с достаточно высокой точностью сравнить по смыслу два текстовых сообщения или обработать большую выборку пар сообщений. Универсальный модуль может быть встроен в другую систему или использован сторонней программой.

Таким образом, использование модуля сравнения сообщений позволит повысить эффективность работы системы обмена знаниями.

Список литературы

[Википедия, 2018] Свободная энциклопедия Википедия [Электронный ресурс] // Flask (веб-фреймворк) [сайт].URL: https://ru.wikipedia.org/wiki/Flask_(веб-фреймворк) (дата обращения: 5.05.2018).

[Воронина, 2017] Воронина, В.В. Теория и практика машинного обучения: учебное пособие / В. В. Воронина, А.В. Михеев, Н.Г. Ярушкина, К.В.Святов. – Ульяновск: УлГТУ, 2017. – 293 с.

[Николенко, 2018] Николенко С. Глубокое обучение / С. Николенко, А. Кадурин, Е. Архангельская. - СПб.: Питер, 2018. – 480 с.

[Csernai, 2017] Kornél Csernai. First Quora dataset release: Question pairs. [Электронный ресурс] / Shankar Iyer, Nikhil Dandekar, Kornél Csernai [сайт].URL: https://data.quora.com/FirstQuora-Dataset-Release-Question-Pairs (дата обращения: 5.05.2018).

Page 218: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

217

[Rodrigues et al., 2017] Joao Rodrigues. Ways of Asking and Replying in Duplicate Question Detection / Joao Rodrigues, Chakaveh Saedi, Vladislav Maraev, Joao Silva, Antonio Branco // Proceedings of the 6th Joint Conference on Lexical and Computational Semantics. – Vancouver, Canada, 2017. – P. 262–270.

[Neculoiu et al., 2016] Paul Neculoiu. Learning Text Similarity with Siamese Recurrent Networks / Paul Neculoiu, Maarten Versteegh, Mihai Rotaru // Proceedings of the 1st Workshop on Representation Learning for NLP. – Berlin, Germany, 2016. – P. 148–157.

[Mueller et al., 2016] Jonas Mueller. Siamese Recurrent Architectures for Learning Sentence Similarity / Jonas Mueller, Aditya Thyagarajan // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16). – 2016. – P. 2786–2792.

[Chollet, 2015] Francois Chollet. Keras [Электронный ресурс] URL: https://github.com/fchollet/keras (дата обращения: 5.05.2018).

DEVELOPMENT OF THE TEXT MESSAGES COMPARISON SYSTEM FOR INCREASING

RELEVANCE OF THE RESPONSE TO A SEARCH QUERY BASED ON RECURRENT NEURAL NETWORKS

Sviyazova O.A. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper describes the system that is designed to improve the efficiency of knowledge sharing systems. It compares the semantics of two text messages using a trained recurrent neural network model.

Keywords: text messages comparison, recurrent neural network, knowledge sharing system

Page 219: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

218

УДК 004.891, 616-07

РАЗРАБОТКА ЭКСПЕРТНОЙ СИСТЕМЫ ДИАГНОСТИКИ ЗАБОЛЕВАНИЯ НА ОСНОВЕ

РЕЗУЛЬТАТОВ КЛИНИЧЕСКИХ ЛАБОРАТОРНЫХ ИССЛЕДОВАНИЙ

Лукьянова А.А. ([email protected]) ФБПОУ Ульяновский Фармацевтический Колледж

МЗРФ, Ульяновск Максимов Д.А. ([email protected]) Ульяновский Государственный Технический

Университет, Ульяновск Куркина С.В. ([email protected]) МАОУ СОШ 15, Г.о. Балашиха

В работе описывается процесс разработки экспертной системы для определения заболевания на основе алгоритма дерева решений. Для уточнения вероятности проверяется количество совпадающих важных симптомов. Данная система помогает врачу упростить процесс диагностики заболевания пациента на основе результатов лабораторной диагностики.

Ключевые слова: медицинская экспертная система, диагностика заболеваний, лабораторная диагностика, дерево решений.

1 Введение

Экспертные системы (ЭС) были разработаны как научно-исследовательские инструментальные средства в 1960-х годах и рассматривались в качестве искусственного интеллекта специального типа, предназначенного для успешного решения сложных задач в узкой предметной области, такой как медицинская диагностика заболеваний [Джарратано и др., 2006].

ЭС аккумулируют в себе и тиражируют опыт и знания высококвалифицированных специалистов, позволяют пользоваться этими знаниями пользователям «неспециалистам» в данной предметной области. Одним из средств повышения эффективности диагностики является автоматизация и интеллектуализация обработки медицинских данных с

Page 220: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

219

использованием информационных технологий как средства, позволяющего принять во внимание значительное количество диагностических признаков. [Рафикова и др., 2016]. То есть, ЭС не призваны заменить собою эксперта в его непосредственной деятельности, а, напротив, расширяют возможную сферу применения знаний авторитетных специалистов [Муромцев, 2005].

Целью данной работы является повышение скорости и качества диагностики заболеваний путем создания экспертной системы диагностики, позволяющей сузить круг возможных заболеваний, определяя необходимые лабораторные исследования и используя полученные данные по показателям и симптомам пациента.

Для решения поставленной задачи необходимо: 1. изучить предметную область; 2. определить круг диагностируемых заболеваний и их

симптомов; 3. выделить необходимые лабораторные исследования; 4. сформировать базу знаний; 5. построить дерево решений; 6. реализовать систему и протестировать её; 7. составить руководство пользователя.

Полученная система будет предлагать пользователю ответить на ряд вопросов, касающихся диагностики, определяя необходимый лабораторный анализ для получения ответа на текущий вопрос. В результате система сообщит о наиболее возможном заболевании и выведет информацию о других возможных заболеваниях с вероятностью их наличия.

Похожими системами являются MYCIN (Стэндфордский университет, США), INTERNIST-I (Питтсбургский университет, США), CADUCEUS (Питтсбургский университет, США).

2 Анализ предметной области

Основная функция клинико-диагностической лаборатория заключается в предоставлении врачу-клиницисту достоверной информации о составе проб биологических материалов, полученных у больного, и о степени соответствия показателей этого состава общепринятой «норме» [Лелевич и др., 2011].

Первичные тесты проводятся для установления места локализации. Дальнейшие лабораторные тесты определяют характер заболевания, конкретную нозологическую форму и этиологию. Проводятся тесты для установления прогноза и определения тяжести заболевания. Дополнительно проводятся тесты, подтверждающие диагноз.

Page 221: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

220

Вышеперечисленные тесты производятся медицинским технологом. Медицинский технолог знает современные методы лабораторных исследований, нормальные и патологические показатели результатов исследования, признаки типовых патологических процессов в органах и тканях и проводит самостоятельно сложные исследования с использованием новейших технологий: биохимические, гематологические, цитологические, иммунологические, токсикологические, медико-генетические и пр.

В результате анализа предметной области была составлена онтология, содержащая следующие основные термины:

диагностика; диагностический критерий; заболевание.

Различные диагностические методы, такие как изучение анамнеза и жалоб, проведение общего анализа крови, мочи, кала, мокроты и других анализов необходимо для оценки текущего состояния пациента и выявления симптомов. Отклонения в показателях и определённые симптомы могут быть характерны для конкретного заболевания или группы заболеваний, и, следовательно, являются его диагностическими критериями.

3 Диагностируемые заболевания и симптомы

Экспертом технологом были выбраны следующие 6 групп заболеваний, включающие 20 заболеваний, которые представлены в таблице 1:

Таблица 1 – Группы заболеваний Группа заболеваний Название заболевания

Заболевания органов дыхания

Туберкулез легких Бронхоэктатическая болезнь

Абсцесс легкого Аденокарцинома легкого

Заболевания сердечно-сосудистой системы

Острый инфаркт миокарда Атеросклероз

Острый и подострый инфекционный эндокардит

Заболевания желудочно-кишечного тракта

Злокачественные новообразования желудка Холера

Брюшной тиф Заболевания поджелудочной

железы Острый панкреатит

Хронический панкреатит

Page 222: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

221

Группа заболеваний Название заболевания

Заболевания печени

Вирусный гепатит А Вирусный гепатит В Вирусный гепатит С Алкогольный гепатит

Заболевания почек и мочевыводящих путей

Почечнокаменная болезнь Амилоидоз

Паразитарные заболевания Малярия Заболевания системы крови Железодефицитная анемия В результате в онтологию были добавлены группы заболеваний как

подклассы заболевания и конкретные заболевания как объекты данных классов.

4 Лабораторные исследования

В процессе выявления симптомов и показателей заболеваний экспертом были определены 9 групп необходимых лабораторных тестов, по которым оценивается 71 показатель пациента. Некоторые из них представлены в таблице 2:

Таблица 2 – Лабораторные тесты Диагностика Показатели и симптомы

ОАК (Общий Анализ Крови) Эритроциты

Проба Биторфа-Тушинского

ОАМ (Общий Анализ Мочи) Протеинурия

Белок Бенс-Джонса ОАКала (Общий Анализ

Кала) Слизь в кале

ОАМокроты (Общий Анализ Мокроты)

Гематоидон Пробки Дитриха

БАК (Бактериологическое исследование)

Мочевина Щелочная фосфатаза

Цитология Атипичные клетки

Амилоид Иммунологические исследования

Антигены JgM и JgG

Жалобы и анамнез Кашель Температура

Физикальное обследование Деформация грудной клетки Набухшие вены

Page 223: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

222

Для описания симптомов заболеваний, принципов их диагностики, возможной клинической картины применялась большая медицинская энциклопедия заболеваний [Елисеев и др., 2015]. Экспертом определены наиболее значимые показатели для каждого заболевания, представленные в таблице 3. Данные показатели являются определяющими для конкретного заболевания.

Таблица 3 – Значимые показатели и симптомы заболеваний Заболевание Показатели и симптомы

Туберкулёз лёгких

Кашель, Мокрота, Наличие крови, Линзы Коха, Коралловидные волокна, Ускорение СОЭ, Лейкоциты, Лимфоциты, Наличие сухих и влажных хрипов, Боли в грудной клетке

Бронхоэктатическая болезнь

Кашель, Мокрота, Деформация грудной клетки, ЦИК, Слои мокроты, Наличие сухих и влажных хрипов, Боли в грудной клетке

Абсцесс лёгкого

Кашель, Мокрота, Пробки Дитриха, Патогенные микроорганизмы, Гемосидерин, Гематоидон, Эритроциты (мокрота), Лейкоциты (мокрота), Боли в грудной клетке

Аденокарцинома легкого Набухшие вены, Онкомаркеры

Острый инфаркт миокарда БОФ, Средние молекулы,

Миоглобин, НК, Тропонин

Атеросклероз Холестерин ХС,

Триацилглицериды ТАГ, ЛПНП Острый и подострый

инфекционный эндокардит Гистоцитоз, Эозинофилы, Проба

Биторфа-Тушинского Злокачественные

новообразования желудка Атипичные клетки

Холера Эритроциты Брюшной тиф Эозинофилы, Реакция Видаля

Группы лабораторных тестов были добавлены в онтологию как

подклассы лабораторного теста, показатели и симптомы добавлены как объекты соответствующих подклассов в классе «Диагностический критерий».

Page 224: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

223

4 Лабораторные исследования

Основой экспертной системы выбрано дерево решений. Деревья решений являются способом представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Для построения дерева решения были рассмотрены следующие алгоритмы: ID3, C4.5, C5.0, CART и, конкретно, ПО See5 основанное на алгоритме C5.0 [Rulequest research, 2017]. Но в результате дерево было построено вручную, так как имеющихся данных оказалось недостаточно для корректной отработки алгоритмов. Использовался стандартный алгоритм построения дерева решений: множество заболеваний рекурсивно разбивалось на подмножества по определённому атрибуту-симптому или показателю [Quinlan, 1993]. Следующий атрибут выбирался с помощью оценки изменения энтропии после разбиения множества на подмножества, если это было возможно. Выбирался атрибут, имеющий наибольший прирост информации. Энтропия рассчитывалась по формуле Шеннона: = − ∗ log , где n – общее количество болезней, pi – количество болезней с данным значением показателя или симптома. Однако многие симптомы или изменения в показателях могли быть при заболеваниях, для которых они не являлись диагностическими критериями или быть следствием внешних факторов (например, головные боли, боли в спине и т.д.). Поэтому в большинстве случаев атрибуты были выбраны на основе профессиональных знаний и интуиции эксперта.

В результате построено дерево, содержащее 103 узла, 32 из которых являются решающими (т.е. с помощью них определяется заболевание), а остальные являются уточняющими (т.е. изменяют вероятность диагностированного заболевания). Уточняющие узлы не имеют ветвлений. Классы заболеваний являются листами данного дерева. В таблице 4 представлен фрагмент полученного дерева решений в виде таблицы переходов из начального состояния «Гемоглобин».

Таблица 3 – Фрагмент таблицы переходов Номер узла

Тип узла Название Варианты переходов

Номер узла

перехода 1 Решающий Гемоглобин В норме 16

Повышен 3 Снижен 2

2 Решающий Тропонин Снижен\В норме 3

Page 225: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

224

Номер узла

Тип узла Название Варианты переходов

Номер узла

перехода T, J, C повышен 6

3 Решающий Эритроциты Повышены\В норме

4

Снижены 10 4 Решающий Диарея Присутствует 5

Отсутствует 16 5 Решающий Слизь в кале Присутствует 12

Отсутствует 16 6 Уточняющий Средние

молекулы - 7

7 Уточняющий Миоглобин - 8 8 Уточняющий НК - 9 9 Уточняющий БОФ - 13

10 Уточняющий Железо - 11 11 Уточняющий Лейкоциты - 14 12 Уточняющий Нейтрофилы - 13 13 Уточняющий Лейкоциты - 15 14 Лист ЖДА - - 15 Лист Холера - - 16 Лист Здоров\Не

определено - -

В дополнение к дереву решений рассчитывается вероятность заболеваний исходя из количества совпадающих важных симптомов и значений показателей из таблицы 3, которые были выбраны в процессе ответов на вопросы системы.

5 Реализация экспертной системы

При проектировании и реализации информационной системы полностью построен и реализован удобный для пользования, понятный интерфейс программы.

В основном окне находится компонент, отвечающий за отображение диагностического процесс в виде формы ответа на текущий вопрос или вывода результата тестирования. На рисунке 1 представлена форма ответа на текущий вопрос. В верхней части данной формы выводится название диагностической группы к которой относится данный вопрос. Под ним отображается название текущего оцениваемого симптома или показателя.

Page 226: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

225

Ниже описывается вопрос, относящийся к данному показателю. Под ним находится список возможных вариантов ответа. Выбрать можно только один вариант ответа. Внизу формы находится панель управления тестом. Кнопка «К началу» перезапускает текущий тест, стирая все раннее полученные данные. Кнопка «Следующий» осуществляет переход к следующему вопросу или выводит форму вывода результатов диагностики, представленную на рисунке 2.

Рисунок 1 – Форма ответа на вопрос

Форма вывода результатов содержит название диагностированного заболевания, вероятность его наличия, краткое описание данного заболевания, список вероятностей других возможных заболеваний и кнопку «К началу», которая перезапускает процесс тестирования.

Рисунок 2 – Форма вывода результатов диагностики

Page 227: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

226

Меню в верхней части окна предоставляет возможность вызова справочной информации о программе и краткое руководство по её использованию.

Программа была протестирована медицинским экспертом путём многократного прохождения теста и сравнения результатов с построенным деревом.

6 Заключение

В ходе работы была проанализирована предметная область, построена её онтология, выбраны диагностируемые заболевания и лабораторные тесты для их определения, выбран метод решения задачи, построено дерево решений и реализована программная система в виде теста.

К перспективам развития программного продукта можно отнести: усовершенствование алгоритма дерева решений при обнаружении

заболеваний; доработка алгоритма определения вероятности заболеваний; расширение базы диагностируемых заболеваний и симптомов; улучшение интерфейса программной системы.

Реализованная система получила положительные отзывы у эксперта.

Список литературы

[Quinlan, 1993] Quinlan J.R. C4.5: Programs for Machine learning // Morgan Kaufmann Publishers. 1993.

[Rulequest research, 2017] Data Mining Tools See5 and C5.0 [Электронный ресурс] // Rulequest research. – Режим доступа: https://www.rulequest.com/see5-info.html (дата обращения: 11.05.2017)

[Джарратано и др., 2006] Джарратано Д., Райли Г. «Экспертные системы: принципы разработки и программирование» : Пер. с англ. — М. : Издательский дом «Вильямс», 2006. — 1152 стр. с ил.

[Елисеев и др., 2015] Елисеев А.Г. Большая медицинская энциклопедия // А.Г. Елисеев, В.Н. Шилов и др. М.: Эксмо, 2015. – 880 с.

[Лелевич и др., 2011] Лелевич С.В., Воробьёв В.В., Гриневич Т.Н. Клиническая лабораторная диагностика : уч.- метод. пособие для студентов лечебного, педиатрического и медико- психологического факультетов / С.В. Лелевич, В.В. Воробьев, Т.Н. Гриневич – Гродно : ГрГМУ, 2011. – 166 с.

[Муромцев, 2005] Муромцев Д.И. Введение в технологию экспертных систем. – СПб: СПб ГУ ИТМО, 2005. – 93 с.

[Рафикова и др., 2016] Рафикова Л.С., Куркина С.В. Разработка экспертной системы диагностики заболеваний // Прикладные информационные системы: третья Всероссийская НПК: сборник

Page 228: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

227

научных трудов / под ред. Е. Н. Эгова. – Ульяновск : УлГТУ, 2016. – С. 347-353.

DEVELOPMENT OF DESEASE DIAGNOSIS EXPERT SYSTEM BASED ON CLINICAL LABORATORY

RESULTS

Lukyanova A.A. ([email protected]) Federal State-Funded Educational Institution of secondary education Ulyanovsk Pharmaceutical Сollege of Ministry

of Health of the Russian Federation, Ulyanovsk Maksimov D.A. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

Kurkina S.V. ([email protected]) Municipal Autonomous Educational Institution

Secondary school 15, Balashiha

The paper describes the process of developing a medical expert system for determining the disease based on the decision tree algorithm. To clarify the probability, the number of coinciding important symptoms is checked. This system helps the doctor to simplify the process of diagnosing the patient's illness based on the results of laboratory diagnostics.

Keywords: medical expert system, diseases diagnosis, laboratory diagnostics, decision tree.

Page 229: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

228

УДК 004.9

СИСТЕМА УПРАВЛЕНИЯ АВТОНОМНЫМ БЕСПИЛОТНЫМ РОБОТОМ В ОГРАНИЧЕНИЯХ

СОРЕВНОВАНИЯ ROBOFEST

Солдатов А.В. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В работе описана система управления автономным беспилотным роботом для участия в всероссийских соревнованиях по робототехнике Robofest 2018, в номинации AutoNet18+.

Ключевые слова: Robofest, беспилотные роботы, распознавание

1 Введение

В рамках соревнований Robofest в 2018 году, в номинации AutoNet18+, была поставлена задача создания автономного беспилотного аппарата, использующего автомобильную кинематику, для прохождения трассы.

Данную трассу условно можно разделить на 3 участка: скоростной участок городские кварталы (лабиринт с установленными знаками

дорожного движения и светофором) участок с круговым движением и парковкой

Page 230: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

229

Рисунок 1 – План игрового поля.

2 Система управления роботом на основе ROS

Для решения поставленной задачи была разработана система с 4 уровнями абстракции:

1. Контроллер 2. Узлы (ноды) управления 3. ПИД регулятор 4. Модуль управления моторами.

Контроллер определяет, что должен делать робот в текущий момент, и передает соответствующий сигнал в ноду управления, которая отвечает за данный участок.

Нода управления после получения команды запрашивает данные с лазерного дальномера и камер, вычисляет необходимую траекторию и отправляет её в ПИД регулятор.

ПИД регулятор на основе полученной информации о пути рассчитывает скорость и угол поворота и передает их в скрипт управления, который приводит робота в движение.

Получение и обработка данных осуществлены с помощью системы топиков и сервисов ROS, схема которых изображена на рисунке 2. Информация с датчиков считывается нодой которая отвечает за получение данных и затем передается в сервис обработки. Этот процесс

Page 231: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

230

происходит постоянно. Если на сервис приходит запрос, то он асинхронно генерирует ответное сообщение с командами. Такой подход позволяет увеличить быстродействие робота.

Рисунок 2 – Архитектура системы.

Программная реализация системы автоматизированного управления роботом построена на операционной системе ROS (Robot Operating System).

ROS обеспечивает стандартные службы операционной системы, такие как: аппаратную абстракцию, низкоуровневый контроль устройств, реализацию часто используемых функций, передачу сообщений между процессами и управление пакетами. ROS основан на архитектуре графов, где обработка данных происходит в узлах, которые могут получать и передавать сообщения между собой. Библиотека ориентирована на Unix-подобные системы. В реализованной системе управления ROS функционирует в среде Ubuntu Mate 16.04.

ROS состоит из двух основных компонентов: операционной системы ros, как описано выше, и ros-pkg - набор поддерживаемых пользователями пакетов (организованных в наборы, которые называются стек), которые реализуют различные функции робототехники: SLAM, планирование, восприятие, моделирование и др.

Во время работы ROS происходит построение «графа» – сеть “точка-точка” из процессов, которые осуществляют передачу сообщений между собой через инфраструктуру ROS.

Page 232: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

231

ROS реализует 3 различных стиля общения: Синхронное общение сервисов,; Асинхронные потоки данных через заголовки (topics); Хранение данных на сервере параметров.

Система управления роботом содержит несколько узлов (“nodes”). Узел – это процесс, который выполняет вычисления. Узлы

объединяются в граф и взаимодействуют друг с другом с помощью потоковых служб RPC и сервера параметров. Например, один узел управляет лазерным дальномером, один узел управляет двигателем и сервомотором робота, один узел выполняет локализацию, один узел выполняет планирование маршрута, один узел обеспечивает графическое представление системы и т.д.

2.1 Скоростная трасса

Рисунок 3 – Диаграмма работы скоростной трассы

За участок “Скоростная трасса” отвечает нода “speed_road”. В ней реализован бесконечный цикл с несколькими условиями выхода. Первым действием используется сервис получения изображений. На полученную

Page 233: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

232

фотографию накладываются различные фильтры, которые помогают увеличить точность обработки. Далее запускается алгоритм нахождения линий дорожной разметки и перекрестов. При обнаружении первого перекрестка запускается алгоритм поворота, после которого опять возобновляется работа speed_road. На второй развилке вызывается метод распознавания дорожных знаков и сигналов светофора. Если все условия заезда в город соблюдены (нет запрещающих знаков, горит зеленый сигнал светофора) робот поворачивает, а нода “Скоростная трасса” отправляет контроллеру команду о завершении своей работы. Если же совершить въезд нельзя, робот едет вперед до следующего перекрестка на котором выполняет все вышеописанные действия.

Коррекция движения автомобиля выполняется путем вычисления по фотографии расстояния от робота до правой линии дорожной разметки и после обработки этих данных ПИД регулятором, на моторы подается угол поворота колес. Поиск и объезд препятствий осуществляется с помощью лидара.

2.2 Распознавание линий дорожной разметки. Распознавание линий дорожной разметки реализовано с

использованием библиотеки алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом OpenCV.

Распознавание происходит в несколько этапов: 1. Получение изображения с камеры. 2. Очистка изображения от шумов. 3. Нахождение значимых контуров. 4. Определение перекрестка. 5. Расчет дистанции. 6. Передача данных.

Для очистки изображения от шумов используется специальный метод из библиотеки OpenCV “fastNlMeansDenoisingColored”. Нахождение значимых контуров реализовано путем нахождения и аппроксимации крупных черных линий (дорожная разметка) и аналогично для красных (центр робота), для этого использованы методы Canny и наложение цветовых масок на изображение.

Критериями первого перекрестка являются разрыв правой и обнаружение горизонтальной линии. Поиск второго пересечения начинается после проезда первого. Разрыв правой линии является единственным условием.

Для определения корректировки маршрута используется расчет дистанции от центра красной линии до правой вертикальной линии.

Page 234: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

233

2.3 ПИД регулятор ПИД регулятор – система, которая осуществляет поддержку заданного

значения x0 некоторой величины x с помощью изменения другой величины u. Значение x0 называется заданным значением (или уставкой, в технике), а разность e = (x0 − x) – невязкой (или ошибкой [регулирования], в технике), рассогласованием или отклонением величины от заданной.

Наш регулятор адаптирован для автомобильной кинематики. Он

принимает на вход два значения: отклонение от требуемой траектории и дистанцию до неё. Так как угол поворота колес автомобиля оказывает непрямое воздействие на входные значения, была сильно уменьшена интегральная составляющая и увеличена дифференциальная.

2.4 Городские кварталы.

Рисунок 4 – Диаграмма работы ноды городских кварталов

За участок “Городские кварталы” отвечает нода “city_quarters”. В ней реализован бесконечный цикл с условиями выхода заключающемся в достижении финишной вершины.

Передавая управление этой ноде, контроллер первым действием сообщает ей с какого входа мы заехали в город, чтобы она посредством графа выстроила кратчайший путь к выходу из лабиринта. Граф задается

Page 235: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

234

статически в текстовом файле. Далее робот начинает движение параллельно выполняя поиск перекрестков с помощью лазерного дальномера. Как только был распознан перекрёсток вызывается система распознавания дорожных знаков, основываясь на данных которой графу передаётся информация о возможных путях. Далее граф перестраивается и ищется новый кратчайший путь.

После этого нода делает запрос графу о направление дальнейшего движения, строит виртуальные стены на закрытых участках движения и по ПИД регулятору направляет робота в открытом направлении.

Когда робот успешно проезжает перекресток он продолжает ехать прямо по ПИД регулятору, а нода убирает виртуальные стены.

Конечным этапом работы “city_quarters” является сообщение графа о достижении финишной вершины и передача Контроллеру сигнала о завершении участка.

2.5 Распознавание дорожных знаков и светофора Распознавание дорожных знаков и сигналов светофора реализовано с

использованием библиотек обработки изображений и сверточных нейронных сетей, содержащих три слоя с матрицей свертки размером 3x3. Для тренировки нейронных сетей используется открытая программная библиотека для машинного обучения TensorFlow. За сложные и объемные вычисления, связанные с распознаванием изображений, отвечают 256 графических ядра CUDA, встроенных в Jetson TX2. По сравнению с вычислениями на обычном процессоре, производительность увеличивается примерно в 60 раз, что и позволяет использовать нейронные сети на лету.

Первая нейронная сеть, отвечающая за распознавание дорожных знаков, была обучена на выборке более 8000 примеров, тестовая выборка составила 2000 изображений. Выборка составлялась путем выбора эталонных изображений и их незначительных искажений с помощью библиотек обработки изображений. При обучении было проведено 15 эпох. Точность классификации достигла 99.7%. Нейронная сеть классифицирует изображения знаков на 6 категорий: «проезд запрещён», «только прямо», «только направо», «только налево», «прямо или направо», «прямо или налево».

Вторая нейронная сеть, отвечающая за распознавание сигналов светофора, по структуре схожа с первой. Отличие заключается в размере выборки. Она составила 3000 примеров изображений светофоров, с тестовым сегментом размером в 1000 изображений. Точность классификации достигла 97.3%.

Тренировочный сет (выборка) – это последовательность данных, которыми оперирует нейронная сеть. Итерация – это своеобразный счетчик, который увеличивается каждый раз, когда нейронная сеть

Page 236: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

235

проходит один тренировочный сет. Другими словами, это общее количество тренировочных сетов пройденных нейронной сетью. Эпоха – при инициализации нейронной сети эта величина устанавливается в 0 и имеет потолок, задаваемый вручную. Чем больше эпоха, тем лучше натренирована сеть и соответственно, ее результат. Эпоха увеличивается каждый раз, когда мы проходим весь набор тренировочных сетов. Ошибка – это процентная величина, отражающая расхождение между ожидаемым и полученным ответами. Ошибка формируется каждую эпоху и должна идти на спад.

2.6 Детектирование стоп-линии Детектирование стоп-линии реализовано с помощью библиотеки

OpenCV. Скрипт программы определяет наличие белой линии на полученном изображении.

Процесс нахождения линии происходит по следующему алгоритму: 1. Получаем изображение с камеры. 2. Повышаем контраст изображения. 3. Избавляемся от шумов. 4. Находим контуры максимально белых объектов.

Для лучшей работы программы мы изменяем цветовое пространство с RGB на CIELAB. Благодаря функции CLAHE (Contrast Limited Adaptive Histogram Equalization) происходит повышение контрастности отдельных объектов изображения.

Чтобы избавиться от шумов, которые могут возникнуть из-за окружающих условий используется функция fastNlMeansDenoisingColored.

Рисунок 5 – Изображение после применения функции fastNlMeansDenoisingColored

Page 237: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

236

Обработав изображение и наложив на него фильтры, мы начинаем работать с контурами. Чтобы найти их используем функцию Canny и также аппроксимируем для большей точности. Белый цвет находим из определенного диапазона. После всех операции мы получаем картинку с контурами белой линии (Рисунок 6).

Рисунок 6 – Найденный контур белой линии.

3 Заключение

Об успешности выполнения поставленной задачи говорит победа на всероссийском робототехническом фестивале Robofest в 2018 году, в номинации AutoNet18+. Конечно же созданная система управления автономным мобильным роботом не совершенна. Она не охватывает в полной мере все варианты, которые могут возникать в процессе выполнения поставленной задачи, что оставляет простор для дальнейшего исследования и доработки системы. При этом, созданную систему управления можно считать отличным фундаментом для дальнейшей работы.

Список литературы

[Alanis King, 2016] The Fascination With Self-Driving Cars Started Nearly 100 Years Ago URL: https://jalopnik.com/the-fascination-with-self-driving-cars-started-nearly-1-1782241743

[Navlab, 1984] Navlab: The Carnegie Mellon University Navigation Laboratory URL : http://www.cs.cmu.edu/afs/cs/project/alv/www/index.html

[Richard Wallace and others ] First Results in Robot Road-Following URL:https://pdfs.semanticscholar.org/aed9/62d06b081820cb3481fafa5a59568fca4764.pdf

Page 238: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

237

[David Lowe's, 2004] "Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image", David Lowe's patent for the SIFT algorithm.

[Lowe, David G., 1999] "Object recognition from local scale-invariant features" (PDF). Proceedings of the International Conference on Computer Vision.

[Lowe, David G., 2004] "Distinctive Image Features from Scale-Invariant Keypoints". International Journal of Computer Vision. 60 (2): 91–110.

[Serre, T., Kouh, M., Cadieu, C., Knoblich, U., Kreiman, G., Poggio, T., 2005] “A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex”, Computer Science and Artificial Intelligence Laboratory Technical Report.

[Beis, J.; Lowe, David G., 1997] "Shape indexing using approximate nearest-neighbour search in high-dimensional spaces" (PDF). Conference on Computer Vision and Pattern Recognition, Puerto Rico.

[Martin A. Fischler and Robert C. Bolles, 1981] «Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography». Comm. Of the ACM 24: 381–395.

[David A. Forsyth and Jean Ponce, 2003] Computer Vision, a modern approach. — Prentice Hall.

[Richard Hartley and Andrew Zisserman, 2003] Multiple View Geometry in Computer Vision. — 2nd. — Cambridge University Press.

[Ondrej Chum, 2005] "Two-View Geometry Estimation by Random Sample and Consensus", PhD Thesis

[Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel, 1989] Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1(4):541-551.

SYSTEM OF MANAGEMENT OF AUTONOMIC UNBEANLESS ROBOTS IN THE LIMITATIONS OF

ROBOFEST COMPETITION

Soldatov A.V. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper describes the control system of an autonomous unmanned robot for participation in the All-Russian robotics robotics competition Robofest 2018, in the AutoNet18 + nomination.

Keywords: Robofest, unmanned robots, recognition

Page 239: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

238

УДК 004.9

СРАВНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ БИНАРНОЙ КЛАССИФИКАЦИИ

Сёмин С.А. ([email protected]) Ульяновский государственный технический

университет, Ульяновск

В данной статье описано сравнение техник машинного обучения, а именно градиентного бустинга и нейронных сетей, при предсказании результата исхода матча в игре жанра MOBA – League of Legends.

Ключевые слова: нейронная сеть, градиентный бустинг, точность модели

1 Введение

Было время, когда лучшим методом машинного обучения был random forest, но с тех пор появился более лучший метод, использующий композицию из деревьев решений – градиентный бустинг, который постепенно заменяет random forest в задачах машинного обучения. Тем же временем, вычислительные возможности растут, и метод нейронных сетей начинает становиться возможно использовать на реальных задачах.

Машинное обучение – это дисциплина, в такой же степени практическая, как и вычислительная [Флах П. 2015]. В некоторых случаях можно доказать, что конкретным алгоритм сходится к теоретически оптимальной модели при определенных предположениях, но все равно необходимы реальные данные, например, для того, чтобы исследовать, в какой мере эти предположения удовлетворяются в рассматриваемой предметной области или достаточно ли велика скорость сходимости, чтобы алгоритм имел практическую ценность. Поэтому мы запускаем конкретные модели или алгоритмы обучения на одном или нескольких наборах данных, выполняем измерения и используем их результаты для ответа на интересующие нас вопросы. Вся эта деятельность называется экспериментами в машинном обучении.

Нейронные сети – это граф из вершин и рёбер, которые трансформируют входные данный в результирующий вектор значений. Сети традиционно разделяют на слои, где каждая вершина в слое,

Page 240: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

239

соединена ребром с весом с каждой вершиной в смежных слоях. Каждая вершина или «нейрон» в нейронной сети математически представляется как сложение гиперплоскости в пространстве состояний входных данных.

Градиентный бустинг – это метод машинного обучения для решения задач регрессии и классификации, которая производит предсказательную модель в форме ансамбля слабых предсказательных моделей, чья точность немногим выше случайного угадывания.

League of Legends – это игра, многопользовательская онлайн стратегия в которой участвуют команды из пяти игроков против другой команды из пяти игроков, причем каждый игрок выбирает отдельного персонажа, из 140 возможных на данный момент. В настоящее время это одна из самых популярных онлайн игр в мире, по состоянию на 2017й год в неё раз в месяц играли не менее 81 миллион игроков [Lolsmurfaccounts, 2018].

Сравниваются две модели машинного обучения с учителем: модель градиентного бустинга и модель глубокой нейронные сети.

Поставленная задача бинарной классификации - на основе данных доступных до начала матча, определить какая из команд победит.

2 Сбор и анализ данных

Главным фактором для успешного обучения методов машинного обучения является достаточной количество данных, на которые будут разбиты на тренировочную и тестовые выборки. Программный интерфейс приложения League of Legends предоставляет доступ через протокол HTTPS к данным о миллионах матчей и игроков в формате JSON. HTTP – широко распространённый протокол передачи данных, изначально предназначенный для передачи гипертекстовых документов [Магику А. 2014]. Запросы к серверам Riot Games использует стандартный метод протокола прикладного уровня передачи гипертекста GET. При необходимости для передачи данных используются единый указатель ресурса, в параметрах которого и передаются именуемые данные необходимые для запроса.

Так как единый указатель ресурса представляет собой последовательность символом, в том числе букв, чисел и специальных символов. Единый указатель ресурса может быть представлен по-разному, ручкой на бумаге или последовательностью октетов в закодированном символьном наборе, таким образом, его интерпретация зависит только от идентичности использованных символов. Так как структура единого указателя ресурса

Кроме того, в программном интерфейсе приложения для обработки запросов необходимо пройти процедуру аутентификации, для получение данных запроса, которая проходит путём передачи определённого HTTP заголовка с ключом.

Page 241: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

240

Аутентификация – это процедура проверки легальности пользователя или данных, например, проверки соответствия введённого пользователем пароля к учётной записи паролю в базе данных, или проверка цифровой подписи письма по ключу шифрования, или проверка контрольной суммы файла на соответствие заявленной автором этого файла.

В связи с высокими нагрузками, сервера Riot Games, которые предоставляют доступ к программному интерфейсу, а также обрабатывают запросы на получение данных, расположены в разных регионах, как географически, так и логически. Сервера разных регионов содержат данные, только о том регионе, которому они принадлежат, поэтому игроки с одного сервера никак не смогут принять участие в матче с игроками другого сервера.

Обучение нейронной сети проводилось методом обратного распространения ошибок сущностью которого является аналитическое дифференцирование суперпозиции с сохранением необходимых промежуточных величин [Воронцов, К.В. 2007].

Сервер – программный компонент вычислительной системы, выполняющий сервисные функции по запросу клиента, предоставляя ему доступ к определённым ресурсам или услугам.

Для разделения серверов в программном интерфейсе приложения, используются разные под домены, таким образом у каждого сервера есть собственный базовый единый указатель ресурса, к которому добавляется группа, подгруппа и название метода запроса с данными, если они необходимы. Доменное имя – символьное имя, служащее для идентификации областей – единиц административной автономии в сети Интернет – в составе вышестоящей по иерархии такой области. Каждая из таких областей называется доменом. Общее пространство имён Интернета функционирует благодаря DNS – системе доменных имён. Доменные имена дают возможность адресации интернет-узлов и расположенных на них сетевых ресурсов в удобной для человека форме.

Для данного исследования были использованы полученные через программный интерфейс приложения, данные пяти тысяч матчей, которые были разбиты на десять тысяч наборов данных, по два из каждого матча. Данные матчей делись по двое для каждой команды. Было выделено по 12 характеристик на каждого игрока в команде, всего 60 характеристик для набора данных. Данные характеристики получены исходя из выбора персонажа для каждой роли, так же была взята статистика для связанная между игроком и персонажем.

В итоге были сформулированы следующие характеристики: Коэффициент побед чемпиона Частота выбора чемпиона Частота выбора пары чемпион-роль

Page 242: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

241

Коэффициент побед чемпиона в дуэли Последние 2 игры  – Количество побед игрока на данном

чемпионе за последние 2 игры.  Последние 15 игр. Количество игр, сыгранных за чемпиона. Количество рейтинговых игр, сыгранных за чемпиона. Мастерство чемпиона  – Количество очков мастерства игрока

для данного чемпиона. Уровень игрока. Ранг игрока. Количество игр, сыгранных на данной роли. Количество рейтинговых игр, сыгранных на данной роли.

В связи с тем, что персонажей в League of Legends достаточно много, то не для всех наборов данных можно было рассчитать все характеристики, либо данных было слишком мало, что бы они были статистически значимы. В связи с этим, было сформировано два блока данных, с разными подходами к решению проблемы пустых характеристик. В первом блоке было решено на место отсутствующих значений подставить усредненные, а во втором блоке данных – полностью убрать характеристики из наборов данных, которые не могли быть корректно рассчитаны.

Полученные блоки данных были случайно разделены на части в соотношении 80% для тренировки моделей и 20% тестовых.

3 Результаты

Для каждой модели были подобранны оптимальные гипер-параметры. При обучении модели градиентного бустинга была использована библиотека Xgboost, в то время как для обучения и создания модели глубокой искусственной нейронной сети был использован фреймворк Tensorflow. Модели обучались на четырёх ядерном процессоре i5-3550, и время обучения обоих моделей было одинаковым.

Архитектура многослойной искусственной нейронной сети состояла из двух слоёв нейронов – 80 нейронов на первом слое и 20 на втором. коэффициент скорости обучения – 0.001 Для обучения сети использовался алгоритм оптимизации Adam.

Adam - adaptive moment estimation, алгоритм оптимизации. Он сочетает в себе и идею накопления движения и идею более слабого обновления весов для типичных признаков [Садовников, П. 2017]. = + (1 − ) . (1)

Для обучения градиентного бустинга был использована логистическая регрессия для бинарной классификации, с выводом вероятности.

Page 243: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

242

Регрессионный анализ – это статистический метод прогноза по одному фактору, а множественная регрессия – по множеству факторов [Такахаси, С. 2014]. Логистическая регрессия – метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам [Hastie, T. 2009]. Максимальная глубина деревьев – 8, коэффициент скорости обучения – 0.01. ∑ ( ) + ℎ ( ) + Ω( ) . (2)

Таблица 1 – Точность моделей при усредненных характеристиках

Нейронные

сети Градиентный

бустинг Тренировочн

ый 61,56 65,73

Тестовый 56,17 61,15 Таблица 2 – Точность моделей при удаленных характеристиках

Нейронные

сети Градиентный

бустинг Тренировочн

ый 64,91 65,21

Тестовый 62,26 62,52

4 Заключение

Обе модели показали себя приблизительно одинаково. Стоит отметить тот факт, что нейронная сеть гораздо хуже справилась с усреднёнными характеристиками. Из-за временного ограничения на обучение, нейронная сеть не смогла достичь своего потенциала, на усредненных характеристиках, в то время как из-за основы алгоритма градиентного бустинга, он довольно устойчив к усредненным характеристикам.

Так же, на настройку гипер-парамтров модели нейронной сети было потрачено значительно больше времени, чем на градиентный бустинг. Более того, библиотека Xgboost имеет много дополнительного функционала, такого как оценка влияние характеристики.

Список литературы

[Lolsmurfaccounts, 2018] How Many People Play League of Legends in 2018 [Электронный ресурс]. – Режим доступа: https://lolsmurfaccounts.com/how-many-people-play-league-of-legends/ (дата обращения: 11.03.2018)

Page 244: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

243

[Садовников, П. 2017] Методы оптимизации нейронных сетей [Электронный ресурс]. – Режим доступа: https://habrahabr.ru/post/318970/ (дата обращения: 11.03.2018)

[Магику А. 2014] Простым языком об HTTP [Электронный ресурс]. – Режим доступа: https://habr.com/post/215117/ (дата обращения: 31.05.2018)

[Флах, П. 2015] Машинное обучение / Флах П. Москва – ДМК Пресс, 2015

[Воронцов, К.В. 2007] Лекции по искусственным нейронным сетям [Электронный ресурс]. – Режим доступа: http://www.ccas.ru/voron/download/NeuralNets.pdf (дата обращения: 31.05.2018)

[Такахаси, С. 2014] Регрессионный анализ / Такахаси С. Москва – ДМК Пресс 2014

[Hastie, T. 2009] The Elements of Statistical Learning / Hastie, T., Tibshirani, R., Friedman, J. Springer - 2009

COMPARSION OF MACHINE LEARNING METHODS IN BINARY CLASSIFCATION

Semin S.A. ([email protected]) Ulyanovsk State Technical University, Ulyanovsk

The paper represents comparison of machine learning methods, specifically gradient boosting and neural networks when predicting the outcome of the match in the game of genre MOBA – League of Legends

Keywords: neural network, gradient boosting, model accuracy

Page 245: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

244

АВТОРСКИЙ УКАЗАТЕЛЬ

Афанасьева Т.В., 51, 142 Бужерак Ю.Э., 23 Булатова В.Ф., 87 Воронина В.В., 79, 149 Габитова А.Р., 17 Горбачев И.В., 23 Горбунова Д. Г., 167 Григоричева М.С., 184 Демкина Н. А., 167 Долгановская А.Ю., 101 Жуков Д.А., 95 Золотова К.П., 79 Иванова А.В., 9 Ишмуратова Г.Р., 132 Камалетдинова Л.Р., 110 Клячкин В.Н., 29, 95 Костина С. Н., 167 Краус Д.Г., 23 Крашенинников В.Р., 123 Ку Д.Т., 174 Кувайскова Ю.Е., 17, 36 Куркина С.В., 218

Лукьянова А.А., 218 Максимов Д.А., 142, 218 Микина К.С., 202 Михайлова Е.С., 161 Нгуен Н.К., 174 Нуриев Н.К., 174 Полбин А.Е., 61 Рахманова Э.И., 192 Романов А.А., 110 Савенкова Е.А., 149 Свиязова О.А., 212 Сёмин С.А., 238 Солдатов А.В., 228 Субботин А.Ю., 123 Тронин В.Г., 202 Федорова К.А., 36 Филиппов А.А., 184, 192 Фронина М.М., 69 Шеянова И.Н., 42 Ширкунова К.С., 29 Юхно И.В., 51 Ярушкина Н.Г., 101, 132

Page 246: МИНИСТЕРСТВО - ulstu.ruvenec.ulstu.ru/lib/disk/2017/495.pdf · 2019. 5. 20. · Polbin A.E. Research and development of automation system of creation and analysis of reports

Научное электронное издание

Нечеткие системы и мягкие вычисления. Промышленные применения

Сборник научных трудов V Всероссийской научно-практической мультиконференции

с международным участием «Прикладные информационные системы (ПИС-2018)»

(Россия, г. Ульяновск 28 мая – 10 июня, 2018 г.)

Ответственный за выпуск Е.Н. Эгов

ЛР 020640 от 22.10.97.

Дата подписания к использованию 20.05.2019. ЭИ 1274. Объем данных 7 Мб. Заказ 566.

Ульяновский государственный технический университет

432027, г. Ульяновск, ул. Северный Венец, д. 32. ИПК «Венец» УлГТУ, 432027, г. Ульяновск, ул. Северный Венец, д. 32.

Тел.: (8422) 778-113

E-mail: [email protected] venec.ulstu.ru