案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统...

43
案例介绍

Transcript of 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统...

Page 1: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案 例 介 绍

Page 2: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

目 录

案例1 ——同济大学新生身份核查系统

案例2 ——同济大学出勤率实时统计

案例3 ——同济大学上课表情分析

案例4 ——同济大学校园微博情绪指数分析

案例5 ——同济大学信用校园

案例6 ——同济大学学生心理健康分析

案例7 ——同济大学学生学业成绩分析

Page 3: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例1:同济大学新生身份核查系统

VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

度卷积神经网络,ResNet是2015年微软提出的模型,使用了50层残差网络,本项目是ResNet首次应用于

人脸识别领域。

模型 训练集 优化变量 硬件支持 训练时间

VGG16&ResNet 800w

(非同济数据)超过1亿 8块GPU 2周

该系统所使用的模型规模

人脸采集•数据库中的身

份证照片•高考采集照片•入学采集照片

人脸检测•框出照片中

的人脸

人脸对齐•将人脸转正

特征提取•将照片输入两个深度学习模型,分别提取特征

特征结合•两特征平均•两特征融合

相似度评价•余弦相似度•支持向量机

人脸验证•高于阈值同一人

•低于阈值不同人

Page 4: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

同一个人但不像

眼镜

发型

光线

不同人的但很像

案例1:同济大学新生身份核查系统

Page 5: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例2:同济大学出勤率实时统计

Page 6: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例2:同济大学出勤率实时统计

Page 7: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例2:同济大学出勤率实时统计

自修自修人数

Page 8: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

研究背景与研究内容

智慧化是教育发展的必然趋势

智慧教室的研究主要关注于教室内软

硬件设施、空间布局、网络资源获取

基于教学过程情境理解的教学考核研

究不足

教室内智慧化程度低

以教学视频为数据源

以深度学习为技术

以课堂上师生表情为研究对象

理解课堂上教师情感的积极程度及

变化情况、课堂气氛活跃度及变化

情况

数据源教学视频

师生人脸检测

人脸表情识别

理解教学情境

建立直观展示师生表情的网络应用—智慧教室表情空间

案例3:同济大学上课表情分析

Page 9: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

模型:多任务级联神经网络输入:RGB彩色图片

输出:人脸边界框、五个特征点

案例3:同济大学上课表情分析

人脸检测场景与原理

Page 10: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

教室真实场景测试:对教师的检测,平均真阳性率93.49%

对学生的人脸检测真阳性率最终稳定在96.5%附近

FDDB标准数据集测试: 连续ROC曲线真阳性率稳定到0.712

离散ROC曲线真阳性率稳定到0.875

案例3:同济大学上课表情分析

人脸检测性能测试

Page 11: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例3:同济大学上课表情分析

表情分析理解教学情境一——同一堂课四个时段

Page 12: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

评分视频教师情感积极程度(0-5)

教师积极情感变化情况(-1,0,1)

课堂气氛活跃程度(0-5)

课堂气氛变化情况(-1,0,1)

0-10分钟 2.67 0.17 2.42 0.17

10-20分钟 2.83 -0.05 2.00 -0.22

20-30分钟 2.28 0.18 1.42 0

30-40分钟 3.67 0.67 2.55 0.35

案例3:同济大学上课表情分析

表情分析理解教学情境一——同一堂课四个时段

Page 13: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例3:同济大学上课表情分析

表情分析理解教学情境二——四堂不同的课

Page 14: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

评分视频教师情感积极程度(0-5)

教师积极情感变化情况(-1,0,1)

课堂气氛活跃程度(0-5)

课堂气氛变化情况(-1,0,1)

教师1-课堂1 2.78 0.28 0.28 0.22

教师2-课堂2 3.33 0.68 2.08 0.33

教师3-课堂3 2.75 0.57 1.92 -0.15

教师4-课堂4 1.67 0.22 1.83 0.37

案例3:同济大学上课表情分析

表情分析理解教学情境二——四堂不同的课

Page 15: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例4:同济大学校园微博情绪指数分析

Page 16: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

案例5:同济大学信用校园

区块链网络

(1)实时记录和同步学生信用和公益行为“账本”

(2)“账本”转化成同济内部数字积分

Page 17: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

学信分中国第一个高校学生信用评分方法和应用

同心荐

同心荐基于信用的学生-科创企业

实习、兼职平台

同心借基于信用的校园生活服务

平台

国内第一个基于区块链的校园信用、公益积分采集、奖

罚、消费平台

案例5:同济大学信用校园

Page 18: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

《A trial of student self-sponsored P2P lending

based on credit evaluation using big data analysis》

案例5:同济大学信用校园

Page 19: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

通过对学生在校行为数据的挖掘,创新性地将图书馆借阅违约行为作为信用评价的指标,以此采用逻辑回归算法与梯度提升决策树建立高校学生信用评估模型,并对两种模型的表现进行比较。最后,将所得信用评估模型应用于校内P2P平

台风险控制,取得了较好效果。

研究目的:大学生信用评估方法

传统的银行业信用评估方式需要采集客户的收入信息、婚姻情况、不动产、负债等金融信息,但大学生作为一类特殊的成年群体,无法使用传统征信方法对其进行信用评估。因此,我们希望利用学生在校园内产生的行为数据,尝试建立一套有效的学生信用评估模型。

内容:

• 数据预处理及特征提取

• 特征筛选与数据集划分

• 建模:逻辑回归(LR)模型、梯度提升决策树(GBDT)模型

• 模型表现对比分析

• 实验性P2P运营及结果

原始数据

特征变量

LR模型 GBDT模型

预测结果对比

信用评分

P2P平台

真实结果分析

案例5:同济大学信用校园

Page 20: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

• 信用指标

由于缺乏大学生真正意义的金融违约行为记录,我们以大学生在图书馆借书违约情况为指标,来分析学生的信用情况,建立信用评估模型;然后通过真实的P2P借款实验,验证模型的有效性。

在银行业中,往往认为违约概率排在前5%的客户是“坏客户”,应拒绝他们的借款申请。因此,我们选取借书违约次数排在前5%的学生,标记为“坏客户”,其余95%的学生为“好客户”,进而构造训练集和测试集。

• 特征提取

提取了29个初始特征,分别是:年龄、性别、民族、政治背景、课程数(上过的),总成绩、绩点、优秀次数、优秀率、挂科次数、挂科率、访问图书馆次数、工作日访问图书馆次数、周末访问图书馆次数、借书次数、借书数量、平均逾期时长、续借次数、续借率、图书馆禁用次数、一卡通刷卡次数、平均消费金额、消费总金额、工作日消费总金额、周末消费次数、充值次数、平均充值金额

案例5:同济大学信用校园

Page 21: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

• 所需数据

基本信息(性别、年龄、政治背景、民族),教务信息(课程数、考试成绩、挂科情况等),图书馆使用情况(访问图书馆次数、时间、借书次数、借书数量、逾期情况、续借情况、禁用情况),一卡通使用数据(交易次数、消费金额、充值数据等)

• 数据预处理

缺失值/异常值:均值插补法、简单删除法

• Label(坏客户)的定义

由于学生无金融/财务信息,无法使用常规方法对学生进行信用评估,本文采用图书馆借阅违约次数作为衡量学生信用的指标,取有违约记录的学生中,违约次数前5%的学生标记为坏客户(label=1),其他为好客户(包括无违约记录的学生)

• 特征筛选

1. 利用Pearson相关性分析进行变量筛选(选出了13个变量)

2. 利用逐步回归法进行第二轮筛选(选出了8个变量)

• 划分数据集

经过预处理,我们得到29741名学生的数据,其中487个“坏”客户,29254个“好”客户。随机抽取288个“坏”客户与17550个“好”客户划分到训练集,240个“坏”客户和14625个“好”客户划分到测试集。

为了避免由数据集过分歪斜导致的过拟合,训练集中每次随机抽取200个“坏”客户与3800个“好”客户,迭代抽取20次,得到20组训练数据。同样的方法应用于测试集。

图书馆消费行为

生活习惯

基本信息

29个

违约次数Min

Max5%

487 bad29254 good

28817550 good 24014625 good

2003800200380020× 20×

案例5:同济大学信用校园

Page 22: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

P2P实验验证

• 规则

只允许在校生注册及申请借款;信用评分≥60分可放款。

• 实验设计

为了设置实验组与对照组,信用评分小于60分的借款申请也被通过。

• 实验结果

自2016/2/26 至2016/12/30,共借出258笔,收回258笔,

其中13人逾期(6人信用评分小于60分)

若采用信用评估模型进行风险控制,违约率可从3.5%下降为1.2%。

• 结论

通过挖掘学生行为数据来构建学生信用评估模型的方法可行性较高,本文利用的两个算法均取得了不错的表现,其输出结果“信用评分”对于风险控制、降低违约率表现出显著的有效性。

借款日免息期

电话催还日违约金1%

30天 3天

还款日

020406080

100120140

>90 (80,90] (70,80] [60,70] <60

各评分段客户违约情况

number of loaners number of default

案例5:同济大学信用校园

Page 23: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

• 混淆矩阵

• 五折交叉验证表

observationsum TPR TNR

percetage correct(%)

error(%)good bad

LR predicted

good 3505 47 3552 0.77 0.92 91.47 8.53

bad 295 153 448

sum 3800 200 4000

GBDT predicted

good 3525 33 3557 0.84 0.93 92.29 7.71

bad 276 167 443

sum 3800 200 4000

Group 总人数 坏客户数 好客户数 坏客户占比 好客户占比

1 200 159 41 79.50% 1.08%

2 200 11 189 85.00% 6.05%

3 200 10 190 90.00% 11.05%

4 200 5 195 92.50% 16.18%

5 200 7 193 96.00% 21.26%

6 200 3 197 97.50% 26.45%

7 200 3 197 99.00% 31.63%

8 200 1 199 99.50% 36.87%

9 200 0 200 99.50% 42.13%

10 200 1 199 100.00% 47.37%

Group 总人数 坏客户数 好客户数 坏客户占比 好客户占比

1 200 154 46 77.00% 1.21%

2 200 13 187 83.50% 6.13%

3 200 10 190 88.50% 11.13%

4 200 5 195 91.00% 16.26%

5 200 7 193 94.50% 21.34%

6 200 3 197 96.00% 26.53%

7 200 5 195 98.50% 31.66%

8 200 1 199 99.00% 36.89%

9 200 1 199 99.50% 42.13%

10 200 1 199 100.00% 47.37%

模型结果

GBDT modelLR model

案例5:同济大学信用校园

Page 24: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

• ROC曲线

• AUC

AUC(LR)=0.909; AUC(GBDT)=0.915

• 结论

两个模型的预测精度都很高,但GBDT模型对“坏客户”的识别能力比LR模型强。

0

0.2

0.4

0.6

0.8

1

1.2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5

GBDT

LR

案例5:同济大学信用校园

Page 25: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

基于校园数据的大学生心理健康分析

二审JOURNAL OF MEDICAL INTERNET RESEARCH (JCR 1区,IF 5.735)

案例6:同济大学学生心理健康分析

Page 26: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

75.78

16.65

5.71

1.86

54.66

22.11

17.76

5.47

78.26

15.65

4.97

1.12

0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00

轻度

中度

重度

问卷统计

BECK抑郁问卷 SDS抑郁问卷

0

10

20

30

40

50

60

70

80

90

无 轻度 中度 重度

不同性别问卷结论

SDS抑郁问卷-男 SDS抑郁问卷-女

0 100 200 300 400 500 600

未知

性别分布

收集问卷897份

三份问卷均显示女同学心理健康状态比男生差

案例6:同济大学学生心理健康分析

Page 27: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

静态信息 生活作息 饮食消费社会交往学习成绩

性别

年级

出生日期 基于一卡通的社交关系

打水

一日三餐

起居

奖学金

成绩分布

民族

消费额

消费变动

图书借阅

学期借阅数

总借阅数

图书馆访问次数

图书借阅类型分布

校内处罚

案例6:同济大学学生心理健康分析

Page 28: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

因子分析

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。

F1(认知因子)

F2(情绪因子1)

F3(躯体因子)

F4(情绪因子2)

将20个题目归结为4个主要因子,通过探求哪些因子与哪些变量最为相关找到抑郁可预测的证据

案例6:同济大学学生心理健康分析

Page 29: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

0-1 Oa 7-8 O 8-9 O 9-10 O 23-0 O 6-7 Rb 7-8 R 8-9 R 23-0 R

F1(认知因子) -.109* -.125**

F2(情绪因子1) .128** -.162** .188** .129**

F3(躯体因子) .102* .092* .096*

F4(情绪因子2) -.119** -.165** -.162** .098* -.172** -.179** -.201** .128**

SDS总分 -.111* -.105* -.170** .134** -.096*

**. 显著性0.001级别(2-tailed).

*. Correlation is significant at the 0.05 level (2-tailed).aO: go out of the dormitorybR: return to the dormitory

在4个因素中,F4最能体现在日常作息中(题目:我觉得一天之中早晨最好),原因可能是抑郁症患者的昼夜节律混乱导致。情绪低落(F2)或躯体(F3)抑郁症状的学生可能导致夜间活动增加,而早晨活动减少可能由认知(F1)和抑郁情绪(F2,F4)症状引起。

案例6:同济大学学生心理健康分析

作息习惯

Page 30: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

吃早餐比例 早餐时间方差 吃早餐时间 午餐比例 早餐次数 午餐次数 晚餐次数

F1(认知因子)

F2(情绪因子1) .166**

F3(躯体因子) .115*

F4(情绪因子2) -.276** .153** .161** -.126** -.275** -.151** -.135**

SDS总分 .129** -.100*

F4与用餐习惯特征相关较高,早晨抑郁(Morning Depression)可导致不良的用餐习惯,例如不吃早餐和吃早餐时间不固定。

案例6:同济大学学生心理健康分析

就餐习惯

Page 31: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

优秀率 挂科率 优秀课程数 良好课程数 挂科门数

F1(认知因子) -.158* .185** -.137* .157* .186**

F2(情绪因子1) .150* .155*

F3(躯体因子)

F4(情绪因子2) .140*

SDS总分 .195** .201**

相比于其他因子,F1认知因子对成绩影响最大,尤其对两个极端,即挂科和优秀。抑郁认知得分高时更容易挂科或得到一般的成绩,不容易获得优秀。情绪因子F2分值也发现与挂科率和挂科门数存在显著正相关,然而,SDS总分仅发现与挂科率和挂科门数存在显著相关性。该表表明抑郁更容易让学生挂科,但是即使总分达不到抑郁分值的阈值,抑郁认知因子F1和情绪因子F2,F4得分偏高也会对成绩造成不良影响。

案例6:同济大学学生心理健康分析

学业成绩

Page 32: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

抑郁心理与社交行为之间有强烈的相关性[1,2]

[1] Bruce ML, Hoff RA (1994) Social and physical health risk factors for firstonset major depressive disorder in a community sample. Soc Psychiatry Psychiatr Epidemiol 29(4): 165–

171. doi.org/10.1007/BF00802013

[2] Cornford CS, Hill A, Reilly J (2007) How patients with depressive symptoms view their condition: a qualitative study. Fam Pract 24(4): 358–364. doi.org/10.1093/fampra/cmm032

t1 t2 t3 t4 t5 … tn

P1 P2 P3 … PnPn-1

𝑅𝑖𝑗 =

𝑚=1

𝑀

𝑛=1

𝑁

1 𝑆𝑖𝑚 − 𝑆𝑗𝑛 < 𝑇 , 𝑖 ≠ 𝑗

在固定时间阈值内一起刷卡被认为是一次社交行为,通过统计一学期内每个学生与其第一至第五一同刷卡朋友的社交次数,并进行t检验得出抑郁与非抑郁学生在社交行为上的差异

𝑖, 𝑗为任意两个学生, 𝑆𝑖𝑚为𝑖学生第𝑚次刷卡的时间, 𝑇为时间阈值,本研究取250秒

案例6:同济大学学生心理健康分析

Page 33: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

social top1 social top2 social top3 social top4social top5

F1(认知因子)-.096* -.102* -.101* -.091*

F2(情绪因子1)

F3(躯体因子)-.094* -.096* -.093*

F4(情绪因子2)

SDS总分 -.166** -.156** -.164** -.171** -.166**

该表显示社交活动与抑郁之间存在负相关,抑郁症较严重的学生更不愿意与固定的朋友一起吃饭。

案例6:同济大学学生心理健康分析

社交习惯

Page 34: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

预测流程

原始

数据

特征

计算

集成脱敏清洗

标准化去噪

151维特征

轻度、中度和重度学生归为一类,无抑郁学生归为一类

删除不相关、低方差、空值多的特征增加运行速度,提升分类效果

特征

选择

129维特征

90% 训练(训练集419样本,十折交叉验证)10% 测试(47样本)

删除抑郁分值十分矛盾和填写时间过短的问卷

结果

合并

问卷

清理

问卷

清理Classifier

(朴素贝叶斯、神经网络、Xgboost…)

预测输出(灵敏度、召回率、f1、

NPV、特异度)

案例6:同济大学学生心理健康分析

Page 35: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

在SDS抑郁问卷上的结论

Sensitivity Recall f1 NPV Specificity

全科医生 [1] 0.42 0.51 0.46 0.86 0.81

Twitter [2] 0.742 0.629

Instagram [3] 0.60 0.70 0.65 0.579 0.478

MLP 0.54(0.15) 0.50(0.19) 0.50(0.15) 0.85(0.06) 0.86(0.06)

Naive Bayes 0.51(0.16) 0.64(0.13) 0.56(0.13) 0.86(0.03) 0.8(0.1)

XGBoost 0.57(0.11) 0.74(0.13) 0.65(0.11) 0.83(0.07) 0.83(0.069)

PCA+MLP 0.67(0.12) 0.66(0.11) 0.65(0.07) 0.9(0.03) 0.89(0.05)

[1] Mitchell AJ. Clinical diagnosis of depression in primary care: a meta-analysis. Lancet. 2009;374(9704):1817. PMID: 19640579

[2] Gamon M, Choudhury MD, Counts S, Horvitz E, editors. Predicting Depression via Social Media. AAAI; 2013.

[3] Reece AG, Danforth CM. Instagram photos reveal predictive markers of depression. Epj Data Science. 2016;6(1):15. DOI: 10.1140/epjds/s13688-017-0110-z

案例6:同济大学学生心理健康分析--实验表明PCA+MLP 获得了最好的预测效果,可获得:0.67的平均灵敏度(算法输出的潜在抑郁对象中有67%是真的抑郁)0.66的平均召回率(算法可找出66%真实抑郁学生)0.9的平均NPV (算法输出的潜在不抑郁对象中有90%是真的不抑郁) 0.89的平均特异度(算法可找出89%真实不抑郁学生)算法效果超越了全科医生的诊断(由文献 [1] 可知全科医生对抑郁的识别较差,但对不抑郁识别较好)

Page 36: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

基于校园数据的学生学业成绩分析

已投Computers & Education (JCR 1区,IF 5.568)

案例7:同济大学学生学业成绩分析

Page 37: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

学业预警是指学校针对学生在求学过程中出现的学业不佳、违规违纪等现象,对学生本人及家长作出及时提示,并采取

相关措施以帮助学生顺利完成学业的一种监督管理制度。

收集学生学习行为记录

集成学生学习的相关数据

对集成的数据进行分析和预

对数据分析和预测的结果进

行解释

教学决策和干预

教育大数据成绩分析的两个基础问题:

• 是否教育大数据可以用来预测成绩?

基于统计学的分析

• 现有数据能够代表多少成绩?各类数据分别能代表多少比例的成绩?

基于线性逐步回归的方法

案例7:同济大学学生学业成绩分析

• 为了消除不同校区、不同学院带来的差异,并最大限度限制其他未纳入分析的行为变量,最终选择了某学院15届394名本科生作为研究对象。这394名学生在大二下学期均在同一校区学习,在相同的两个食堂就餐,均为住校生且住宿条件相同,活动范围大致相同。另外,该校区是远离市中心的相对偏远校区,学生绝大部分时间在学校里,排除存在大部分的异常行为可能性。选择同一学期的原因是学生的课程大致相同,具有相似的难度和门数,避免了不同学期带来的总学分过大差异。

研究对象:

Page 38: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Breakfast_num_wkd Breakfast_num_wknd Breakfast_num Lunch_num_wkd Lunch_num_wknd Lunch_num Dinner_num_wkd Dinner_num_wknd Dinner_num

one semester last month

可以从图中看出学业成绩与三餐就餐次数均成正相关,表明成绩越好,越倾向于在食堂就餐,特别是午餐,总的午餐次数与GPA达到了0.324的相关性(p<0.001)。大量的文献表明了早餐与学业成绩的正相关性,但从数据中得出午餐与晚餐同样对GPA有促进作用。

三餐就餐次数与GPA之间的相关性特征

案例7:同济大学学生学业成绩分析

Page 39: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

在图书馆访问和图书借阅偏好方面,我们发现学期内图书馆访问与学业成绩具有较为明显的正相关性(r=0.386,p<0.001),与学期

内借书本数呈正相关(r=0.270,p<0.001),与入学以来的4个学期借书本数呈正相关(r=0.355,p<0.001)。在借阅偏好方面,未发现

负相关情况,所有关系均为正相关,相关性系数如下:

图书馆访问与GPA之间的相关性特征

案例7:同济大学学生学业成绩分析

研究对象借阅的科技图书主要为专业课相关图书,表明专业课书籍借阅越多,成绩越好。

Page 40: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

日常作息与GPA之间的相关性特征

-0.2

-0.1

0

0.1

0.2

0.3

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Activity wkd Activity nwkd Total activity

横轴为时刻,纵轴为此小时内刷卡次数与GPA的相关性,wkd为工作日,nwkd为节假日。Activity定义为给定小时内出门和进门次数的总和,Total activity 为给定小时内工作日和节假日进门和出门次数总和。

• 从图中可以看出上午活动与

GPA程正相关,下午宿舍活动

与GPA程负相关,夜晚活动

(如夜里12点至凌晨6点间)

与GPA成负相关。(1与2处反

常需进一步研究)-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

In_wkd Out_wkd In_nwkd Out_nwkd

21

案例7:同济大学学生学业成绩分析

• 以上分析表明,教育大数据-日

常作息数据,一卡通消费数

据,图书馆访问及阅读偏好及

个人基本信息与GPA存在统计

学上的相关性,因此可以用于

成绩预测。

Page 41: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

基于线性逐步回归的成绩分析

本研究使用的逐步线性回归在增加了一个自变量后,会对模型中所有的变量进行考察,看看有没有可能剔除某个

自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。按此

方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致𝑆𝑆𝐸(残差)显著减少(这个

过程可通过𝐹统计量来检验)。

模型建立过程如下:

基本信息模块

变量1

计算统计量

是否保留

变量𝑛1

计算统计量

是否保留

拟合效果计算

就餐习惯模块

变量1

计算统计量

是否保留

变量𝑛2

计算统计量

是否保留

拟合效果计算

作息习惯模块

变量1

计算统计量

是否保留

变量𝑛3

计算统计量

是否保留

拟合效果计算

图书馆访问模块

变量1

计算统计量

是否保留

变量𝑛4

计算统计量

是否保留

拟合效果计算

Step1 Step2 Step3 Step4

最终模型

案例7:同济大学学生学业成绩分析

Page 42: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

Block 1 basic

information

Block 2 meal

habit

Block 3 daily

schedule

Block 4 library entrance

and reading habit

Independent variables β β β β

Male -0.117** -0.12** -0.058 -0.063

Nationality=han 0.126* 0.109* 0.097* 0.094*

Nationality=uygur -0.139** -0.122* -0.104* -0.107*

Nationality=tujia -0.112* -0.093* -0.067 -0.068

Nationality=others -0.087* -0.084* -0.073 -0.069

Major_id=10001 -0.319*** -0.297*** -0.237*** -0.225***

Major_id=10034 -0.091* -0.085* -0.086* -0.083*

Major_id=10044 -0.167*** -0.171*** -0.125*** -0.113**

Major_id=10064 -0.127** -0.128** -0.078* -0.076*

Province of origin =Xinjiang -0.162** -0.144** -0.151** -0.142**

Province of origin =Beijing 0.088* 0.088* 0.082** 0.084*

Province of origin =Shandong 0.093* 0.09* 0.091* 0.095**

Province of origin =Guangdong 0.09* 0.053 0.087* 0.091*

Province of origin =Jiangsu -0.095* -0.093* -0.059 -0.056

Province of origin =Gansu -0.12** -0.108** -0.102** -0.101**

Poverty_lst -0.007 -0.046 -0.063 -0.08*

Dinner_mean_nwkd

0.089* 0.063 0.066

Lunch_median_wkd

0.111* 0.07 0.062

Lunch_num_4

0.278*** 0.212*** 0.203***

Card_door_total_count

0.186** 0.153*

Activity_15_in_wkd

-0.112* -0.115*

Activity_10_in_nwkd

0.094* 0.1*

Activity_16_in_nwkd

-0.101** -0.103*

Activity_5_out_nwkd

-0.098* -0.086*

Activity_21_out_nwkd

0.102* 0.097*

Activity_7_wkd

0.139** 0.128**

Activity_15_nwkd

-0.121** -0.115**

Activity_L_21_in_wkd

-0.116** -0.104*

Activity_ L _8_out_nwkd

-0.149*** -0.134**

Activity_ L _23_out_nwkd

0.101*** 0.091*

Activity_ L _19_wkd

-0.086* -0.087**

Technology

0.13***

Adjusted R2 0.304 0.402 0.507 0.522

R2 change 0.334*** 0.100*** 0.116*** 0.015***

Note. β=Beta, the standardized regression coefficient.

*p < 0.05, **p < 0.01, ***p < 0.001

校园数据可用于表达学生成绩的52.2%,其中

基本信息33.4%,食堂消费9.8%,日常作息10.5%,图书馆访问和阅读偏好1.5%。表明研究对象一半的学业成绩可由非课堂因素决定。

接上表

案例7:同济大学学生学业成绩分析

模型结果分析

Page 43: 案例介绍 - kxzy.sh.edu.cn · 案例1:同济大学新生身份核查系统 VGG16和ResNet都是国际领先的前沿深度学习模型,VGG16是2014年Google提出的模型,使用了16层深

谢 谢 !