܄

分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大

【数据猿导读】 让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救

分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大

1、实验流程

让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救 ?

2、数据准备

原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号

Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)

Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower

Sex:乘客的性别,“1”表示男,“0”表示女

Age:乘客的年龄

sibsp:乘客在船上的配偶数量或兄弟姐妹数量

parch:乘客在船上的父母或子女数量

fare:乘客的船费

cabin:是否住在独立的房间,“1”表示是,“0”为否

embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远

3、搭建实验流程

实验流程

1) 首先将数据集按照 7 : 3 进行拆分,一部分作为 titanic 训练集,一部分作为预测集。

2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。

3) 训练数据通过逻辑回归 LR 算法生成模型。

4) 对预测集进行预测。

5) 通过 ROC 曲线和混淆矩阵来对结果进行评估。

4、评估结果

混淆矩阵结果

混淆矩阵结果分析

说明:

1. 正确率:预测正确的正例个数占预测为正例的比例,即 P=TP/(TP+FP);

2. 召回率: 预测正确的正例个数占实际正例的比例,即 R=TP/(TP+FN);

3. F1 指标: P 和 R 的中权调和平均,即 F1=2PR/(P+R) 。当 F1 较高时说明实验方法比较理想;

ROC 曲线评估结果

ROC 曲线结果分析

说明:

1. TPR=TP/(TP+FN);

2. FPR=FP/(FP+TN);

3. ROC 曲线:

① Y 轴: TPR; X 轴: FPR ;

② (0,1):FRP=0,TPR=1 。 FN=0,FP=0 ,将所有样本都正确分类;

③ (1,0): 即: FPR=1,TPR=0, 预测结果相反,正变负,负变正;

④ (0,0):FRP=TPR=0 ,将所有样本划分为负样本;

⑤ (1,1): 所有样本划分为正样本;

⑥ ROC 曲线越接近左上角,该分类器越好;

4. y=x ,随机猜测,一半正样本,一半负样本;

5. AUC:ROC 曲线下面积,应该介于 0.5~1 之间。 AUC 越大,分类器越好;

5、模型分析

逻辑回归生成模型:

模型分析

根据 Logical regression 的特性, model 输出的是每个特征的线性组合。 3.199 为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出 age 、 sex 和 pclass 对于结果影响最大。

根据 sigmoid 函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论, age 、 pclass 和 sex 的值越小,目标值越大。

也就是有钱人家的女人和小孩有更大的获救概率。

通过真实数据比对也印证了我们的分析结果:


来源:大数据文摘

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

相关精彩内容推荐

我要评论

精品栏目

[2016/10/10]

大数据24小时

More>

[2016/09/26-7]

大数据周周看

More>

[2016/09/01-30]

大数据投融资

More>

[2016/11/04-11]

大咖周语录

More>

[2016/10/31-7]

大数据周聘汇

More>

[2016/11/01-6]

每周一本书

More>