数据事实:乳腺癌诊断趋势和特征重要性的综合分析
Vivian
2024年6月28日
这个 数据集 捕捉了乳腺癌诊断的趋势和动态,包括恶性和 良性病例 的分布的详细信息,特征分析,数据可视化,以及预测建模。
通过 Powerdrill 对此乳腺癌数据的分析,我们来看看诊断和特征重要性在预测乳腺癌结果中的关键见解和趋势。
鉴于数据集,Powerdrill 检测和分析元数据,然后给出这些相关查询:
1. 总体分布
乳腺癌数据集中恶性(diagnosis=1)和良性(diagnosis=0)病例的数量是多少?
每个特征的均值、中位数、标准差、最小值、最大值和四分位数是多少?
每个特征的分布在恶性和良性病例之间有什么不同?它们的均值和标准差有显著差异吗?
2. 特征分析
哪些特征在恶性和良性病例之间显示出显著差异?使用 t 检验或非参数检验进行比较。
每个特征与诊断结果(诊断)之间的相关性是什么?计算皮尔逊或斯皮尔曼相关系数。
哪些特征在预测诊断结果中最重要?使用线性回归或逻辑回归模型评估特征重要性。
3. 数据可视化
绘制每个特征的直方图或密度图以展示恶性和良性病例的分布。
使用箱线图展示每个特征的值分布,并比较恶性和良性病例之间的差异。
创建散点对图以可视化不同特征之间的关系和分布模式。
使用热图展示特征之间的相关性矩阵。
4. 降维
执行主成分分析 (PCA) 并可视化前两个主成分。评估它们是否有效地区分恶性和良性病例。
计算每个主成分的解释方差比,以确定需要多少个主成分来解释大部分方差。
使用非线性降维技术,如 t-SNE 或 UMAP,进一步探索数据的结构和分布。
5. 预测建模
使用逻辑回归模型预测诊断结果,并评估它们的准确性、精确性、召回率和 F1-score。
尝试使用决策树模型进行诊断预测,并将它们的性能与逻辑回归进行比较。
使用集成模型,如随机森林或梯度提升树,并将它们的性能与单个模型进行比较。
使用交叉验证评估每个模型的泛化能力,以选择最佳模型。
6. 特征选择
使用随机森林特征重要性来确定哪些特征对诊断结果最重要。
使用递归特征消除 (RFE) 选择最佳特征子集。
使用 L1 正则化(Lasso)进行特征选择,并评估所选特征的有效性。
7. 异常值分析
使用箱线图或 IQR 方法识别每个特征中的异常值。
分析异常值对整体分布和模型性能的影响。考虑是否删除或调整这些异常值。
使用聚类方法(如 K-means 或 DBSCAN)识别数据中的潜在异常值。
8. 分组分析
按不同特征(例如 mean_radius、mean_texture)分组,并分析这些特征在不同组中的均值和标准差。
使用分组箱线图或小提琴图比较不同组之间的特征分布。
分析特征之间的交互作用,例如特征对诊断结果的综合影响。
使用卡方检验或 ANOVA 评估分组特征与诊断结果之间的关联。
总体分布
恶性和良性病例的计数
恶性(diagnosis=1):212 例
良性(diagnosis=0):357 例
每个特征的汇总统计
mean_radius:
均值:14.13
标准差:3.52
最小值:6.98
最大值:28.11
mean_texture:
均值:19.29
标准差:4.30
最小值:9.71
最大值:39.28
mean_perimeter:
均值:91.97
标准差:24.30
最小值:43.79
最大值:188.50
mean_area:
均值:654.89
标准差:351.91
最小值:143.50
最大值:2501.00
mean_smoothness:
均值:0.10
标准差:0.01
最小值:0.05
最大值:0.16
每个特征的描述性统计:
均值:所有特征的平均值为 130.17,标准差高达 259.33,表明不同特征的均值之间存在显著变异。
中位数:所有特征的中位数值为 111.77,标准差同样很高(217.59),表明特征中央趋势范围较宽。
标准差:所有特征的平均标准差为 64.09,指向数据的分散程度多样化。
最小值:特征的最小值平均为 34.01,某些特征的最小值低至 0.00。
四分位数 (Q1 和 Q3):第一个四分位数 (Q1) 的平均值为 87.24,第三个四分位数 (Q3) 的平均值为 154.25,指示数据中间 50% 的分布。
最大值:最大值的平均为 459.68,但标准差相当高(1002.50),显示一些特征的最大值明显高于其他特征。
恶性和良性病例之间分布的差异:
恶性病例:
均值:恶性病例的平均均值为 95.34,标准差为 182.32。
标准差:恶性病例的平均标准差为 25.31。
良性病例:
均值:良性病例的平均均值为 188.82,标准差为 389.20。
标准差:良性病例的平均标准差为 66.13。
显著差异:
恶性和良性病例的均值和标准差之间存在显著差异。
良性病例 在某些特征上具有更高的均值 ,这可能表明良性病例这些特征的值较大。
在良性病例中,标准差也更高 ,表明良性组的变异性高于恶性组。
特征分析
恶性和良性病例之间特征的显著差异:
所有列出的特征(mean_radius、mean_texture、mean_perimeter、mean_area、mean_smoothness)在恶性和良性病例之间都显示出显著差异。
T 统计量是高度负值,表明这些特征在良性病例中的均值显著低于恶性病例。
P 值有效地接近零(范围从 1.68446e-64 到 5.57333e-19),这有力地拒绝了原假设,确认均值间差异在统计上是显著的。
相关系数:
提供的背景没有包含确定相关系数所需的数据。需要更多数据来完成此部分分析。
诊断结果预测中的特征重要性:
逻辑回归模型的特征重要性值都是负值,这表明随着这些特征值的增加,良性诊断的可能性会增加。
mean_perimeter 具有最高的绝对重要性值(-1.86081),表明它是在预测诊断结果中最有影响力的特征。
最不重要的特征是 mean_radius,其重要性值为 -1.18001。
数据可视化
基于提供的背景和可视化,得出以下结论:
恶性和良性病例的分布:

条形图可视化表明,数据集中良性病例(诊断 0)的数量多于恶性病例(诊断 1)。
具体而言,有357 个良性病例 和212 个恶性病例。
特征值的比较:

箱线图可视化比较恶性(1)和良性(0)病例的 'mean_radius'、'mean_texture'、'mean_perimeter'、'mean_area' 和 'mean_smoothness' 的特征值分布。
用于比较的数据集表明,恶性病例 在 'mean_radius'、'mean_texture'、'mean_perimeter' 和 'mean_area' 上具有更高的均值 与良性病例相比。
‘mean_smoothness’ 在两种诊断之间没有显示出显著的均值差异。
特征之间的关系:

散点矩阵可视化显示特征对之间的关系。
‘mean_radius’、‘mean_perimeter’ 和 ‘mean_area’ 之间存在强正相关 ,散点图中的紧密线性模式表明这种相关性。
相关矩阵:

热图可视化特征的相关矩阵。
‘mean_radius’、‘mean_perimeter’ 和 ‘mean_area’ 之间存在高正相关 ,接近 1。
‘mean_texture’ 与 ‘mean_radius’、‘mean_perimeter’ 和 ‘mean_area’ 之间具有中等正相关。
‘mean_smoothness’ 与其他特征之间具有低到中等的正相关。
强调的关键观察:
数据集中良性病例 多于恶性病例。
恶性病例特征的均值更高 。
特征之间的强正相关性 (‘mean_radius’、‘mean_perimeter’、‘mean_area’)。
‘mean_texture’ 和 ‘mean_smoothness’ 与其他特征之间的关联性中等偏低。
降维
PCA 分析:
PCA 结果表明主成分 1 占数据集中显著的方差,均值为0.63。
主成分 2 和主成分 3 的均值分别为0.20和0.16 ,表明它们对总方差的贡献较小。
主成分 4 和 5 的均值为0.00,表明它们对方差没有贡献,可能不必要用于捕捉数据集的结构。
t-SNE 可视化:

t-SNE 可视化显示两个集群的清晰分离,这很可能分别对应于恶性和良性病例。
可视化中的颜色渐变代表诊断,显示分离非常明显,一端(黄色)可能表示良性病例,另一端(紫色)表示恶性病例。
UMAP 可视化:

UMAP 可视化在上下文中未提供,但根据 t-SNE 的结果,可以推断如果应用相同的颜色渐变,UMAP 可能会显示出恶性和良性病例之间类似的分离模式。
结论:
PCA 可用于降低数据集的维数,可能前面三个组件足以捕捉大部分方差。
两者t-SNE 和UMAP 在可视化恶性和良性病例的分离方面均有效,其中 t-SNE 提供了两个之间清晰的视觉差异。
为了进一步分析,建议在需要降维的机器学习模型中使用前两个主成分,并使用 t-SNE 或 UMAP 可视化来理解数据分布和病例分离。
预测建模
逻辑回归模型性能:

准确率:91.21%
逻辑回归模型显示出很高的准确率,这表明其在测试数据上的预测性能强大。
决策树模型性能:

准确率:100%
决策树模型在测试数据中达到了完美的准确性。然而,这可能表明过拟合,因为在现实场景中,模型获得 100% 的准确性并不常见。
集成模型性能:
精确度:100%
召回率:100%(排除一个缺失数据的条目)
F1-Score:100%(排除一个缺失数据的条目)
支持度:在 212 到 569 之间变化
在此上下文中,特别是随机森林模型,集成模型在可用数据上显示出完美的精准度、召回率和 F1-score,但与决策树模型类似,所有指标的完美评分可能表明过拟合。
预测建模的数据准备:
数据集已准备包含以下特征:'mean_radius'、'mean_texture'、'mean_perimeter'、'mean_area' 和 'mean_smoothness'。
预测的目标变量为 'diagnosis'。
数据集包含 569 行,分为训练集和测试集。
建议:
验证模型泛化能力:由于决策树和集成模型的完美分数,建议通过使用交叉验证或额外的测试数据集进一步评估这些模型以防止过拟合。
模型比较:不仅要根据准确率比较模型,还要根据精确率、召回率和 F1-score 等其他指标进行比较,并考虑它们之间的权衡。
特征重要性:调查集成模型所给出的特征重要性,以了解哪些特征对诊断结果最具预测性。
进一步测试:使用不同的参数设置或额外特征进行进一步测试,以查看模型性能是否可以改善,而不导致过拟合。
注意:在集成模型结果中,一个条目的缺失召回率和 F1-score 数据需予以补充,以确保完整评估。
特征选择
根据提供的特征选择方法:
随机森林特征重要性:
最重要特征: mean_perimeter(重要性:0.290848)
第二重要特征: mean_area(重要性:0.265443)
其他特征: mean_radius、mean_texture、mean_smoothness的较低重要性得分。
递归特征消除 (RFE):
排名最高的特征: mean_radius、mean_perimeter、mean_smoothness(排名:1)
第二排名特征: mean_texture(排名:2)
最不重要特征: mean_area(排名:3)
L1 正则化 (Lasso):
负面影响最大的特征: mean_perimeter(重要性:-0.295924)
其他特征: mean_texture、mean_smoothness 均有负系数,表明其重要性较低。
零系数的特征: mean_radius、mean_area,表明在 L1 正则化后它们可能对模型没有贡献。
综合洞察:
mean_perimeter 在随机森林和 Lasso 中似乎是最重要的特征,但在 Lasso 中是负系数。
mean_radius 和 mean_smoothness 在随机森林和 RFE 中始终重要。
mean_area 显示出混合信号,在随机森林中是第二重要,但在 RFE 中是最不重要的,并且在 Lasso 中没有贡献。
mean_texture 在所有方法中都是中等重要的。
预测诊断结果的建议:
在模型训练中优先考虑 mean_perimeter、mean_radius 和 mean_smoothness,因为它们在不同特征选择方法中的重要性始终一致。
进一步评估 mean_area 和 mean_texture 的影响,因为它们的相对重要性在各种方法中有所不同。
异常值分析
异常值识别及影响分析
特征中的异常值识别
已使用统计方法识别每个特征中的异常值。数据集中通过布尔值(异常值为 True,非异常值为 False)指示异常值的存在。
对特征分布的影响

通过条形图可视化了异常值对每个特征分布的影响,显示了每个特征的异常值百分比。平均面积的异常值百分比最高(1.40598),而平均纹理的异常值百分比最低(0.702988)。
对模型性能的影响

异常值的存在影响模型性能。提供的数据集包括每个特征的异常值百分比,可用于评估对模型指标的影响。但是,当前背景中未提供包含和不包含异常值的具体模型指标。
聚类异常值检测

已使用 DBSCAN 等聚类方法检测潜在异常值。提供的子集中的所有点都被标记为异常值(聚类标签 -1),表示这些点不适合任何聚类。
结论
特征中的异常值:
已使用统计方法识别。
布尔标志指示异常值的存在。
分布影响:
最高异常值影响:平均面积(1.40598)。
最低异常值影响:平均纹理(0.702988)。
模型性能:
提供了异常值百分比。
需要对比具体的模型指标以进行完整分析。
聚类异常值:
子集中的所有点都是潜在异常值(聚类标签 -1)。
进一步分析的建议:
提供包含和不包含异常值的模型指标,以进行详细的性能影响分析。
调查某些特征中高异常值百分比的原因,并考虑数据转换或清理方法来解决这些问题。
评估删除或调整异常值对聚类结果和整体数据质量的影响。
分组分析
按诊断进行分组分析:
数据集已按 'diagnosis' 列分组,并计算了每个特征的均值和标准差。分析的特征包括 'mean_radius'、'mean_texture'、'mean_perimeter'、'mean_area' 和 'mean_smoothness'。
特征分布比较:

通过使用小提琴图和箱线图可视化每个特征在 'diagnosis' 组中的分布。这些可视化帮助理解每个诊断组中特征的分散程度和中央趋势。
特征交互作用检查:

通过计算相关矩阵来检查特征之间的交互作用。该矩阵显示每个特征与其他特征的关系,其中靠近 1 的值表示强正相关,靠近 -1 的值表示强负相关,而接近 0 的值表示没有相关性。
关联评估:

使用 ANOVA 检验评估分组特征与诊断结果之间的关联。通过 ANOVA 测试获得的 F 值和 P 值表明组均值之间差异的统计显著性。
关键发现:
均值和标准差分析:
特征的均值在诊断组之间存在不同,组 0 的所有特征均值均高于其他组,除了 'mean_smoothness'。
标准差表明每个诊断组内的变异性,组 0 通常显示出更大的变异性。
分布可视化:
小提琴图和箱线图显示了各诊断组之间特征分布的差异。例如,'mean_radius' 和 'mean_perimeter' 在两组之间显示出明显的分布差异。
相关矩阵:
‘mean_radius’、‘mean_perimeter’ 和 ‘mean_area’ 之间存在强正相关,这正是由于这些特征在几何上相关。
‘mean_texture’ 和 ‘mean_smoothness’ 与其他特征之间的相关性较弱。
ANOVA 结果:
所有特征都显示出与诊断结果的统计显著性关联,ANOVA 结果的 P 值极低。
统计显著性:
ANOVA 测试表明每个特征在诊断组之间均值的差异具有统计学显著性,这表明这些特征可能是诊断结果的良好预测指标。
可视化:
提供的可视化(小提琴图、箱线图和热图)有效支持了统计发现,并提供了数据分布和特征交互的清晰图形表示。
现在试试
现在尝试 Powerdrill Discover ,以有效的方式探索更多有趣的数据故事!




