1. 统计描述
图表描述:包括频数分布表(单变量和双变量)、条形图、帕累托图、饼图、环形图等,用于直观展示数据分布和比较。
顺序数据描述:通过累计频数分布表和累积频数分布图来分析顺序变量的分布特征。
2. 数据类型
分类数据:用于计数,如性别、颜色分类。
顺序数据:具有等级顺序,如教育程度。
数值型数据:分为离散型(如人数)和连续型(如温度)。
3. 统计量
中心趋势度量:平均数、中位数、众数。
离散程度度量:方差、标准差、极差、四分位数。
4. AB测试流程
实验设计:确定改动点、核心指标、计算样本量、实验周期。
流量分割:分流(按用户特征分组)、分层(确保样本多样性)。
显著性检验:实验结束后分析结果,使用统计检验判断差异是否显著。
5. 辛普森悖论
理解在不同细分与整体分析中可能出现的反直觉现象,强调了分析时考虑所有相关变量的重要性。
6. 相关系数与协方差
协方差:衡量两个变量变化趋势的一致性。
相关系数:标准化的协方差,反映变量间线性关系的强度和方向,范围在1到1之间。
7. 随机变量
定义与分类:离散型(如伯努利试验)和连续型(如正态分布)。
数字特征:期望(均值)、方差、标准差等。
8. 常见分布
离散分布:二项分布、泊松分布。
连续分布:正态分布、均匀分布、指数分布。
正态分布特性:对称性、集中趋势在均值,广泛应用于假设检验和置信区间估计。
9. 统计推断
假设检验:t检验、ANOVA(方差分析)、卡方检验等,用于判断样本数据与总体或两组数据间的差异是否显著。
置信区间:估计总体参数的可信范围。
10. 变量关系
独立与不相关:理解变量间独立性与协方差为零的区别,以及它们对数据分析的影响。
掌握这些基础知识对于数据分析师来说至关重要,它们帮助分析师理解数据的结构、特征,以及如何通过统计方法来验证假设、发现模式和做出预测。
推荐文章
不同类型高校的分数线差异有哪些
2025-01-02统计学专业:如何提升自身的就业能力
2024-11-11如何了解一个专业的行业前景
2024-12-11高考分数与专业选择的关系是什么
2024-11-13生物高考必背知识如何选择适合的高考科目
2024-12-16哪些专业补报成功率较高
2024-12-08高考志愿填报时应注意哪些误区
2024-12-18如何准备春季高考的面试
2024-10-27在选择城市时,如何看待影视专业的机会
2024-12-31高考志愿服从调剂后能否更改专业
2024-12-20