1. 统计描述

图表描述:包括频数分布表(单变量和双变量)、条形图、帕累托图、饼图、环形图等,用于直观展示数据分布和比较。

顺序数据描述:通过累计频数分布表和累积频数分布图来分析顺序变量的分布特征。

2. 数据类型

分类数据:用于计数,如性别、颜色分类。

顺序数据:具有等级顺序,如教育程度。

数值型数据:分为离散型(如人数)和连续型(如温度)。

3. 统计量

中心趋势度量:平均数、中位数、众数。

离散程度度量:方差、标准差、极差、四分位数。

4. AB测试流程

实验设计:确定改动点、核心指标、计算样本量、实验周期。

流量分割:分流(按用户特征分组)、分层(确保样本多样性)。

显著性检验:实验结束后分析结果,使用统计检验判断差异是否显著。

5. 辛普森悖论

理解在不同细分与整体分析中可能出现的反直觉现象,强调了分析时考虑所有相关变量的重要性。

6. 相关系数与协方差

协方差:衡量两个变量变化趋势的一致性。

相关系数:标准化的协方差,反映变量间线性关系的强度和方向,范围在1到1之间。

7. 随机变量

定义与分类:离散型(如伯努利试验)和连续型(如正态分布)。

数字特征:期望(均值)、方差、标准差等。

8. 常见分布

离散分布:二项分布、泊松分布。

连续分布:正态分布、均匀分布、指数分布。

统计与数据分析的基础知识有哪些

正态分布特性:对称性、集中趋势在均值,广泛应用于假设检验和置信区间估计。

9. 统计推断

假设检验:t检验、ANOVA(方差分析)、卡方检验等,用于判断样本数据与总体或两组数据间的差异是否显著。

置信区间:估计总体参数的可信范围。

10. 变量关系

独立与不相关:理解变量间独立性与协方差为零的区别,以及它们对数据分析的影响。

掌握这些基础知识对于数据分析师来说至关重要,它们帮助分析师理解数据的结构、特征,以及如何通过统计方法来验证假设、发现模式和做出预测。