《白话大数据与机器学习》读书笔记1
《白话大数据与机器学习》读书笔记1
大数据的生命周期
数据收集,数据存储,数据建模,数据分析,数据变现
数据之门
什么是数据
承载了信息的东西–才叫数据
什么是信息
把那些我们不清楚的事情阐述清楚的描述
统计与分布
指标
用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法
标准差
欧式距离(Educlidean Distance)
在一个N维度的空间里,求两个点的距离。这个距离肯定是一个大于等于0的数字(也就是说没有负距离,最小也就是两个点重后的零距离),那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开方。
曼哈顿距离(Manhattan Distance)
两个点在标准坐标系上的绝对轴距总和。
同比和环比
同比:与相邻时段的同一时期相比
环比:与上一个报告期进行比较
高斯分布(Gaussian Distribution)
概率密度函数:
- $\mu$较大,则整个函数图像的中轴向右移动比较多。
- $\mu$较小,则函数图像的中轴向左移动比较多。
- $\sigma$较大,则整个曲线绵延比较长,整个坡度显得平缓。
- $\sigma$较小,整个曲线窄而立陡。
泊松分布(Poisson)
适用需要满足的条件:
- 这个事件是一个小概率事件。
- 事件的每次发生时独立的不会相互影响。
- 事件的概率是稳定的。
伯努利分布(Bernoulli Distribution)
需要满足以下条件:
- 各次试验中的事件是相互独立的,每一次$n=1$和$n=0$的概率分别是$p$和$q$。
- 每次试验都只有两种结果,即 $n=0$,或$n=1$。
满足以下公式:
其中,$X$指的是试验的次数,$C_n^k$指的是组合,也就是$\frac{n!}{k!(n-k)!}$,$p^k(1-p)^{n-k}$就是$p$的$n$次幂与$(1-p)$的$n-k$次幂的乘积。