《白话大数据与机器学习》读书笔记1

《白话大数据与机器学习》读书笔记1

大数据的生命周期

数据收集,数据存储,数据建模,数据分析,数据变现

数据之门

什么是数据

承载了信息的东西–才叫数据

什么是信息

把那些我们不清楚的事情阐述清楚的描述

统计与分布

指标

用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法

标准差

欧式距离(Educlidean Distance)

在一个N维度的空间里,求两个点的距离。这个距离肯定是一个大于等于0的数字(也就是说没有负距离,最小也就是两个点重后的零距离),那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开方。

曼哈顿距离(Manhattan Distance)

两个点在标准坐标系上的绝对轴距总和。

同比和环比

同比:与相邻时段的同一时期相比

环比:与上一个报告期进行比较

高斯分布(Gaussian Distribution)

概率密度函数:

  • $\mu$较大,则整个函数图像的中轴向右移动比较多。
  • $\mu$较小,则函数图像的中轴向左移动比较多。
  • $\sigma$较大,则整个曲线绵延比较长,整个坡度显得平缓。
  • $\sigma$较小,整个曲线窄而立陡。

泊松分布(Poisson)

适用需要满足的条件:

  1. 这个事件是一个小概率事件。
  2. 事件的每次发生时独立的不会相互影响。
  3. 事件的概率是稳定的。

伯努利分布(Bernoulli Distribution)

需要满足以下条件:

  1. 各次试验中的事件是相互独立的,每一次$n=1$和$n=0$的概率分别是$p$和$q$。
  2. 每次试验都只有两种结果,即 $n=0$,或$n=1$。

满足以下公式:

其中,$X$指的是试验的次数,$C_n^k$指的是组合,也就是$\frac{n!}{k!(n-k)!}$,$p^k(1-p)^{n-k}$就是$p$的$n$次幂与$(1-p)$的$n-k$次幂的乘积。

本文遵守 CC-BY-NC-4.0 许可协议。

Creative Commons License

欢迎转载,转载需注明出处,且禁止用于商业目的。