R语言数据分析方法论

引言

本文主要讨论数据分析与数据挖掘的基本原理与方法论,在艾新波老师的指引下对数据科学的整体有一个大致的了解,领悟核心的数据分析思想。

气象万千 数以等观

随着数字时代的来临,我们身边的设备和系统表现出越来越多的令人惊叹的智能。比如我们上传一张照片到某个网站,它会自动识别出来里面每个人的年龄;在某些诊疗系统里面,通过一些具体的医疗图像它可以识别出来玩吗身体的状况是否有疾病,它一些疾病(比如肺癌)的治疗水平已经超过了一些医生;再比如我们利用某个聊天软件聊天的时候,朋友发过来一段语音,它可以自动识别语音转文字;当我们用某个音乐播放器时间久了,它也会自动识别出来我们的喜好,推荐一些我们感兴趣的歌曲。毫无疑问,这些类似的设备和系统表现出来的行为,它都不是我们事先人为设定的一些规则,而是基于大量的数据发现一些规律、识别一些模式,然后才表现出这些让我们比较惊叹的一些人工智能的行为。总结一下:所有的智能行为时源于发现了数据背后的规律

从人类历史上第一个被发现的定律说起

波义耳定律(1662年):密闭容器中的定量气体在恒温下,其体积和压强成反比:$p=f(v)=\frac{k}{v}$

我们学过的第一个数学模型

也许是世界上最简单的数学模型:$1+1=2$

虽然说这个表达式非常简单,但 $1+1=2$ 里面已经包含了一个非常非常有意思的数学符号:= 。等号左右两边是同质的,它是相同的事物。

风马牛不相及

回到波义耳定律:$p=f(v)=\frac{k}{v}$ ,其中 $p$ 是压强,$v$ 是体积,$p = v?$

为了深刻理解等号的含义我们再举个例子:比如说我们现在想对这个房间的温度进行控制的话,可以送新的风进来。具体来讲我们可以遵循某些控制规律,利用偏差消除偏差 $u=f(e)$ ,$送风量=温度(温差)$。毫无疑问,送风量和温度也是两个完全不同的物理量。

我们再来一个例子:$PM2.5=0.29T+0.53U+0.2V$,$污染=温度+湿度+风速?$。这时候我们将污染的浓度、温度、湿度、风速画上等号。这个时候的等号,其实表明我们对一些规律已经识别了。当然我们客观世界的规律是千差万别的,但是在数学上要表达规律的时候很大一部分都是用等号来表达。

等号的含义

$1+1=2 \
x=5 \
p=f(v)=k v^{-1} \
y=0.29t+0.53u+0.2v \ y=f(x)$

等于 决定 定义为 相当于 转化为 映射 联系 等价于 制约 作用 依存

equal to defined as mapped to Value as Depend on

万事万物的规律在语文上有丰富的表达规律,但在数学上我们一般通过等号来给它刻画。

在做数据分析的时候,我们很大一部分时候就是在划等号。举个例子,之前我们说上传一张照片到某个网站,它会自动识别出来里面每个人的年龄。它的实现就是大量有标记的图片经过一个学习算法训练出一个网络出来,然后将照片的像素点映射成这个年龄。

$y=f(x_1=1.00,…x_{3149999}=0.16,x_{3150000}=0.90)=29$

划定等号之后也就实现了这个照片里人的年龄识别,也就表现出了这个相应的智能行为。

气象万千,数以=观

一侧==另一侧对客观规律的认知
邮件文件1.是 2.否垃圾邮件过滤
道路图像道路、天空、行人、…语义分割
医疗图像1.有病 2.正常疾病诊疗
光纤信号事件类别声纹检测
交易记录正常、异常欺诈交易侦测
用户评论情绪类别情绪分析
温度、压力等氯化石蜡粘度生产质量控制

数据科学最令人着迷的地方:一旦进行量化,看似风马牛不相及的事物/属性,经过数学运算,居然可以画上等号,刻画各种各样的规律

I have no special talent,I am only passionately curious

所谓学习 归类而已

以机器学习为内核

数据分析 = 机器学习 数据挖掘

​ = 认识数据 + 关联 + 分类 + 聚类

​ = 寻找关系结构(核心是归归类)

机器学习vs数据挖掘

这门课叫《R语言数据分析》,毫无疑问数据分析是主体,R语言是工具。数据分析是一个相对比较宽泛的概念,当然很多文献会说机器学习和数据挖掘的边界是什么、重叠部分是什么,我们当然可以找一些相关文献来研究它们的异同,但现在我们将《数据挖掘导论》与《机器学习》(西瓜书)放在一起比较两者的异同:

相同:

  • 决策树
  • 贝叶斯分类器
  • 人工神经网络
  • 支持向量机
  • 组合方法(集成学习)
  • 关联规则(规则学习)
  • 层次聚类
  • 原型聚类
  • 密度聚类
  • 维归约(降维)
  • 线性代数(矩阵)
  • 概率统计
  • 优化

不同:

  • 数据挖掘导论:最近邻 异常检测
  • 机器学习:计算学习理论 半监督学习 强化学习

通过比较我们可以得出结论:就算法模型而言,机器学习和数据挖掘是不需要做区分的。具体来说,数据挖掘包含两部分知识,一个是数据分析的技术(机器学习),一个是数据管理的技术(数据库)。由于该课程对数据管理涉及较少,所以对机器学习基本就不做区分,在后续的学习中数据分析、数据挖掘、机器学习这三个概念基本上是会交替使用的。

机器学习只是归归类

分类--有监督学习聚类--无监督学习构成了机器学习的主体部分。所以,机器学习不过是归一归类。

格言联璧学习

源于数学 归于工程

Acknowledgement
Motion Story