业界动态
统计建模:数据分析基础
2024-10-31 17:56

本文为学习黄晓林老师开设的慕课《探索数据的奥秘》所作笔记

统计建模:数据分析基础

数据

数据传感器采集到的各种物理、生物、化学指标等等可记录、可表征的数量、性质都是数据,对于行为的描述与记录也能构成数据,例如互联网上的一次次交易,访问。总之,现实中某种事物或事物间关系数量或性质的表征和记录,都称之为数据,数据是信息的载体。

大数据

有观点认为,当数据量大到需要使用并行计算工具处理时,就称之为大数据(Big Data)。通常认为大数据有4V特点,即体量大(High Volume)、速度快时效高(High Velocity)、类型繁多(High Variety)、价值密度低(High Veracity

1993年,美国学者挨个拉沃提出了Aprior算法,可以通过分析购物篮中的商品几何,找出商品间关系,然后研究或推测顾客的购买行为,沃尔玛将其引入pos机数据分析,发现一些看似毫无关联的商品,例如啤酒和尿布经常出现在同一购物车中,即两者具有相关性。

数据科学

应用科学的方法、流程、算法和系统从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。所有对数据的搜集,存储,分类,处理,分析,呈现都可纳入数据科学的范畴。

数据科学项目克可能涉及的人员
人员定位项目出资方商业利益,提供项目支持客户(或用户)最终用户利益(领域专家)数据架构师管理数据和数据存储运营工程师管理基础设施和部署最终成果数据科学家(核心人员)设定和执行分析战略

用户层面
针对用户的具体问题,应做好充足的背景调查,从而制定出相应的用户层面的目标。
数据科学层面:可将问题抽象为分类、预测、排名或打分、关联化、特征提取、聚类等。

类型描述分类对于给定的数据,依据一定的规则进行两个或两个以上的类别划分,输出为针对输入的数据所分配的类别标签。例如:真/假,类别A / 类别B / 类别C /…预测基于一直数据对将来的状态作出估计或判断,输出为连续的数量值或类别标签排名 (打分)对于实体的某种属性或响应进行数量化描述或进行排序关联化 去关联化在尸体的众多特征种,寻找有相互关联的特征以便相互替代,从而实现特征的相互“解释”或数据降维;而对于非关联的特征则需予以保留以实现对样本的全面描述特征提取基于实体的众多特征,构造最反应目标的,或最能知识某种分类的复合特征聚类根据样本间的相似度将样本分组
前提假设和数据构成

明确必要的前提假设,基于假设的前提来设计数据的构成,明确总体和抽样方案再搜集数据。

在面向实际应用时,始终不能忘记方案的可行性分析,不同的假设很可能会涉及不同的数据,最终导致不同的研究内容。因此,在真正进行数据搜集之前,应认真审视与事实最符合的假设,根据最符合事实的假设提出对应的数据方案,思考方案的可行性,确定数据的构成。

通常,后续方便处理的数据是 ” 结构化 “ 的数据(可将其抽象的理解为一张二维表,一行对应一个样本,一列对应一个属性

总体和抽样

总体(Population:待研究对象的全体
个体(Individual:总体中的每一个对象
样本:在无法获得总体的情况下,从总体中抽取出来的子集
样本容量:样本包含的个体数量

  • 数据收集是一种从总体中抽样的过程
  • 样本容量不能太小,传统统计学认为小于30的样本容量不具备统计学意义
  • 抽样时不能有预设偏见,也就是必须无偏抽样,即抽样的过程不受个体性质的影响。
  • 抽样偏差指从总体中非随机型抽样带来的系统性错误,幸存者偏差就是一种常见的抽样偏差
  • 避免抽样偏差常见的作法是随机抽样。随机抽样是指总体中的个体是否被抽样并非是确定的(即,不因为个体的某个或某些性质一定被抽中或一定不被抽中,而是以一定的概率被抽样
混杂因素和A/B Testing

辛普森悖论 人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
常见的排除混杂因素影响的做法 对两相比较的样本集,做好潜在混杂因素(甚至所有非考察因素)的匹配。

  • 对于关联任务而言,混杂因素的排除是关键

A/B Testing 指专门设计一些对比试验,在其他所有特征都匹配(或一致)的情况下,只观察一个变量的不同取值对于结果的影响。科学研究中,在实验室的可控环境下,A/B Testing 是一种非常常见的实验手段,例如 “ 双盲实验 ” 。主动搜集数据时,A/B Testing 是一种可靠而有效的方式。

NumPy.load_txt()

  • 将指定文件中的数据加载到数组
  • 支持纯文本文件,如 txt 文件和 csv 文件
  • 返回 NumPy 的 ndarray 多维数组
  • 一般用来加载数据类型一直的数据文件

Pandas.read_csv()

  • 面对数据并不统一的电子表格数据
  • 将电子表格文件中的数据导入到 Pandas 的 Dataframe 结构(二维表格结构

Python自带模块urllib 可用于网上在线获取文件

  • urllib.request.urlopen()

CountVectorizer实现非结构化数据转化为结构化数据
非结构化数据一般通过结构化处理使其成为表格,方便后续的分析与建模

对大规模数据的读取

  • 以连续流的方式流入,而非一次性加载
  • csv 包中的 reader 函数和 DictReader 函数 可以实现小块数据的迭代
  • 初步了解数据集
  • 验证初步假设

数据检查和预处理

  • 数据检查 :数据的规模与特征的数据类型及意义
  • 预处理:缺失处理、异常处理、冗余处理

数据的类型:数值型数据、字符型数据、逻辑型数据(bool型数据)、排序类型
(依据某个量度得到的,具备一定的量化意义

对于数值型数据,可以用算术平均,标准差等量化统计量进行分析。
对于非数值型数据,主要依据它们进行分组与筛选。

数据的初步分析

  1. 缺失数据:用 NaN 表示
  • 数据随机性缺失
    • 直接丢弃:dataframe.dropna函数(样本容量大,缺失信息少
    • 修补填充:dataframe.fillna函数(样本容量小,无法承受进一步缺失) 缺失值填充是一种止损手段,可以将原本不完整数据行中的其他信息利用起来,从而避免了有效信息的进一步损失。
  • 非随机性缺失:具体情况具体分析
  1. 数据混则了噪声、干扰,甚至错误数据。应基于数据的实际意义,利用常识或专业领域知识进行判断。
  • 对于服从正态分布的数据:z-score
    z-score 是个无量纲的数,可以消除数据本身的取值范围带来的影响。一般认为z-score > 3 时,可以怀疑异常。
  • 对于不服从正态分布的数据:四分位距
    q1:第一个四分位数
    q3:第三个四分位数
    = q3 - q1:四分位距
    x > q3 + 3△ 或 x < q1 - 3△:认为是极端异常值或离群值outlier
  • 对于异常值
情况处理方法确定是出错的数据丢弃或替换不能肯定是错误增加样本容量
  1. 数据冗余
情况处理方法数据列直接重复直接通过列名称或特征名筛选不同特征出现冗余如果一个特征可以通过将另一个线性特征变换得到,那么这两个特征就是重复的,可以去掉一个。

判断特征冗余常用方法:线性相关分析
Dataframe.corr函数
当参数 method=‘pearson’ 时,直接求线性相关系数

  • 线性相关系数接近 1 或 -1 ,则说明两个特征存在强的线性相关或反相关,有着较大的冗余
  • 线性相关系数等于 0, 两个特征间没有线性相关性

描述性统计
描述性统计不对数据做任何预先地猜想,实事求是地告诉我们样本数据是怎样的。在描述性的结果上进行思考可以形成一些初步的结论。

  • 位置性测度计算

位置性测度主要用来反映样本集合的中心成员或特定成员在所考察的数域或空间的位置。只能针对数值数据计算。

常用的位置测度定义特点函数算术平均(arithmetic mean)对所有考察的样本值求统计平均易受极端值影响dataframe.mean()中位数(median)将所有样本按数值从小到大或从大到小排序后,最中间位置的一个数,或者两个数的平均对极端值不敏感,但对中位数以外的所有值也都不敏感dataframe.median()p 百分位数(quantiles)将所有样本值按从小到大的顺序拍好,排序在第 p% 的样本取值第 p 个百分位数记为 Vp,则样本中有且仅有 p% 的观察值小于等于 Vpdataframe.quantiles(q=0.25)众数(mode)样本集中出现次数最多的值众数可能只有一个,也可能有多个dataframe.mode()
  • 离散性测度计算
    只能针对数值数据计算
常用离散性测度描述函数极差(range)指集合中最大与最小值之间的差异,对极端值非常敏感max() - min()方差(variance)对集合中所有样本值相对于均值的偏差的平方求近似平均var()标准差(Standard Deviation)方差的平方根称为标准差,方差和标准差可以总体衡量集合中数据偏离均值的程度std()变异系数(coefficient of variation, CV)无量纲,能尽量消除单位及均值的绝对位置带来的影响。std() / mean()

describe函数:对dataframe中所有用数值保存的特征(无论是整数还是浮点数,一次性计算多个常用的描述性统计量

  • 图形化描述
    既适用于数值型数据,也适用于非数值型数据的计算
常用图形描述函数直方图将数据分组,记录样本在每个组中出现的频数hist函数箱型图通过几个重要的百分位数来界定数据的主要分布,下边缘为 q1,上边缘为 q3,箱子的中线代表中位数,箱子两端伸出的虚线用来刻画极差,超出上下边缘的被当作异常值或outlier离群点boxplot函数
  • 非数值型的特征
    主要应用来分组,从而对各组进行频次统计,绘制与直方图类似的柱状图
    利用 dataframe.groupby 函数进行分组

  • 两个数值型特征相结合
    简单的图形化方法为二维散点图,其绘制方法为: 用样本在一个特征上的取值作为横轴,在另一个要关联考察的特征上的取值作为纵轴,这样在二维平面上确定下该样本的位置,描绘出一个样本点。
    可以采用 pandas.plotting.scatter_matrix 对两个数值型特征绘制散点图。

实质:由样本去推断总体的过程
主要包括:参数估计和假设检验

假设检验

  1. 提出假设
  2. 验证是否可以接受假设

零假设(null hypothesis:H0,需要检验的假设,如

  • 总体的均值等于μ
  • 测试组和对照组来源于均值相等的总体
  • 控制因素对观察变量有没有影响,A组和B组数据同分布
    以上就是本篇文章【统计建模:数据分析基础】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/11073.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
最新新闻
刘畊宏直播2小时收入120万,打赏的榜一大哥都是什么人?
说起最近这段时间直播界最火的网红明星,非“健身达人”刘畊宏莫属,从今年4月初开始,全国各地都有人因疫情被封控,而刘畊宏的
国家要普涨工资,地方正狂卷就业,让大家挣钱最重要
最近,有一个重要的文件和每个人的“钱袋子”息息相关。那就是《中共中央、国务院关于实施就业优先战略促进高质量充分就业的意见
实探债务危机中的柔宇科技:生产基地半小时只看到3个人,手机业务已停摆
2023年是折叠屏手机爆发年,诸多柔性屏供应商、手机厂商吃到红利。然而面对这样的好光景,柔宇科技却只剩一片残局。曾经凭借柔性
今日头条iphone最新版特色
今日头条ios2021最新版是专为苹果手机用户打造的头条新闻资讯应用,打开今日头条,即可知道今天发生了哪些大事,还有最新的娱乐
一张床垫用N年,弹簧早就疲软了,撑不住儿童发育的脊梁,赶紧换!
你家孩子睡的弹簧床垫陪伴TA多少年了?尤其是弹簧床垫,通常睡上3~5年的儿童床垫,金属弹簧就会呈现不同程度的疲软,这将严重影
增长黑客,创业公司用户增长的秘籍
增长黑客读了范冰的《增长黑客》,启发太多。正如作者在前言中所说,确实是处处均是干货,书里脉络清晰,是本难得的好书。增长黑
实用的高考化学考试答题思路与技巧
高考的化学考试答题要联系所学习的知识,找到知识与问题之间的结合点,确定解题的方案,这才是解题的关键。下面是小编为大家整理
小红书情人节营销指南
│前言│小红书作为女生的口袋百科指南,提供了各种各样的节日攻略内容,同时引导着用户去享受更好的生活,而在即将到来的214情
云南SEO优化如何让描述中出现地址呢?
在搜索引擎优化(SEO)的世界中,整合关键信息,如地址,到网页描述中是提升网站在搜索引擎结果页面上的可见性和点击率的关键策
实用贴!海关统计数据查询攻略
海关统计数据查询攻略为便于社会公众查询和使用海关进出口货物贸易统计数据(以下简称海关统计数据),特编制本查询攻略。一定期
本企业新闻
推荐企业新闻

点击拨打: