第8章 高等统计学
第8章 高等统计学[toc]
8.1 点估计我们在上一章中提到,获得总体参数非常困难,甚至是难以实现的,所以我们通过计算样本的统计量得到总体参数。我们将通过以上方式估计参数值的方法,叫作**点估计(point estimates)**。
点估计指通过样本数据估计总体参数。
我们可以使用点估计的方法对总体均值、方差等统计量进行估计。为了得到估计值,我们只需将被计算对象由总体变为样本即可。比如,某公司有9000名员工,我们希望知道每位员工平均每天休息的时长。我们可以从9000人中抽取一个样本,计算样本的平均值。样本平均值就是我们的点估计。
下面我们通过Python模拟总体数据,规则如下。
(1)根据第6章“高等概率论”,如果已知事件的平均值,那么通常使用泊松随机变量(poisson random variable)对事件进行建模。因此,我们用泊松分布随机生成9000 个调查问卷的答案:你平均每天休息的时长是多少?
notes:请注意,总体的均值一般很难直接获取。本例计算总体的均值是为了将总体参数和样本做比较,以便你更深入地理解点估计。
(2)从总体中随机抽取100名员工组成样本(使用P ...
第7章 统计学入门
第7章 统计学入门[toc]
7.1 什么是统计学为了回答什么是统计学,我们先要弄清楚为什么我们需要统计学。统计学的目的是对我们所处的现实世界进行解释和建模。为了做到这一点,我们需要了解总体(population)的概念。
我们将“总体”定义为某类试验、事件或模型的全体。通常情况下,“总体”是我们真正研究的对象。比如,如果我们想了解吸烟是否会导致心脏病,那么“总体”就是全世界吸烟的人群。如果我们想研究未成年人饮酒问题,那么“总体”就是所有的未成年人。
我们将“参数(parameter)”定义为描述总体某一特征的度量(数值型)。比如我们想知道所有员工(假设有1000人)中使用了违禁药品的人的比例,这个问题的结果就被称为参数。
假设我们经调查发现,1000名员工中有100人使用了违禁药品,那么违禁药品使用率等于10%,参数值就等于10%。
然而,如果员工数量超过10000人呢?我们很难追踪每一位员工的违禁药品使用情况。当遇到这种情况时,我们已经不可能直接求解参数,而只能对参数值进行估计。
为了估计参数值,我们需要从总体中抽取样本(sample)。
我们将“样本”定义为总体的子集。我们可能只 ...
第6章 高等概率论
第6章 高等概率论[toc]
6.1 互补事件对于包含两个事件以上的事件集,如果事件集中至少有一个事件发生,我们称这些事件为互补事件。比如:
对于事件集{温度低于60℃,温度高于90℃},这些事件不是互补事件,因为温度有可能介于60℃和90℃之间。事实上,这两个事件是互斥事件(mutually exhaustive),因为温度不可能同时低于60℃、高于90℃。
掷骰子事件集{1,2,3,4,5,6}是互补事件,因为这些事件是所有骰子可能出现的点数骰子点数肯定是其中之一。
6.2 重温贝叶斯思想简单来说,当我们讨论贝叶斯时,我们关注以下3个事情和它们之间的关系:
先验分布(prior distribution)
后验分布(posterior distribution)
似然度(likelihood)
通常来讲,我们更关心后验分布,因为它是我们想知道的答案。
另一种理解贝叶斯思想的方法是,数据会影响我们的判断。我们有一个先验概率,或者有一个关于假设朴素的想法,然后根据历史数据,得出该假设的后验概率。
6.2.1 贝叶斯定理贝叶斯定理是贝叶斯推理的重要结果。下面我们将介绍它的推导过程 ...
第5章 概率论入门:不可能,还是不太可能
第5章 概率论入门:不可能,还是不太可能[toc]
在接下来的几个章节中,我们将研究概率论和统计学,它们是现实世界中各种分析场景和数据驱动情景最常用的方法。概率论是预测的基础。我们用概率表示事件发生的可能性。通过概率论,我们能够对现实世界中某些随机性或偶发性事件进行建模。
5.1 基本的定义概率论最基础的概念之一是过程(procedure)。过程指产生某个结果的行动。比如,掷骰子和访问网站。
事件(event)是某个过程产生的一系列结果的合集。比如,掷硬币得到正面朝上的结果或在网站停留4秒后离开。简单事件(simple event)指由某个过程产生的不可再分的事件。比如,掷两次骰子可以被拆分为以下两个简单事件:掷第1次骰子,掷第2次骰子。
样本空间(sample space)指某个过程产生的所有可能的简单事件的集合。比如,连续掷3次硬币,请问样本空间大小是多少?答案是8。因为实验结果只能是以下样本空间中的任何一个:{正正正,正正反,正反反,正反正,反反反,反反正,反正正,反正反}。
5.2 概率事件的概率(probability)指事件出现的频率或可能性,A表示事件,P(A)表示事件发 ...
第4章 基本的数学知识
第4章 基本的数学知识[toc]
4.2.1 向量和矩阵向量(vector)指既有大小又有方向的对象。对我们而言,向量是用来表示一系列数字的一维数组。换句话说,向量是一个由数字构成的列表。
向量通常用箭头或者粗体字表示,如下所示:
$\vec{x}$ 或 x
向量可以被拆分为更小粒度,即向量中包含的数字。我们用索引标示法表示向量中的元素,如下所示:
当$\vec{x}$ =$$\left(\begin{matrix}3 \6 \8\end{matrix}\right) \tag{1}$$时,$x_1$=3
在数学中,我们通常用索引1表示第1个元素。计算机程序则通常用索引0表示第1个元素
在Python中,我们有多种方式表示数组。例如可以用Python的列表表示前面的数组:
1x=[3,6,8]
然而,我建议最好用numpy中的数组类型表示数组,因为它能提供更多的向量运算功能。
12import numpy as npx=np.array([3,6,8])
不管在Python中以何种方式表示向量,向量都为我们提供了一种存储多维单一数据点或观察值的简单方法。
假设我们用0~100 ...
第3章 数据科学的5个步骤
第3章 数据科学的5个步骤[toc]
3.1 数据科学简介数据科学严格遵循结构化、一步一步的操作过程,保证了分析结果的可靠性。
3.2 5个步骤概览
提出有意思的问题
获取数据
探索数据
数据建模
可视化和分享结果
3.2.1 提出有意思的问题你可能想到一个问题,然后自言自语说:“我打赌没有这样的数据可以帮到我们!”然后就将它从问题列表里删除。千万不要这样做,把它留在你的问题列表中!
3.2.2 获取数据一旦你确定了需要关注的问题,接下来就需要全力收集回答上述问题所需要的数据。正如之前所说,数据可能来自多个数据源,所以这一步非常具有挑战性。
3.2.3 探索数据一旦得到数据,我们将使用第2章学习的知识,将数据归类到不同的数据类型。这是数据科学5个步骤中最关键的一步。当这一步骤完成时,分析师通常已经花费了数个小时学习相关的领域知识,利用代码或其他工具处理和探索数据,对数据蕴含的价值有了更好的认识。
3.2.4 数据建模这一步涉及统计学和机器学习模型的应用。我们不仅仅选择模型,还通过在模型中植入数学指标,对模型效果进行评价。
3.2.5 可视化和分享结果毫无疑问,可视化和分享结果是最 ...
第2章 数据的类型
第2章 数据的类型[toc]
本章我们介绍数据的类型,主要包含以下主题:
结构化数据(structured data)和非结构化数据(unstructured data)
定量数据(quantitative data)和定性数据(qualitative data)
数据的4个尺度
2.2 为什么要进行区分
2.3 结构化数据和非结构化数据我们拿到数据集后,想知道的第一件事情就是数据集是结构化还是非结构化。
**结构化数据(structured data)**:指特征和观察值以表格形式存储(行列结构)
**非结构化数据(unstructured data)**:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构
以下几个例子可以帮助我们更好地理解两者的区别。
大部分文本格式数据都是非结构化数据,比如服务器日志、Facebook帖子等。
科学家严格记录的科学实验观察值,以极其有序和结构化的格式存储,属于结构化数据。
化学核苷酸的基因序列(比如ACGTATTGGCA)是非结构化数据。虽然核苷酸有其独特的顺序,但我们暂时还不能以行列结构表示整体的顺序。
通常情况下 ...
第1章 如何听起来像数据科学家
第1章 如何听起来像数据科学家[toc]
我们拥有如此多的数据,而且正在生产更多数据,我们甚至创造了很多疯狂的小机器24×7不间断的收集数据,在21世纪,我们面对的真正问题是如何搞懂这些数据。
数据就在那里,总有一些对我们有价值的!肯定有!
我们要从数据中探寻洞察和知识。
1.1.1 基本的专业术语当使用**数据(data)这个词时,我们指的是以有组织(organized)和无组织(unorganized)**格式聚集在一起的信息。
**有组织数据(organized data):指以行列结构分类存储的数据,每一行代表一个观测对象(observation),每一列代表一个观测特征(characteristic)**。
**无组织数据(unorganized data)**:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
数据科学是关于如何处理数据、获取知识,并用知识完成以下任务的过程:
决策
预测未来
理解过去或现在
创造新产业或新产品
1.1.3 案例:西格玛公司今天,许多严重依靠直觉的CEO希望快速做出决定,并尝试所有 ...
基于Hexo+Github搭建个人博客
基于Hexo+Github搭建个人博客[toc]
视频参考:
[【2022最新版】保姆级Hexo+github搭建个人博客并绑定自己的域名](https://www.bilibili.com/video/BV1NY4y1C7Ng/?share_source=copy_web&vd_source=9ad882ef81c9b1d3cfabb547c13d4168https://wushishu.xyz/post/be8880ea.html)
手把手带你从0搭建个人网站,小白可懂的保姆级教程 | 2种方法让你拥有个人博客,程序员自学编程必备
超详细的个人博客搭建教程(无需服务器)- 从原理到实践手把手带你搭建属于自己的个人博客
本篇博客以第一个视频为主要参考。
博客参考:
Hexo+github搭建个人博客
基于hexo搭建的个人博客
个人博客搭建教程
1.1.1 安装并配置Node.js教程:nodejs安装和环境配置-Windows
按照教程配置完成后,在命令提示符里输入以下内容进行测试:
12node -vnpm -v
1.1.2 安装并配置Git教程:Git 详 ...
Hello World!This is a test.测试一下
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo server
More info: Server
Generate static files1$ hexo generate
More info: Generating
Deploy to remote sites1$ hexo deploy
More info: Deployment