设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 4085|回复: 18
打印 上一主题 下一主题

独角兽的统计小抄

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2019-11-20 14:35:22 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
煮酒师兄的一个帖子掀起了热烈的讨论我也从中学习了不少,更重要的是发现自己知识中的一个漏洞。于是回过头去看看自己是怎么学习的。再温故知新一下。这里就抛一个去年曾经用一个小时给一个想学data science 的本科生讲统计时我自己写的两张纸。我想我应该再稍微修改一下,然后再加一张纸来总结一些应用方面的点。就在这里给自己留个作业吧。





评分

参与人数 7爱元 +28 收起 理由
煮酒正熟 + 6
希宝 + 4
黑洞的颜色 + 4
tanis + 2
testjhy + 6

查看全部评分

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 1722 天

    [LV.Master]无

    沙发
    发表于 2019-11-20 17:48:48 | 只看该作者
    收藏了,下次考试用得上。

    点评

    不求甚解版cheat sheet。考试不一定好用啊。  发表于 2019-11-21 15:46
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 1722 天

    [LV.Master]无

    板凳
    发表于 2019-11-20 17:55:20 | 只看该作者
    我觉得在谈论总体的时候可以用“数学期望”代替“平均”的说法,这样方差就是E(X^2)-E^2(X)了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 2954 天

    [LV.Master]无

    地板
    发表于 2019-11-20 21:09:51 | 只看该作者
    你觉得那个本科生搞明白真值和平均值的区别了么?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
    发表于 2019-11-20 22:52:48 | 只看该作者
    还好再也不用考试了!自由万岁!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 3281 天

    [LV.Master]无

    6#
    发表于 2019-11-20 23:39:56 | 只看该作者

    点评

    油墨: 5.0 油菜: 5.0
    给力: 5.0 涨姿势: 5.0
    油墨: 5 给力: 5 涨姿势: 5
      发表于 2019-11-22 12:40
    油墨: 5 油菜: 5
      发表于 2019-11-21 19:09
    满脸麻子好可怜  发表于 2019-11-21 15:51
    给力: 5 涨姿势: 5
      发表于 2019-11-21 09:55
    油墨: 5 油菜: 5 给力: 5
      发表于 2019-11-21 01:04

    评分

    参与人数 2爱元 +12 收起 理由
    云淡风轻 + 8
    希宝 + 4 油菜

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    4 天前
  • 签到天数: 2152 天

    [LV.Master]无

    7#
    发表于 2019-11-21 00:13:42 | 只看该作者
    上学时候当年有一门课是review 各种已经发表的journal article,review工科博士们的paper的时候基本上从统计方法应用上找可以找到一半用了错误的统计方法。记得有个非统计专业工科生最常犯的错误就是A/B test里面用t-test代替proportion test。

    点评

    您也说是如果啦O(∩_∩)O  发表于 2019-11-21 23:27
    A/B testing 如果结果是连续值用t测试没问题啊  发表于 2019-11-21 22:34

    评分

    参与人数 1爱元 +2 收起 理由
    tanis + 2 给力

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
     楼主| 发表于 2019-11-21 15:51:17 | 只看该作者
    数值分析 发表于 2019-11-20 17:55
    我觉得在谈论总体的时候可以用“数学期望”代替“平均”的说法,这样方差就是E(X^2)-E^2(X)了。 ...

    中文会说期望和平均值,但是英文都可以用mean 说明。感觉average有点low,我们还不知道期望这个概念的时候就知道平均值,所以比较熟,正好对应average。而期望当然还可以用E表示。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2019-11-21 15:54:08 | 只看该作者
    pcb 发表于 2019-11-20 21:09
    你觉得那个本科生搞明白真值和平均值的区别了么?

    我是开始就强调了population 和sample的区别和联系了,不然小抄也不会那么写。至于学生有没有get到,那我就管不了了。修行在个人。她上过统计课,但是对这些知识的把握还一头雾水,不是啥学霸型的。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2022-6-19 00:00
  • 签到天数: 2264 天

    [LV.Master]无

    10#
    发表于 2019-11-22 13:00:32 | 只看该作者
    独角兽 发表于 2019-11-21 02:51
    中文会说期望和平均值,但是英文都可以用mean 说明。感觉average有点low,我们还不知道期望这个概念的时 ...

    mean, average, expected value 的关系

    首先,mean and average 的含义完全一样。可以说在含义上没有一丝一毫的差别。注意,我是说在概念上,在含义上,完全无差别

    碳素在应用中有一点点差别:
    1. average 是个layman term,口语化,而mean只有统计学家或者不是统计学家碳素想装大以巴狼的货们才会用
    2. 一些programming language会有不同的处理。如果你的数据里有 missing value,那么mean会完全无视这个数据,而只用有价值的数据来计算平均值,但average会把missing value视作0。所以我在写SQL的时候会精准地告诉SQL exactly what I want:
    select sum(case when age is not null then age end)/count(distinct case when age is not null then member_id end) as average_age
    --------------------------------

    废话说完,下面讲重要的废话 ---
    expected value 和 mean 是两个不同的概念。这一点一定要闹清楚

    mean 就是一个数学计算出来的结果
    expected value 是我们想对一个数据集的某个特征做一个最中庸的认知和描述。通常情况下我们用 mean 来作为expected value

    不能因为我们认为地设定 expected value = mean,就说这俩是一码事
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2019-11-22 16:30:13 | 只看该作者
    煮酒正熟 发表于 2019-11-22 13:00
    mean, average, expected value 的关系

    首先,mean and average 的含义完全一样。可以说在含义上没有一 ...

    是哦,我一直把population的mean想成期望,把sample 的mean叫均值。觉得均值是一个个数据算出来的,期望是估出来的。其实算概率的时候用期望(E)用得多。
    average果然low,哈哈。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2024-11-22 07:40 , Processed in 0.046259 second(s), 27 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表