爱吱声 › 标签 › 数理化

标签: 数理化

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

分享我们学过的数理化——解释潮汐: 热度 3 code_abc 2012-3-18 16:02; 一个晴朗的夜晚，海边，两父子在沙滩上散步。一轮明月正从东边慢慢升起，同时晚潮也开始涌向沙滩，渐渐磨去父子俩留下脚印。孩子突然问父亲：“爸爸，爸爸，为什么我们有时把潮水叫做潮汐？汐是什么？” “潮和汐其实是一回事，都是指海水涨上来，古人说，昼涨称潮，夜涨称汐。你看潮字就是朝（第一声）字加了三点水，而汐就是夕字加三点水。实际上指的都是潮水，不过一次在早上，一次在晚上而已”。父亲微笑着向好奇的儿子解释，同时暗暗庆幸自己对说文解字有那么一手。 “爸爸，爸爸，那么海水为什么会涨起来呢？” “哦，你看潮水都是随着月亮升起来而涨的，实际上就是月亮对地球海水的吸引力造成的，月亮在我们这边，我们这边的海水就涨起来了。在学校老师不是告诉你们有万有引力这回事吗？这就是引力的一个例子。”，父亲心想好在我这个文科生也知道万有引力。嘿嘿。 “我知道，月亮绕着地球转就是地球吸引着月亮的结果。” “嗯，聪明。” “哎！不对！潮水一天有两次，其中一次月亮不在我们这边啊，这是怎么回事呢？” “........哦，晚上有点凉了，我们回去吧，妈妈在家里等我们呢，对了，你今天的作业做好了吗？我要检查！” 随着孩子逐渐成长，总有超过父亲的时候。难倒父亲的机会将越来越大，不过被简单的日常现象难倒却不是一件值得骄傲的事情，至少不是一件愉快的事。潮汐的确是由于月亮的引力引起的（实际上太阳的引力也有贡献），不过不是简单的吸引就可以解释。由于地球有一定的体积，因此月亮对地球每一点的引力在大小和方向上都不一样，具体的，在两翼的引力有一个向内的夹角。而靠近月亮那端的引力又比远离月亮那端要大。综合起来这些力除了构成一个向心力之外还在两翼有挤压力，以及在轴线上有拉伸力。这样就产生了潮汐。而且是一次就产生两个高潮和两个低潮。所以潮汐一天有两次。具体的潮汐力计算需要用到非惯性参考系的知识，已经超出了高中物理的要求了。解释一天为什么有两次潮汐也许真的超过了一个本科毕业文科生的能力，即使是理科生，如果把大学物理当作一门功课来学，也可能在十多年后再次被以前的习题难倒。有人会说这些知识，孩子迟早也会学到，而且我们学数理化并不是为了在孩子面前炫耀知识。OK，我承认这些理由白分之百正确。实际上除非在专门的研究机构工作，我们学过的大部分数理化知识，在日常也都没什么实际用途。不过，我真不希望上面的对话在我孩子当父亲或母亲的时候再次重复。也许我们的创造力就在这种得过且过的态度中逐代消磨。所有的发明，发现都是建立在前人的基础上，也就是站在巨人的肩膀上。也许我们不是巨人，但别在巨人的肩膀上滑落。; 个人分类: 轻科普|697 次阅读|4 个评论

分享我们学过的数理化——如何计算带宽需求: 热度 10 code_abc 2012-3-18 10:38; 我们搞一个视频点播站，三个月后期望能做到平均有100用户在线，每个用户需要300k BPS的带宽。请问我们网站的带宽需求是多少？这类问题我们经常被问到，许多人都会简单地做一下乘法然后交卷——我们需要100x300k=30M的带宽。太简单了，这是个小学生都会计算，然而大部分只使用小学生知识做规划的设计人员最后都会被市场部的人骂得狗血淋头。因为平均在线用户数量达到的时候有近一半的用户投诉视频卡得无法忍受。哪里出了问题呢？如果我们学过的概率知识没全部忘记的话，我们立刻会想到当平均在线用户是100的时候，大部分时候在线用户数会超过100。不过到底会超多少就需要我们把课本重新翻出来仔细看看了。这个问题其实是一个简单的概率分布问题，我们需要知道每种在线用户数量出现的概率，然后定一个合理的指标，确保大部分情况下我们的带宽可以满足要求。在我们的概率论课本中有两种概率分布可以帮忙，一个是正态分布，另一个是泊松分布。一般来说特定时间内在线用户数满足两种分布中的一种。个人喜欢使用泊松分布。自然界许多随机事件符合泊松分布，比如呼叫中心同一时间接到的呼叫次数，银行窗口排队的人数等等，和我们的需求十分吻合。另一个好处是这种分布函数只依赖于一个参数，即随机变量的平均值。在我们这个例子里随机变量就是在线用户数，平均值已经给出，所以我们可以很方便地计算出在线用户小于等于某个数值时的概率。这个公式在Excel里面就有了，在Excel的公式向导中的统计类中找出Poisson，在平均值处输入100，在累计处输入 True，然后在X处输入一个值，你就能得到平均值为100时，在线用户数小于或等于X的概率。你会发现在线用户小于或等于100的概率其实只有 52.7%，当我们把X调整为120的时候概率才增加到97.7%，所以如果你期望用户投诉概率小于3%的话带宽需求必须是120x300K = 36M。接下来的问题是，我们怎么确定在线用户的数量符合这个分布。两个方法：一是建立模型然后计算，另一个方法是进行实地测量。在这里我们一般会选择第二种方法，因为准确的模型很不好建立。然而验证实际情况是否符合泊松分布同样需要用到我们概率论的知识。某些情况下会非常复杂，具体到这个情况的话我一般需要简单判断一下方差是否和平均值相同即可，因为经验告诉我不是泊松分布就是正态分布。正态分布的分析方法和泊松相同，不过正态分布计算还需要一个标准差的参数，这个参数在这个例子必须实地测量。也就是必须在运营一段时间之后才能得到。我知道很多网管在处理这些问题大多是先用小学知识预估，然后再实际工作中不断地分析日志调整。整个过程从来不需要用到超过小学的知识，这些网管一般也活得挺好。然而，如果你能运用上这些知识，你很可能变成一个可以预知未来的巫师。你也将从一个普通的网管升级成为架构师。 “学而时习之，不亦乐乎” 信然！ …… …… 厄哦，谁把仓井空的AV放上来了！抱歉，这次堵塞无法用概率解释！; 个人分类: 轻科普|954 次阅读|2 个评论

分享我们学过的数理化——为什么要测量多次: 热度 5 code_abc 2012-3-18 10:35; 记得学生年代做实验的时候，实验手册总会要求我们对同一个量进行多次测量，然后取平均值，这也许是我们在实验中做得最慢不经心的动作了。我们知道这样可以消除误差，大部分人都简单地认为多次测量后误差可以相互抵消，所以就这么做了。这又是小学水平的想法。我们在大学学过的东西经常就是在这些不经意的想当然中被当作无用的垃圾遗忘，甚至都不知道自己错过了什么。多次测量取平均值这个手段其实隐含着概率论一个很重要的定理——中心极限定理。这条定理推出的一个简单结论就是多次测量取平均值可以提高测量的准确度，更准确地说是减少测量出现大误差的概率。很有意思的是一个小学水平都能理解的动作居然需要一个这么复杂的定理来解释。真是吃饱了撑的，然而如果我们钻牛角尖的学生问：为什么要重复测量10次？想偷懒的工人问少测5次行不行？不服气的手下问：你怎么肯定重复测量10次比重复测量5次准确度会高，到底高多少？你能回答吗？中心极限定理告诉我们多个独立的同分布的随机变量之和的分布趋向正态分布。而且如果我们知道这些随机变量的均值和方差，我们还可以把这些随机变量之和（也是一个随机变量）的分布转化成标准正态分布。我们的测量由于存在各种不确定的干扰总会有一定的起伏，我们可以把测量值看成是一个确定的真实值和一个随机误差之和，由于我们不知道这个随机误差的分布，所以无法用简单的概率分布确认测量值准确性的概率。但是多次测量之后这些随机误差之和（均值也一样）会趋向于正态分布，这时候我们就可以计算出测量值偏离实际值的区间以及相对的概率——统计术语叫置信区间！也就是说我们可以说这些经过若干次数的测量之后，测量值偏离真实值5%的概率是多少，偏离10%的概率是多少。这些指标和测量次数是相关的，也就是说反过来如果我们要求测量误差在5%以内的概率是 99%以上的话，根据中心极限定理我们可以计算出满足这个需求的测量次数！在这里有一个问题就是随机误差的方差我们一开始是不知道的，不过通过多次测量一个已知量后我们可以实测数据估算。注意中心极限定理的一个前提——要求这些随机变量是独立和同分布的，一般来说同分布在进行相同测量时基本是保证的。独立的要求则一般和测量操作有关，比方说我们用螺旋测微器测量长度时，测量一次之后必须松开测微器，换个地方再测就是确保两次测量之间的独立性。而我想许多工作手册中对测量操作的需求也会包含类似的需求，所以掌握这个定理可以让我们明白一些规章制度是怎么来的，进一步的我们可以根据实际情况改变操作的方法，这样我们就有机会从一个普通的操作人员升到更高的位置。也许大家会发现我很喜欢“秀”概率知识，的确，概率是一门很有意思的数学。更主要的是概率也许是我们在日常工作中用到的最多的数学了。事实上，在科学发达技术进步的今天人们也有许多无法解释的事情，这些无法解释的东西以前我们把它们归结为神明的意志，而现在我们把它们当作随机变量来处理，用概率知识来分析。由于我们总逃不出概率的手掌心，我也乐意继续写写概率的内容。; 个人分类: 轻科普|1028 次阅读|0 个评论

更多...

		自动登录	找回密码
密码			注册

标签: 数理化

相关帖子

相关日志