爱吱声

标题: 问题：如何从数据里估算普瓦松分布的均值？ [打印本页]

作者: 晨枫 时间: 2019-2-4 11:38
标题: 问题：如何从数据里估算普瓦松分布的均值？
本帖最后由晨枫于 2019-2-3 22:42 编辑

一般估算均值是简单的算术平均，但我的问题比较特别，其实都不是统计问题。

是这样的，我有一个吸收塔，从塔顶到塔底有一个温度分布，形状大体像普瓦松分布：

我要估算峰值出现在哪块塔板，所以想到用统计的办法。实际上，统计里这是概率密度，曲线高低代表在这一点的采样“数量”，但我在每一个点只有一个数据点。说到底，我就是要拟合一个“钟形曲线”，然后找峰值所在点。相当于上图中红线（或者lambda=2）里横轴1-2之间的位置。

正态分布有现成的计算办法，但这样的“扭曲正态分布”或者普瓦松分布有什么简单办法吗？我需要能在DCS上实现，所以不能用太复杂的离线算法。

爱坛里博士多如狗，教授满地走，想象起来，或许有谁在工作中碰到过类似的问题？

作者: 晨枫 时间: 2019-2-4 12:30
没人理我？都在忙着吃年夜饭？

@煮酒正熟 @holycow @tanis @关中农民 @老马丁 @Dracula

作者: holycow 时间: 2019-2-4 12:43
泊松分布？我还是没理解你釆样拿到了哪些数据点

作者: 松叶牡丹 时间: 2019-2-4 12:45
没怎么看明白题目，您是说已知y值，要求对应正态分布？

作者: 晨枫 时间: 2019-2-4 12:46

holycow 发表于 2019-2-3 22:43) H A7 S. t/ r2 e$ ]. w7 B
泊松分布？我还是没理解你釆样拿到了哪些数据点

是我描述得不好。再来一遍。

我有一条样子像泊松分布的温度分布曲线，但只有几个稀疏的点，想用类似泊松分布的曲线内插，然后计算峰值所在的横坐标点。

这要用于在线计算，不能搞非线性最小二乘之类的复杂算法。

怎么弄？

作者: 晨枫 时间: 2019-2-4 12:47
本帖最后由晨枫于 2019-2-3 22:48 编辑

松叶牡丹发表于 2019-2-3 22:45
) e/ C2 T% {8 a. y+ t没怎么看明白题目，您是说已知y值，要求对应正态分布？

抱歉抱歉，差不多就是这个意思，不过不是传统的对称正态分布，而是歪向一边的skewed normal distribution，请见5楼，不知道是否描述清楚一点？

作者: 晨枫 时间: 2019-2-4 12:50

松叶牡丹发表于 2019-2-3 22:45( m H% l4 N* S! m* L
没怎么看明白题目，您是说已知y值，要求对应正态分布？

如果太麻烦，最后可能也就用对称的正态分布近似了。反正都是近似……

作者: 松叶牡丹 时间: 2019-2-4 12:52

晨枫发表于 2019-2-4 12:50
5 {1 e* C) {# C* c如果太麻烦，最后可能也就用对称的正态分布近似了。反正都是近似…… ...

如果精度不要求很高的话，不知道查表法的精度能不能达到要求。那个倒是最快。

作者: 煮酒正熟 时间: 2019-2-4 12:58
统计学我只明白最最基本的，泊松分布也理解不深。问几个傻问题吧：一共多少块塔板？为什么每块塔板只能取到一个data point? 我猜是取样也有成本问题？那样儿的话，您知不知道每块板上的随机取样，与这块板的温度峰值是不是最接近、比其他板的随机取样更接近本板的峰值？

作者: 晨枫 时间: 2019-2-4 12:59

松叶牡丹发表于 2019-2-3 22:52
/ k# @& F( e+ ^. m+ H2 z3 Q2 p如果精度不要求很高的话，不知道查表法的精度能不能达到要求。那个倒是最快。 ...

查表再内插，这要做成在线计算还是有点麻烦了？

作者: tanis 时间: 2019-2-4 13:00

晨枫发表于 2019-2-4 12:46% }, i3 {/ [: x4 F7 S' e1 ?
是我描述得不好。再来一遍。
& N0 R+ ]$ f8 M) ]- p8 O3 z0 o- e+ t6 C9 o7 d' r% m/ S
我有一条样子像泊松分布的温度分布曲线，但只有几个稀疏的点，想用类似泊松 ...

原来是泊松分布。。。惭愧，连最小二乘法都属于复杂算法了。。。还真不知道有什么其他的简便方法。这一块早已经还给老师。。。现在计算能力强大，集成性高，一般直接一个pasfit之类的函数就解决问题了。。。哈哈哈

作者: 松叶牡丹 时间: 2019-2-4 13:00
本帖最后由松叶牡丹于 2019-2-4 13:06 编辑

做成在线计算器，那就不能查表了，反而太麻烦。坐等观摩高手们过招。

作者: 晨枫 时间: 2019-2-4 13:03

煮酒正熟发表于 2019-2-3 22:58
9 A" ^( L1 A( W6 P: `% Y3 o4 r% w- h: ^统计学我只明白最最基本的，泊松分布也理解不深。问几个傻问题吧：一共多少块塔板？为什么每块塔板只能取到 ...

咳咳，这个其实不是统计问题，是从有限的温度测量估计温度分布曲线的问题。吸收塔一共20块塔板，每块塔板只有一个温度测量点，连续测量（每15秒采样一次）。

这温度分布随工艺条件而变，所以这个峰值和凸起一直在动来动去。目视很容易看出峰值在那里，但要用数值办法实时确定，反而犯难了。

作者: 晨枫 时间: 2019-2-4 13:06

tanis 发表于 2019-2-3 23:00
A5 y$ @7 r: s! |( d$ i4 ~原来是泊松分布。。。惭愧，连最小二乘法都属于复杂算法了。。。还真不知道有什么其他的简便方法。这一 ...

切，我有那东西，还费这个事吗？Matlab、Maple，什么不能上啊！问题是我需要在线计算，而且只有FORTRAN一级的语言从头现编，还不能太耗费CPU时间，耽误了实时控制就偷鸡不成蚀把米了。

作者: 晨枫 时间: 2019-2-4 13:06

松叶牡丹发表于 2019-2-3 23:00; j& L# N1 ?! Q. N. z7 r; o( f
做成在线计算器，那就不能查表了，反而太麻烦。坐等观摩高手们过招。

估计吃完年夜饭，就该忙着数红包了。

作者: tanis 时间: 2019-2-4 13:09

晨枫发表于 2019-2-4 13:03
9 E4 h& @6 w% s; `" C- M/ X咳咳，这个其实不是统计问题，是从有限的温度测量估计温度分布曲线的问题。吸收塔一共20块塔板，每块塔板 ...

目视是指看数据点脑补么？所以一共20个数据点（塔板），然后最高温度可能在点之间？ 15s一次，速度很慢啊，为啥不能离线算？系统太古老了？

如果是系统太老无法整合还有个鬼畜方法。。。既然肉眼能看到每个点在哪里，可以用电脑拍照把图截下来，然后从图像里把点的值拿到，接着在电脑里拟合。

作者: tanis 时间: 2019-2-4 13:12

晨枫发表于 2019-2-4 13:06
4 b) q; U! a5 y8 d1 e7 d切，我有那东西，还费这个事吗？Matlab、Maple，什么不能上啊！问题是我需要在线计算，而且只有FORTRAN一 ...

找温度第二，第三高的两个点，拟合个直线，取中间的那个位置

作者: 松叶牡丹 时间: 2019-2-4 13:12

晨枫发表于 2019-2-4 13:06$ G+ m6 m9 M2 s5 q: [! x
切，我有那东西，还费这个事吗？Matlab、Maple，什么不能上啊！问题是我需要在线计算，而且只有FORTRAN一 ...

您是说每块塔板都是15秒测量一次，所以每15秒要同时给出20个塔板的20个正态分布式子？

作者: 晨枫 时间: 2019-2-4 13:18

tanis 发表于 2019-2-3 23:09
. Z" @' j- t& g7 D! E( Z" l目视是指看数据点脑补么？所以一共20个数据点（塔板），然后最高温度可能在点之间？ 15s一次，速度很慢 ...

正是：看数据点然后脑补。人工就是这么干的。但操作工要照管的事情太多，一会儿不看，可能就错过了，就可能坏事。

化工上DCS的采样分基本回路和先进回路，前者一般每秒一次，甚至1/4秒一次，后者每15、30、60秒一次就够了。过程时间常数动辄几十分钟，太快的采样没必要。另一方面，CPU的速度（还是Morotola 68040）和网络带宽（4 megabits 烹per second）有限，不宜太快，还要扫描几百、几千个回路，不宜太快。安全连锁回路更快，在毫秒级，但那不用作连续控制，两回事。

工控级的CPU和网络都用特别成熟（翻译：特别古老）的技术，和实验室、离线是两回事。

在线计算是因为我要把这个峰值点用到控制回路里。拍照、图像识别、离线拟合，这绕的弯子太大，中间节点太多，可靠性根本靠不住，哪里打一个嗝，就可能造成process upset，就是几十万、上百万的损失，那就划不来了。

作者: 晨枫 时间: 2019-2-4 13:21

松叶牡丹发表于 2019-2-3 23:125 @1 \/ E- y- i" U2 ?+ ^
您是说每块塔板都是15秒测量一次，所以每15秒要同时给出20个塔板的20个正态分布式子？ ...

每15秒要对20块塔板的温度拟合一条样子像正态分布的曲线。15秒只是计算间隔，每次实际计算其实只有毫秒级的窗口，因为同一个CPU还要分时管好多别的事呢。

作者: 松叶牡丹 时间: 2019-2-4 13:21
本帖最后由松叶牡丹于 2019-2-4 13:23 编辑

晨枫发表于 2019-2-4 13:18
0 P e y$ f; A7 Z$ z) n& U正是：看数据点然后脑补。人工就是这么干的。但操作工要照管的事情太多，一会儿不看，可能就错过了，就可 ...

降低精度，把一系列正态分布离散化为有限几个histogram，每次测试点先第一步进行范围判断，然后归到不同的histogram里面。再反向把histogram变换为对应的大致正态分布，这样可行吗？

作者: 晨枫 时间: 2019-2-4 13:23

tanis 发表于 2019-2-3 23:12
$ x2 t* O, d% F8 ~找温度第二，第三高的两个点，拟合个直线，取中间的那个位置

塔板是等间距分布的，这样我还不如直接取温度最高的那一块了

作者: tanis 时间: 2019-2-4 13:27

晨枫发表于 2019-2-4 13:23
! X0 C: [# k; i# N- V塔板是等间距分布的，这样我还不如直接取温度最高的那一块了

哦哦。。。那就取最高和第二个的中间位置

有人工干预的时候就用人工，人忘了看就用这个。。。

作者: 晨枫 时间: 2019-2-4 13:28

松叶牡丹发表于 2019-2-3 23:21" t6 [8 S9 V- v( _. {# |5 ]- c
降低精度，把一系列正态分布离散化为有限几个histogram，每次测试点先第一步进行范围判断，然后归到不同 ...

一把抓住：我的问题正是从histogram变换为某种分布，最想poison分布或者log normal distribution，不行的话正态分布也行。有什么现成的计算方法吗?

作者: 晨枫 时间: 2019-2-4 13:29

tanis 发表于 2019-2-3 23:27
3 M6 N0 |4 w$ ]; [, {! q* j# h( J哦哦。。。那就取最高和第二个的中间位置有人工干预的时候就用人工，人忘了看就用这个。。。 ...

这也是个办法，总是有点“心有不甘”……

作者: 晨枫 时间: 2019-2-4 13:33

松叶牡丹发表于 2019-2-3 23:213 u$ P% O/ A9 K* D
降低精度，把一系列正态分布离散化为有限几个histogram，每次测试点先第一步进行范围判断，然后归到不同 ...

唉，MATLAB里有histfit命令，干的正是我要的，可惜没法“偷”过来用啊

作者: 松叶牡丹 时间: 2019-2-4 13:36

晨枫发表于 2019-2-4 13:33
- x D0 T$ g9 d @% Q唉，MATLAB里有histfit命令，干的正是我要的，可惜没法“偷”过来用啊

完全不会FORTRAN

，这样啊，要不就得自己写算法了？

作者: tanis 时间: 2019-2-4 13:37

晨枫发表于 2019-2-4 13:337 C1 X7 H) _/ c% F3 c
唉，MATLAB里有histfit命令，干的正是我要的，可惜没法“偷”过来用啊

Matlab 直接有poissfit啊。。。

我感觉人类脑补的水平估计和取中值也差不了多少了

既然连忘了看也只是可能出问题，我脚的中值差不多

）（缺乏工匠精神的我。。。）

作者: 晨枫 时间: 2019-2-4 13:40

tanis 发表于 2019-2-3 23:378 m& d# ]3 j# l/ P4 }
Matlab 直接有poissfit啊。。。
2 v+ t3 j. u' \/ x) V7 Q
! S% u+ |) C1 M3 F! y7 S0 M我感觉人类脑补的水平估计和取中值也差不了多少了既然连忘了看也 ...

问题是我没法把MATLAB装进DCS里用啊。嗯，如果不行的话，可能也只能内插取中值了。

作者: 松叶牡丹 时间: 2019-2-4 13:41
您这个采样数据如果有之前很长时间的大批量数据的话，要不选一部分建模，建立比如10个distribution式子，用剩下数据validate，看看是不是符合六西格玛质量控制要求？如果不行就提高精度，设20，30或者更多式子？我这是笨办法。

作者: 晨枫 时间: 2019-2-4 13:43

松叶牡丹发表于 2019-2-3 23:41
. n) [4 S* l C$ J. k; O- `/ a您这个采样数据如果有之前很长时间的大批量数据的话，要不选一部分建模，建立比如10个distribution式子，用 ...

这个好像不行？我需要的是实时估计当前的峰值点，历史数据能帮什么忙呢？

作者: gnomegordon 时间: 2019-2-4 13:55
如果问题是拟合若干点的光滑曲线找到最大值，kernel density 就好，matlab里的histfit 也是基于这个算法。fortran里面library浩若烟海，查查肯定能找到。速度绝对够快，不需要POISSON 假设。

试着搜一下，这个fortran code 试试？： https://ideas.repec.org/c/boc/bocode/g00004.html

作者: 松叶牡丹 时间: 2019-2-4 14:07

晨枫发表于 2019-2-4 13:43. k# f, H! b8 v
这个好像不行？我需要的是实时估计当前的峰值点，历史数据能帮什么忙呢？ ...

历史数据建模自己写算法做验证用。不过如果可以像楼上那位说的可以找到现成library调用，kernel density estimation和 guassian mixture model应该都可以。

作者: 晨枫 时间: 2019-2-4 14:16

gnomegordon 发表于 2019-2-3 23:55
5 [3 W C4 a' B2 L$ c* c0 ?% u" |如果问题是拟合若干点的光滑曲线找到最大值，kernel density 就好，matlab里的histfit 也是基于这个算法。 ...

十分感谢！打开看到的是SRC文件，还在找FORTRAN……

作者: 晨枫 时间: 2019-2-4 14:19

松叶牡丹发表于 2019-2-4 00:07
: i3 |5 R1 z4 K# b6 R& R历史数据建模自己写算法做验证用。不过如果可以像楼上那位说的可以找到现成library调用，kernel density ...

多谢！这个kernel density以前没有玩过，正在研究中……

作者: Dracula 时间: 2019-2-4 14:24
本帖最后由 Dracula 于 2019-2-4 14:28 编辑

说实话，你这个题目我没看懂。

但如果你你单纯就是想实现

我就是要拟合一个“钟形曲线”，然后找峰值所在点。相当于上图中红线（或者lambda=2）里横轴1-2之间的位置。

其实应该挺容易。假设这个分布是log normal，如果你知道这个分布的参数， μ和 σ，你要想计算峰值（英语是mode），有现成公式，套公式就可以了（公式你可以上网查，比如Wikipedia上就有）。估计这个分布怎么做，我没看懂你的题目，不好说。但既然正态分布你知道能怎么做，log-normal没什么本质区别，就是公式不一样。简单的使用method of moments应该很容易就能推导出公式。实现就是简单的算术计算，不需要什么数值方法。

作者: 晨枫 时间: 2019-2-4 14:34

Dracula 发表于 2019-2-4 00:244 g1 @4 X* O9 R V2 z0 R( U
说实话，你这个题目我没看懂。
* C* `* Q; [' l! G3 t0 H& I' u$ @6 T" L
但如果你你单纯就是想实现

有了 μ和 σ想计算峰值就容易了，我的问题是如何从histogram计算log normal的 μ和 σ。看来这也是个办法，把数据log一下，再按normal做。我也想到过这个办法，就是不大确定。明天试试，上班的活儿用下班的时间试，可不划不来嘛。

作者: 松叶牡丹 时间: 2019-2-4 14:35

Dracula 发表于 2019-2-4 14:24
' m% n( \; w4 z# D. [* R. |说实话，你这个题目我没看懂。; P3 I' Q. Q' a# Z$ |, `
* H: ?9 o3 E s
但如果你你单纯就是想实现

看题目意思应该是不知道参数的。

作者: 松叶牡丹 时间: 2019-2-4 14:36

晨枫发表于 2019-2-4 14:19+ c; l9 [0 I3 p9 c: |+ u; j' w
多谢！这个kernel density以前没有玩过，正在研究中……

晨大辛苦，您太客气了。祝新年快乐！

作者: gnomegordon 时间: 2019-2-4 14:39

晨枫发表于 2019-2-4 14:16
# U j4 R4 T$ t$ P) ^( Z2 }十分感谢！打开看到的是SRC文件，还在找FORTRAN……

apologize. 网上搜code太麻烦，还得验证。最好有本书可以翻翻或者搜library

作者: Dracula 时间: 2019-2-4 14:40
本帖最后由 Dracula 于 2019-2-4 14:45 编辑

晨枫发表于 2019-2-4 14:34" B. W) o: U7 K' |7 m) c% Q, V
有了 μ和 σ想计算峰值就容易了，我的问题是如何从histogram计算log normal的 μ和 σ。看来这也是个办 ...

怎么计算分布参数的问题，你的题目我没看明白，不好说，但是正态分布你会做，log-normal 没有任何本质区别，一样的办法，就是数学公式不一样就是的了。应该不难。

（标准的统计学问题，估计log-normal分布参数也是有公式的，你到网上去查个公式就是的了。）

作者: 数值分析 时间: 2019-2-4 14:56
本帖最后由数值分析于 2019-2-4 15:05 编辑

你应该不用拟合分布函数吧？你只想知道峰值的位置，然后你又知道（或者说你假设）是泊松分布，所以峰值的位置一定是 x=lambda,（这里lambda不一定是整数），那么剩下的就是从样本里推断lambda了，这是个典型的估计啊. 对于泊松分布，lambda正好是期望，所以一般来用样本均值估计期望。
你给每一个板子从最左边顺序编个号，i=0，1，2，3。。。，然后设每块板子i的对应温度样本值xi，，然后计算sum（i*xi）/n [即累加所有的（板号乘以对应温度）然后除以板数】（因为你的分布曲线可能和泊松分布差一个常数，所以最后结果得scale一下）不就可以了么？当然，这得假设你的histogram真的得长得像泊松分布分布。

作者: 视觉错误 时间: 2019-2-4 17:40
石化行业的DCS应该Honeywell多吧，这年头不支持OPC的很少了。
数据送到电脑上算，算了以后在送回去。

作者: 视觉错误 时间: 2019-2-4 18:02

晨枫发表于 2019-2-4 13:33
+ n0 `7 x& a# I0 h3 D# d y唉，MATLAB里有histfit命令，干的正是我要的，可惜没法“偷”过来用啊

我记得MATLAB支持OPC

作者: 数值分析 时间: 2019-2-4 18:34

数值分析发表于 2019-2-4 14:56
8 d: v( H1 r- E/ o0 n8 G0 G; o你应该不用拟合分布函数吧？你只想知道峰值的位置，然后你又知道（或者说你假设）是泊松分布，所以峰值的位 ...

多解释一句scale那块儿。因为泊松分布曲线下面的面积是1，而你的histogram显然不是，所以你的histogram和泊松分布差一个常数。你求出来的lambda的估计要用你histogram的面积归一一下。

作者: 小刀 时间: 2019-2-4 20:39
可以试试GMM Guassian Mixed Model去拟合统计分布

作者: 关中农民 时间: 2019-2-4 21:47

晨枫发表于 2019-2-4 12:30
' k2 q  P$ d% A/ L/ N. C没人理我？都在忙着吃年夜饭？
+ F, `$ \- z; P  [; o$ y  P
; n  D* W8 K  S. P6 g$ I0 T@煮酒正熟 @holycow @tanis @关中农民 @老马丁 @Dracula  ...

晨大，这得数学博士才中啊，额完全外行了，看见这个只能联想到面条

作者: Dracula 时间: 2019-2-4 22:07
我又看了一下你这个题，终于看明白了。你的问题是一条曲线类似于统计学上Poisson或者log-normal的density function的形状，在这条曲线上你已知坐标是x=1，x=2，... x=20，这20个点的值，你想要知道的是曲线的最大值是在那个点上。不知道我这个理解对不对。

如果我的理解是对的话，这不是个统计学问题。你画的那个也不是histogram，因为histogram的纵坐标是在每个值观测到的sample size，而你的图的纵坐标是温度，不是一回事。因此统计学的书你不用查，查了也没用。解决这个问题最显而易见的办法就是最小二乘法，但应该是没有分析解，你不能用。我好奇的是如果假设假设曲线的形状类似于正态分布的density function，你们是怎么解的，使用最小二乘法应该是一样没有分析解。如果解正态分布有特别的巧妙的办法的话，或许稍微修改一下就可以用到log-normal的情况。

作者: 晨枫 时间: 2019-2-4 22:17

数值分析发表于 2019-2-4 00:56
5 e" I3 x0 {6 p2 M9 ~你应该不用拟合分布函数吧？你只想知道峰值的位置，然后你又知道（或者说你假设）是泊松分布，所以峰值的位 ...

这个办法好！回头试一下！我是打算用这个办法当正态分布处理的，没想到也可以相当直接地套到泊松分布。可能这就解决我的问题了！多谢！

作者: 晨枫 时间: 2019-2-4 22:20

Dracula 发表于 2019-2-4 08:07
' J/ l3 n7 f2 ^/ ]( o, o我又看了一下你这个题，终于看明白了。你的问题是一条曲线类似于统计学上Poisson或者log-normal的density f ...

对，就是这个意思。我也提到了，不是统计问题，只是“形似”，想看看统计里有没有现成的办法。楼上42楼就是我一开始想到的办法，但只想到那能用于正态分布，正想改造为对数正态，没想到可以直接套泊松。这就好了。

作者: 晨枫 时间: 2019-2-4 22:21

小刀发表于 2019-2-4 06:39
/ X/ V9 I2 B: w! G7 E6 ^可以试试GMM Guassian Mixed Model去拟合统计分布

这个还是太复杂了。用在控制回路里，必须KISS。但还是要谢一个！

作者: 晨枫 时间: 2019-2-4 22:23

视觉错误发表于 2019-2-4 03:40 d6 E: l- [. V+ B3 C( _
石化行业的DCS应该Honeywell多吧，这年头不支持OPC的很少了。9 A, A5 A' o1 H- i$ B+ S
数据送到电脑上算，算了以后在送回去。 ...

我们有OPC，问题是可靠性。用以下层基本的回路控制一般不用OPC，当机或者“交通堵塞”的后果太大。这是惯例。只有上层的APC可以用OPC，当了就自动shed到基本控制。

作者: 晨枫 时间: 2019-2-4 22:25

视觉错误发表于 2019-2-4 04:02
9 ~9 F1 s& ?) B2 F! y# j6 W我记得MATLAB支持OPC

是的，我以前还试过用MATLAB C通过OPC与DCS相连，在技术上这是做得到的，但可靠性达不到要求。OPC是不作为可靠的控制信息通道使用的，只能传送点监视数据或者一般数据采集。

作者: 晨枫 时间: 2019-2-4 22:26

gnomegordon 发表于 2019-2-4 00:39
" z2 g9 R8 ^- ]" lapologize. 网上搜code太麻烦，还得验证。最好有本书可以翻翻或者搜library

再次感谢。楼下45楼有好办法，我先试试那个办法，比kernel density简单多了。

作者: 晨枫 时间: 2019-2-4 22:26

松叶牡丹发表于 2019-2-4 00:36
9 B9 U- c- x6 _" I晨大辛苦，您太客气了。祝新年快乐！

松叶MM新年快乐！

作者: 雨楼 时间: 2019-2-4 22:31

晨枫发表于 2019-2-3 23:46
' ~+ c: N0 s/ x8 z" l! b是我描述得不好。再来一遍。
! _1 t. ]) p2 v4 f9 x% q
, @' H8 d `7 ^5 Q+ `+ H. @9 d我有一条样子像泊松分布的温度分布曲线，但只有几个稀疏的点，想用类似泊松 ...

就是正态分布然后在x轴上平移么？类似Y=(X-a)^2.

作者: Dracula 时间: 2019-2-4 22:33

晨枫发表于 2019-2-4 22:20
2 }6 [9 A# C2 ?) o对，就是这个意思。我也提到了，不是统计问题，只是“形似”，想看看统计里有没有现成的办法。楼上42楼就 ...

42楼那个办法不对。那是把这当成个统计学的问题来处理，但这不是个统计学问题。你的纵坐标是温度，不是sample size，不能这么用。最明显的是，那个办法解出来的量纲是温度，而你想要的应该是具体是那块板，因此那个解和你想要的没什么关系。

作者: 晨枫 时间: 2019-2-4 22:35

数值分析发表于 2019-2-4 04:34
5 a( x% b' R' t# s E( c多解释一句scale那块儿。因为泊松分布曲线下面的面积是1，而你的histogram显然不是，所以你的histogram和 ...

多谢！记住了！

其实你说的办法我已经试过。我把正态分布一边的尾巴砍掉，至少外观上接近泊松或者对数正态。只要有峰在，估计出来均值就还不错，越对称越准确，就有点窃喜。但对道理不摸底，不敢放手用。除非在数学上站得住脚，否则在线的时候没人看着，给我乱估一个就完蛋了。现在看来，道理就是你说的，这个办法不只适用于正态分布。曲线只有只有半边的话，就有点悬，这个可以理解。一般到不了这个情况，程序里简单判别一下也不难，另作处理。

作者: 雨楼 时间: 2019-2-4 22:37

晨枫发表于 2019-2-4 00:03
8 n% S5 I) w5 C4 V3 Y咳咳，这个其实不是统计问题，是从有限的温度测量估计温度分布曲线的问题。吸收塔一共20块塔板，每块塔板 ...

1. 20个数据点在分布上有没有规律。比如两头低中间高。
2。规律稳定么？
3。可不可以简化成20个点里找最大值。
4。峰值如果不在采样点（塔板），而在塔板之间，只能按相邻塔板的问题计算温度曲线斜率，然后插值，而其要比较峰值塔板两侧的斜率，取较大的。

作者: 晨枫 时间: 2019-2-4 22:38

雨楼发表于 2019-2-4 08:31
3 y4 L; x$ t8 H& Y% f" Y/ s: W就是正态分布然后在x轴上平移么？类似Y=(X-a)^2.

差不多。我开始也想过用抛物线然后平移，但平移量本身也要最小二乘出来。可能还是可以线性化然后用简单的最小二乘。我来试试看。

作者: 晨枫 时间: 2019-2-4 22:38

Dracula 发表于 2019-2-4 08:33$ g( A5 H% I4 |- y' H- y R7 \' k
42楼那个办法不对。那是把这当成个统计学的问题来处理，但这不是个统计学问题。你的纵坐标是温度，不是sa ...

嗯，我再想想。谢谢。

作者: 晨枫 时间: 2019-2-4 22:42

雨楼发表于 2019-2-4 08:37
% t$ U& J) [3 {5 T: s; B$ F7 J7 V1. 20个数据点在分布上有没有规律。比如两头低中间高。
2 S" J: Q! O. B. o1 [$ n/ Q2 Y/ W* e2。规律稳定么？
# T' F5 Z0 G5 L8 J& o3。可不可以简化成20个点里找最 ...

两头低，中间高，但峰值形状随工艺条件而变，可以从“一头歪”的泊松变到对称的正态，然后继续变到往另一头歪的泊松。选最大值然后插值也是可以的，我就是在想是不是有可以一次性计算出来的，而不需要这样搜索。

如果42楼的办法最终不行，我可能回过来用你的办法。谢谢！

作者: 视觉错误 时间: 2019-2-4 22:42

晨枫发表于 2019-2-4 22:259 v7 _- @; @7 |% ^! n' N! L. p
是的，我以前还试过用MATLAB C通过OPC与DCS相连，在技术上这是做得到的，但可靠性达不到要求。OPC是不作 ...

这个峰值位置还需要用于控制吗？
我理解这个峰值位置计算出来也就是用于参考吧。

作者: 晨枫 时间: 2019-2-4 22:44

视觉错误发表于 2019-2-4 08:42
$ B: N: [3 P/ V2 z/ g/ ?这个峰值位置还需要用于控制吗？5 h; L% ^$ ~0 Q4 j8 c
我理解这个峰值位置计算出来也就是用于参考吧。 ...

我就是想用于控制。这对应于吸收塔里放热反应的热点位置，决定了吸收效率。跑得太偏了，要么浪费能源，要么吸收不达标。传统的单点温度控制效果有限，很容易被上下移动的峰值位置所“误导”。

作者: 视觉错误 时间: 2019-2-4 22:45
同意伯爵的看法，本质上是个曲线拟合。
这个曲线有点像某种分布曲线，晨大强调这个造成误解了。

作者: 晨枫 时间: 2019-2-4 22:46

视觉错误发表于 2019-2-4 08:45 _8 Q8 N( b+ U. x9 `3 A+ m
同意伯爵的看法，本质上是个曲线拟合。
0 x& y/ S% g/ n' W1 u3 F这个曲线有点像某种分布曲线，晨大强调这个造成误解了。 ...

抱歉！我还特意提一句，这不是统计问题，但还是误导了。多谢各位指点。我这会儿有很多办法可以试试了！

作者: Dracula 时间: 2019-2-4 22:53

晨枫发表于 2019-2-4 22:38+ s$ }$ B' L3 ]! E* @
嗯，我再想想。谢谢。

我曾经想过一个和42楼类似的办法。区别是分母不是板数，而是各个板加在一起的温度的和。如果这条曲线真的是个density function，也就是说，曲线下的面积等于1的话，这个办法是可以的。这个办法就是把温度类比成统计学里的sample size来处理了。但是曲线下的面积等于1这个假设肯定不对。我曾经想过把它scale成1就是的了。但问题是你的纵坐标0度的设置应该纯粹是arbitrary的，但是这个0度的设置会直接影响scaling以及最后结果，因此这个办法也不行。

如果想不出数学上的分析解的话，我的建议是你想一想人的直觉是怎么来处理这个问题的。你前面说，人眼一下就能看出来。把人直觉的逻辑想清楚的话，写个if then else的程序实现应该不算很难。

作者: 雨楼 时间: 2019-2-4 23:49
１，　计算最大值，
２，　计算左右的斜率
３，　计算左右直线的交点。
４，　由交点根据斜率反推峰值的大概值。这个是quick&dirty的解决办法。想要准确，还得曲线拟合。２阶应该就可以了。过高反而会引入误差。但是拟合的资源消耗可能系统付不起。

http://www.aswetalk.net/bbs/home ... um&picid=102923

作者: 晨枫 时间: 2019-2-5 00:01

Dracula 发表于 2019-2-4 08:539 U; b' k5 {- T* e% @
我曾经想过一个和42楼类似的办法。区别是分母不是板数，而是各个板加在一起的温度的和。如果这条曲线真的 ...

多谢。接下来我会按42楼办法用实际数据多试试，包括scaling，然后和目视结果比较。如果可靠的话，就能用了。否则还要另想办法，如楼下68楼的。

模拟人类思维的办法想过，不大好弄。太复杂的IF...THEN容易把自己绕进去。工程上还是要KISS。

多谢伯爵帮我想这个问题！

作者: 晨枫 时间: 2019-2-5 00:02

雨楼发表于 2019-2-4 09:49
* i& ^7 P& S; S0 ~* _１，　计算最大值，3 ^+ g4 S/ O$ z8 k
２，　计算左右的斜率
# e4 \" W/ h* B7 E- W2 ]% |2 [３，　计算左右直线的交点。

这个办法也好！我会试试看。多谢了。

作者: 晨枫 时间: 2019-2-5 00:07

关中农民发表于 2019-2-4 07:47
# I4 V7 U' v! A晨大，这得数学博士才中啊，额完全外行了，看见这个只能联想到面条 ...

哎，不是想着你们数据处理的问题多嘛，可能有经验。反正还是要谢一个！

作者: Dracula 时间: 2019-2-5 00:37

晨枫发表于 2019-2-5 00:01* }+ a% d4 c7 H9 y9 G7 [% I- V
多谢。接下来我会按42楼办法用实际数据多试试，包括scaling，然后和目视结果比较。如果可靠的话，就能用 ...

我在你这儿再贴几张Melissa Benoist的照片

作者: tanis 时间: 2019-2-5 00:52

晨枫发表于 2019-2-4 22:25
1 [) O9 e$ r+ h& Q6 l是的，我以前还试过用MATLAB C通过OPC与DCS相连，在技术上这是做得到的，但可靠性达不到要求。OPC是不作 ...

大工程的可靠性果然是我们小lab里完全不能比的。

作者: 数值分析 时间: 2019-2-5 00:52
本帖最后由数值分析于 2019-2-5 00:58 编辑

Dracula 发表于 2019-2-4 22:53
1 _( r3 p7 R, e- W+ D我曾经想过一个和42楼类似的办法。区别是分母不是板数，而是各个板加在一起的温度的和。如果这条曲线真的 ...

这个和统计其实关系不大.你可以把他想象成求重心问题.已知一条曲线和x轴围成一个形状,如果这个形状是均匀厚度的匀质材料构成的一块板子,那么这个形状重心的x座标是多少?这个x座标(如果存在的话)就是这个分布的数学期望.这其实就是一个加权平均问题.当然,一个任意形状的重心和最高点的x座标当然不一定一致.不过数学上可以证明,高斯曲线和博松分布曲线围成的图形重心的x座标和最高点的x座标正好一样.和统计没关系.你再想想?

作者: 数值分析 时间: 2019-2-5 00:54
本帖最后由数值分析于 2019-2-5 01:04 编辑

晨枫发表于 2019-2-4 22:38% s& H6 y: G& n2 n: F
嗯，我再想想。谢谢。

请见74楼回复.谢谢.

任意偏态分布最高点的位置就不能简单的用样本均值来估计了.不过也有办法,如果已知分布函数可以用矩估计或者最大似然估计.

作者: Dracula 时间: 2019-2-5 01:02

数值分析发表于 2019-2-5 00:52 ] X1 u; S! q6 \4 M5 H" `' ?
这个和统计其实关系不大.你可以把他想象成求重心问题.已知一条曲线和x轴围成一个形状,如果这个形状如果是 ...

这个和零点的选择是有关的。如果把温度类比为具体某块板的sample size的话，统计学的那个解就是以sample size（也就是温度）来加权求平均值。移动纵坐标的0点，相当于所有的sample size都加或减了一个相同的数。但是数学上，分子分母同乘同除同一个数可以，同加同减同一个数，值要变的。这个问题上，0点的选择应该完全是arbitrary的，因此这个办法应该是有问题的。

作者: 晨枫 时间: 2019-2-5 01:03

tanis 发表于 2019-2-4 10:52
1 \# Y+ g0 [# C! |: E, Y2 r0 J2 U大工程的可靠性果然是我们小lab里完全不能比的。

是啊，实验室规模的可行性和工业规模的可靠性是两个很不同的概念，实施起来的考虑完全不一样。实验室是探路、开路的，工程是修路、维持交通和拉动经济的。

作者: 晨枫 时间: 2019-2-5 01:06

Dracula 发表于 2019-2-4 10:37
0 |' ~5 i! I3 {5 p* l我在你这儿再贴几张Melissa Benoist的照片

呵呵，好久没见Melissa了。她笑起来还是很charming的！少了点妖气，这是她的长处，还是缺点。Too well rounded, not enough sparkle or something to make you on edge。

作者: 数值分析 时间: 2019-2-5 01:07

Dracula 发表于 2019-2-5 01:02
4 _5 v+ C0 e& j2 X这个和零点的选择是有关的。如果把温度类比为具体某块板的sample size的话，统计学的那个解就是以sample ...

你可以试试,平移没有问题的.你把他想象成求重心问题,曲线平移x,重心也平移x..

作者: Dracula 时间: 2019-2-5 01:09

数值分析发表于 2019-2-5 01:07: [ j% s2 V4 X* Z6 E x4 N, Y
你可以试试,平移没有问题的.你把他想象成求重心问题,曲线平移x,重心也平移x.. ...

我在纸上推过公式，结果是随0点的选择变化的。

作者: 数值分析 时间: 2019-2-5 01:17

数值分析发表于 2019-2-5 01:07; y6 O# c& l9 N) p' Q% p
你可以试试,平移没有问题的.你把他想象成求重心问题,曲线平移x,重心也平移x.. ...

integral f(x)* x*dx=lambda右平移a个单位,则新重心位置integral f(x-a)*x*dx. 设t=x-a, integral f(t)* (t+a)*d(t+a)=integral f(t)* (t+a)* dt=integral f(t)* t* dt+integral f(t)* a* dt=lambda+a (因为integral f(t)*a *dt=a*integral f(t)* dt=a,而 integral f(t)* t* dt=lambda)
形状右平移a个单位,重心也右平移a个单位

作者: 数值分析 时间: 2019-2-5 01:20

数值分析发表于 2019-2-5 01:17
0 I1 N) J |* q- q. q0 Qintegral f(x)* x*dx=lambda右平移a个单位,则新重心位置integral f(x-a)*x*dx. 设t=x-a, integral f(t)* ...

当然,前提是integral f(x)* dx=1,所以我跟晨风说要归一,否则确实不灵.

作者: Dracula 时间: 2019-2-5 01:21

晨枫发表于 2019-2-5 01:06$ [7 }: Z" ^( M
呵呵，好久没见Melissa了。她笑起来还是很charming的！少了点妖气，这是她的长处，还是缺点。Too well ro ...

看来你不去我的那个Superhero电视剧美女贴，那儿我最近一个月基本上每隔几天就会贴几张的。昨天庆祝CW宣布Supergirl会有第五季，我刚贴了16张Melissa Benoist的照片。而且那里除了Melissa Benoist以外，别的美女我也经常会贴几张，象最近有Katie McGrath，Emma Watson，Virginia Gardner和Elizabeth Laith。欢迎常去那儿，观看加分。

作者: Dracula 时间: 2019-2-5 01:37

数值分析发表于 2019-2-5 01:20
* z# [, n! ?( b当然,前提是integral f(x)* dx=1,所以我跟晨风说要归一,否则确实不灵.

曲线下面的面积等于1，这个条件肯定不满足。因为这本来就不是个概率论的问题。

那个公式是sum(xi * yi) / sum (yi), 如果纵坐标的零点移动，就是说yi' = yi + t, 你再算 sum(xi * yi) / sum (yi)不等于sum(xi * yi') / sum (yi')

作者: 数值分析 时间: 2019-2-5 01:41

Dracula 发表于 2019-2-5 01:37
; [/ |: G. @: f3 X4 h; R" \曲线下面的面积等于1，这个条件肯定不满足。因为这本来就不是个概率论的问题。
& I: L4 F4 ?+ T! n+ t. G2 T" C
. p& _! N6 P* h. L- v那个公式是sum(xi * yi) ...

所以我和晨风说要归一么.用histogram 面积归一以后,没问题.这实际是个加权平均问题,加权平均要求所以权重加起来和是1.即integral f(x)* dx=1,现在权重是温度,加起来肯定不是1.但只要除以总面积,(这里就是总温度),就还是满足这个关系的.不影响结果.晨风只关心最高点出现的位置,而不关心最高点是多少,这是关键.

作者: 晨枫 时间: 2019-2-5 01:46

Dracula 发表于 2019-2-4 11:217 b7 v; o6 g1 ^
看来你不去我的那个Superhero电视剧美女贴，那儿我最近一个月基本上每隔几天就会贴几张的。昨天庆祝CW宣 ...

这等好地方怎么错过了？赶紧去看！

作者: 晨枫 时间: 2019-2-5 01:49

数值分析发表于 2019-2-4 11:41* p2 x. l4 g; ?( i3 U+ Z% ~" p
所以我和晨风说要归一么.用histogram 面积归一以后,没问题.这实际是个加权平均问题,加权平均要求所以权重 ...

话说，如果选“爱坛最学术贴”，这个贴有没有希望当选？我肯定投一票！

多谢各位老大帮忙、指点。正在用Excel抓历史数据验算，看看这办法灵不灵验！

作者: 数值分析 时间: 2019-2-5 01:51

晨枫发表于 2019-2-5 01:490 E1 V) U/ n% f8 _9 L
话说，如果选“爱坛最学术贴”，这个贴有没有希望当选？我肯定投一票！) M7 p% p; ]. e# Z% k; P' M. I4 ~
6 O( F/ k4 A; ^' ^$ ]
多谢各位老大帮忙、指点。正在用 ...

如果不灵就是你那个偏态曲线和博松分布曲线实际上并不像,即重心和最高点不重合.不过有的修.如果到那一步咱们再谈怎么修.

作者: 数值分析 时间: 2019-2-5 01:54

晨枫发表于 2019-2-5 01:499 \6 a' U+ u* l
话说，如果选“爱坛最学术贴”，这个贴有没有希望当选？我肯定投一票！
* g- B6 @* o4 I! q2 S5 ?, L% ~( c
多谢各位老大帮忙、指点。正在用 ...

不过不管灵不灵,晨大可以帮我验证这样一个事儿,即把整个曲线平移n个单位,用同样的算法算完,结果应该是老结果平移n个单位.这个不管是不是博松,只要面积归一一定都灵.

作者: Dracula 时间: 2019-2-5 02:00
本帖最后由 Dracula 于 2019-2-5 03:16 编辑

数值分析发表于 2019-2-5 01:41
k* s9 x7 F: g3 R/ m0 j/ @所以我和晨风说要归一么.用histogram 面积归一以后,没问题.这实际是个加权平均问题,加权平均要求所以权重 ...

假设一个最简单的情况吧。只有两个点，y1和y2，y1<y2，如果你把零点设在y1, 那么y2的权重是1，y1的权重是0，只有第二个点的值决定结果。但是如果零点设在接近于负无穷，那么不管y1, y2的值是多少，都接近相当于两个点的权重都是0.5。零点的选择肯定是对结果有影响的。但是因为零点的选择是arbitrary的，这种情况不应该出现，因此我认为这个算法有问题。

作者: 晨枫 时间: 2019-2-5 02:01

数值分析发表于 2019-2-4 11:54
1 z' U: ]" Z8 D2 I* E) \不过不管灵不灵,晨大可以帮我验证这样一个事儿,即把整个曲线平移n个单位,用同样的算法算完,结果应该是老 ...

我用“掐尾”正态分布已经试过了，不归一都精度不错。我再归一试试看！

作者: 晨枫 时间: 2019-2-5 02:02

数值分析发表于 2019-2-4 11:51
! u& K/ R" Z: @( F- W- h5 |' c如果不灵就是你那个偏态曲线和博松分布曲线实际上并不像,即重心和最高点不重合.不过有的修.如果到那一步 ...

多谢！will report back!

作者: holycow 时间: 2019-2-5 02:15

数值分析发表于 2019-2-4 09:41
$ x( c$ S+ [( x7 v5 _所以我和晨风说要归一么.用histogram 面积归一以后,没问题.这实际是个加权平均问题,加权平均要求所以权重 ...

伯爵的意思是说，总温度凭什么以零摄氏度做原点？如果零度不是原点，则和原点的相对温度差之和完全是主观确定的，就不能拿来当scaling的分母

作者: 数值分析 时间: 2019-2-5 02:23
本帖最后由数值分析于 2019-2-5 02:25 编辑

holycow 发表于 2019-2-5 02:15; I1 G; E+ y x+ p, d5 Q# }
伯爵的意思是说，总温度凭什么以零摄氏度做原点？如果零度不是原点，则和原点的相对温度差之和完全是主观 ...

这个答案很简单,因为用零度才像泊松分布,如果上下平移的话,重心还是存在的,只是和最高点不再重合.你可以试想一下把泊松分布加上一,然后重新归一,也能得一个新的分布,这个分布也有期望,但期望很可能就不是最高点了. 不过单峰分布,只要不是骨骼轻奇(偏度skewness特别大),基本上最高点和重心差不太远.

作者: 数值分析 时间: 2019-2-5 02:32

holycow 发表于 2019-2-5 02:15
! w3 i5 M, E5 t4 L; _/ T伯爵的意思是说，总温度凭什么以零摄氏度做原点？如果零度不是原点，则和原点的相对温度差之和完全是主观 ...

顺便说一下,如果是对称的单峰分布的话,就没有这个问题,随便上下平移,只要归一就可以.

作者: holycow 时间: 2019-2-5 02:42

数值分析发表于 2019-2-4 10:32# y% b2 t( D. A* k' g: }9 n) q
顺便说一下,如果是对称的单峰分布的话,就没有这个问题,随便上下平移,只要归一就可以. ...

1. 极值出在哪里，只要估计出lambda即可
2. Lambda的估计需要依赖于归一
3. 归一的分母是可以主观确定的 (导致曲线下面积变动)

就算是对称单峰分布，也要先解决这个峰的陡峭程度才知道这个峰在哪里，恰恰是峰的陡峭程度依赖于归一的分母...

作者: tanis 时间: 2019-2-5 03:26

数值分析发表于 2019-2-5 02:23' \8 S) o5 H' J5 ?3 O4 f' B& I
这个答案很简单,因为用零度才像泊松分布,如果上下平移的话,重心还是存在的,只是和最高点不再重合.你可以 ...

冒昧的问一句，你搞过竞赛么~

思维方式挺像的~

作者: Dracula 时间: 2019-2-5 03:43

数值分析发表于 2019-2-5 02:238 T8 ]0 `7 m; F# o
这个答案很简单,因为用零度才像泊松分布,如果上下平移的话,重心还是存在的,只是和最高点不再重合.你可以 ...

问题就是这个0度在哪儿你并不知道。至于曲线下的面积必须是1这一点，只要各个点同乘或同除一个数就都可以做到，这个条件并不能提供任何额外的约束来确定零度这个参数。

作者: 木不铎 时间: 2019-2-5 05:31
不麻烦啊。查一下维基百科上关于“泊松分布”的页面嘛。

泊松分布的概率密度函数为

其中λ是单位时间（或单位面积）内随机事件的平均发生率，k代表发生某类事件的次数。
这里有一个很好的例子如下：

对某公共汽车站的客流做调查，统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟*3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计（MLE），得到的估计为λ=（81*1+34*2+9*3+6*4）/231=0.8658。

也就是说20秒之内平均有0.8658批客人。

这个例子应该和斯基的问题很类似。根据统计数字，用这个MLE方法，就能得到你的均值λ

作者: 晨枫 时间: 2019-2-5 05:49

木不铎发表于 2019-2-4 15:31
& t9 T& w3 h5 @" q5 a2 n1 g不麻烦啊。查一下维基百科上关于“泊松分布”的页面嘛。) K- e( a. K% `8 P
u$ G) O# D5 H2 a; I! r) x. j
泊松分布的概率密度函数为

谢谢。这和42楼“数值分析”的方法是一样的。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)