美国最好的工作

holycow · 发表于 2016-1-26 13:28:30

晨枫发表于 2016-1-25 21:23
classic stats我的理解就是parametric modeling，machine learning是non-parametric的吗？可以和神经元类 ...

模型本来就是对客观世界的近似，没有对客观世界的正确理解，肯定是不行的。

所以大数据世界里面cream of the crop是modeler，然后劳动密集型不怕失业的是data curator，只会玩tool的就像老兵说的迟早变白菜

煮酒正熟 · 发表于 2016-1-26 13:30:59

本帖最后由煮酒正熟于 2016-1-26 00:32 编辑

晨枫发表于 2016-1-26 00:12
哈，这就和我的理解差不多了。我对这些机器学习、人工智能从来不相信，they have their places, but the ...

我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而是针对一些特定问题最为有效。机器学习一个比较常见的应用就是，我们去亚马逊网站，登录以后浏览了一些商品，结果它似乎对你有了一定了解，并且把你给“记住”了，以后只要你一登录，它就给你列一些商品，里面经常会有你感兴趣的商品。油条帮也是这样。还有linked-in，过一段时间就给你推介一堆人，说你仔细看看，这堆人里有没有你认识的。我从来没告诉过linked-in我去过西西河，也来艾滋生，但它居然就给我推介了好几个河友，包括宝贝小猪，禅妹@禅人，从前河里的倥偬飞人，和纳子等等。感觉机器学习对关联性和pattern的捕捉能力很强，另一个巨大优势就是面对天文级数的数据全无惧色应对裕如

holycow · 发表于 2016-1-26 13:37:07

晨枫发表于 2016-1-25 21:25
哈，抬头往上看58楼。

有点理解为什么花街那么screwed up了。

模型搞到最后，已经不是人脑能够理解的了，it's a runaway train～～

煮酒正熟 · 发表于 2016-1-26 13:41:39

晨枫发表于 2016-1-26 00:18
你这些都没有问题，模型就是界定输入数据和输出数据之间的相关性的，问题出在输入数据集内部存在相关性。 ...

你说的是multi-collinearity吗？

建模的程序通常是 ---
1. define universe
2. append all variables that are potentially model inputs (or model features);
3. split the Train and Validation population; 通常Train 占70%，validation 30%;
4. variable selection; 就是决定那些variables 最终成为model features;
5. train the model;
6. local validation (using the 30% Validation population) and out-of-time validation;
7. create model deck and present to senior management

如果两个independent variable几乎完全相关，那么在variable selection这一步就留一个丢一个。
在经典统计学领域里面，常用的variable selection方法包括backward stepwise（逐步减少variables), forward stepwise(逐步添加）, and bootstraping..

禅人 · 发表于 2016-1-26 13:48:13

煮酒正熟发表于 2016-1-26 13:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

linked-in顾名思义就是要把你我她他扯在一起嘛。记得我对你说过，这几个人与你link的节点,估计就是各自留给linked-in 的电邮邮箱，而这些邮箱与你的邮箱之间应该是私下传过情滴，于是乎linked-in liao咯。

晨枫 · 发表于 2016-1-26 13:51:01

煮酒正熟发表于 2016-1-25 23:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

亚马逊这东西我觉得还是可以理解：把商品的特征分为很多label，然后建立数据库，按照你买东西或者browse的最近个例进行query。比如说，我最近买了CD，这就是一个大label；我买的是DG Original，这就是classic music，次一级的label；这还是generic collection而不是哪一个作曲家或者演奏家的专辑，再次一级的label；如果翻看Anne Sophie Mutter，那就是小提琴label，加上特定演奏家；然后可以延伸到风格相近的演奏家，……等等。pattern就是这些关键的label。

这里面的关键在于label精确的数据库，或者这就是老兵所说的数据？

晨枫 · 发表于 2016-1-26 13:51:24

holycow 发表于 2016-1-25 23:37
模型搞到最后，已经不是人脑能够理解的了，it's a runaway train～～

这就不可能是好模型……

晨枫 · 发表于 2016-1-26 13:53:11

煮酒正熟发表于 2016-1-25 23:41
你说的是multi-collinearity吗？

建模的程序通常是 ---

哈哈，一样的步骤。我们可能多一个experiment design来产生数据。

煮酒正熟 · 发表于 2016-1-26 13:58:05

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

我猜，一方面是模型的叠加使用导致结果不可预测，再一个是模型没有算到基于自己这个模型所做出的市场行为，反过来会为市场所追踪和使用... 所以，单独看每一个模型都很美很好，但使用起来就会出一些预想不到的问题。这还没算花街年景好的时候高级金领不断跳槽导致后继者对前任的复杂模型吃不透所引发的问题呢

老兵帅客 · 发表于 2016-1-26 20:12:29

holycow 发表于 2016-1-25 22:59
做企业级应用的人，不管做不做大数据，市场价值都是两部分组成的：技术能力和行业经验。因此你这个问题对 ...

走投无路的才会一次跳两步呢。

老兵帅客 · 发表于 2016-1-26 20:17:08

煮酒正熟发表于 2016-1-25 23:04
上面那个例子是基于传统的商业问题的回答。对于这种问题，传统的建模手段就是经典统计学的（比如SAS）。 ...

相关性的问题在于很多是主观认定滴，因为你没有多少非常过硬地证据，过了一段时间无利可图了，就被悄悄滴忽略了。于是我们发现，那不是专业技术，而是办公室政治。

不要以为我在说笑话，施乐那个多余的工厂是怎么出来的，那可是一票MBA专家的专业经验确定的，属于最彻底的专业认定，结果就是个大笑话。为啥，因为数据的特点是垃圾进、垃圾出。要从中找出来确实相关的，有时候是运气，有时候就是德性了。

老兵帅客 · 发表于 2016-1-26 20:23:46

煮酒正熟发表于 2016-1-26 00:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

不奇怪，机器学习的基础就是统计，但是在采样不够大的情况下，无法有效地消除噪音，于是你会发现系统会有很多误判。这方面的消除还是靠人，也就是后台有人根据现实人工消除一些噪音，但是没有根本的解决办法。

但是假如能够做大采样足够大的话，就能有效地消除噪音，但是对应的时间和空间开销以及费用就会成问题了。其实这也就是现在所谓的大数据的优势之一。问题是有多少人玩得起这样的硬件环境？

老兵帅客 · 发表于 2016-1-26 20:26:39

禅人发表于 2016-1-26 00:48
linked-in顾名思义就是要把你我她他扯在一起嘛。记得我对你说过，这几个人与你link的节点,估计就是各自留 ...

linkedin这方面做得很差，我经常收到一些莫名其妙的的人的请求加连接的要求，因为他们与我无论是在专业上还是地域和利益上都毫无关系。

它做的比较靠谱的是用你提供的简历来搜索相关性，因此你会发现你的同学们、前同事们都出现了。其余的就算了。

老兵帅客 · 发表于 2016-1-26 20:28:11

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

所以这些东西很多都是主观影响的选择结果，能否成功就要看运气了。于是就是这么试试、那么试试，看看哪个能比较碰上现实一些。

冰蚁 · 发表于 2016-1-26 22:30:07

本帖最后由冰蚁于 2016-1-26 09:44 编辑

大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的名，干着以前的事，因为根本玩不转那么多数据。前几年就已经有大数据是个筐，什么都往里装的说法。另一个公司的朋友说，他们业内已经不提 big data 这个词。

我觉得目前有点类似互联网兴起后的泡沫，要崩掉一两次后，大概会有一个比较清晰的模式出来。另外，人工智能也得跟上来。这样才能玩转大数据。

PS，附一段 big data 的定义。我看楼上对 big data 定义有走偏的趋势。

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.[13] Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data. Big data requires a set of techniques and technologies with new forms of integration to reveal insights from datasets that are diverse, complex, and of a massive scale.[14]

In a 2001 research report[15] and related lectures, META Group (now Gartner) analyst Doug Laney defined data growth challenges and opportunities as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in and out), and variety (range of data types and sources). Gartner, and now much of the industry, continue to use this "3Vs" model for describing big data.[16] In 2012, Gartner updated its definition as follows: "Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization."[17] Gartner's definition of the 3Vs is still widely used, and in agreement with a consensual definition that states that "Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value".[18] Additionally, a new V "Veracity" is added by some organizations to describe it,[19] revisionism challenged by some industry authorities.[20] The 3Vs have been expanded to other complementary characteristics of big data:[21][22]

Volume: big data doesn't sample; it just observes and tracks what happens
Velocity: big data is often available in real-time
Variety: big data draws from text, images, audio, video; plus it completes missing pieces through data fusion
Machine Learning: big data often doesn't ask why and simply detects patterns[23]
Digital footprint: big data is often a cost-free byproduct of digital interaction[22]

The growing maturity of the concept more starkly delineates the difference between big data and Business Intelligence:[24]

Business Intelligence uses descriptive statistics with data with high information density to measure things, detect trends, etc..
Big data uses inductive statistics and concepts from nonlinear system identification[25] to infer laws (regressions, nonlinear relationships, and causal effects) from large sets of data with low information density[26] to reveal relationships and dependencies, or to perform predictions of outcomes and behaviors.[25][27]

In a popular tutorial article published in IEEE Access Journal,[28] the authors classified existing definitions of big data into three categories: Attribute Definition, Comparative Definition and Architectural Definition. The authors also presented a big-data technology map that illustrates its key technological evolutions.

晨枫 · 发表于 2016-1-26 22:52:38

冰蚁发表于 2016-1-26 08:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所以稀疏矩阵什么的都出来了。现在好像又不听说这事了。

大数据里的机器学习看来最大的问题就在于这个只看pattern不管因果了。现代科学的理性思维的基础就在于因果。

老兵帅客 · 发表于 2016-1-26 23:00:07

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

我说冰姨啊，不要说的这么吃果果嘛，这样会毁掉多少人的梦想啊。

学术认真是必要滴，但是这个世界必须有足够的忽悠空间，否则经济会很差，失业人口会很多滴。

MacArthur · 发表于 2016-1-26 23:02:46

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

“BIG DATA”正在慢慢被这帮人给玩臭了。。。

利用CEO们对于技术上最新潮词又恨又怕又不得不装得很in的心态，有意无意的进行误导，什么事只要上了BIG DATA马上立竿见影，一切问题全部解决。。。

前两天刚刚招待了这么一位，号称要做SPLUNK第二，要专门为我们公司建立“BIG DATA”，告诉他我们公司这点儿数据不够BIG呵。。。人说没关系，我们有“BIG DATA”，你们不够BIG我们BIG就行了。。。

煮酒正熟 · 发表于 2016-1-26 23:03:58

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里，除了少数西海岸高科技类型公司，在2010年以前就建立了数据科学organization，并大量招募大数据分析员，因而将大数据的分析方法与数据本身结合的较好之外，大部分传统公司都处于你所说的这个阶段。对于大部分传统公司比如Macy's，一个普遍性难题是，懂数据懂business的人不会玩儿大数据那些分析手段，而会玩儿大数据分析手段的这批都是小孩子，刚进公司，自然不懂业务也不懂数据甚至人际交往能力都有缺陷。有的公司，比如我们这里，采取的人事策略就是，先招进来，让老人带新人，将业务知识和数据知识传授给新人，同时老人也可以从新人那里学到大数据方法。这个策略现在看来是彻底的捣乱失败再捣乱再失败... 根结有两个，人的问题和外部因素。人的问题：老人保守，怕教会了你自己的饭碗就丢了；新人狂傲，不待见学这些很枯燥无味的商务和数据，另外也没有耐心教老鸟。外部原因就是，西海岸一堆高科技公司吼吼地招有一定经验的大数据分析员。我们公司的作用最终就是帮他们西海岸的亚马逊等等免费培训了两年，然后这帮小崽子们就都飞啦

老兵帅客 · 发表于 2016-1-26 23:05:11

晨枫发表于 2016-1-26 09:52
有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所 ...

当年的软件界还时髦过第四代语言和CASE tools呢，结果后来证明根本行不通。为啥，因为复杂度简单了没事，一旦复杂度上去，变数也就急剧上去了，就不是简单的逻辑和业务知识能处理的了，于是还得回到第三代语言完事。

因此我看老酒的这个大数据，早晚也是这个命。不过老酒要是善于忽悠的话，倒是个很好的机会。

		自动登录	找回密码
密码			注册

美国最好的工作

点评