美国最好的工作

晨枫 · 发表于 2016-1-27 00:13:10

冰蚁发表于 2016-1-26 09:08
我觉得大概是稀疏矩阵啥的应该已经做进软件，成为日常工具了，所以就不提了。

因果啥的，理论上以后要靠 ...

哈哈，你对人工智能是一如既往地力挺啊。

晨枫 · 发表于 2016-1-27 00:12:10

老兵帅客发表于 2016-1-26 09:05
当年的软件界还时髦过第四代语言和CASE tools呢，结果后来证明根本行不通。为啥，因为复杂度简单了没事， ...

老酒没事。就凭那颜值，大小数据通吃。

erha · 发表于 2016-1-26 23:44:52

看了这个我心情平复了许多。

老兵帅客 · 发表于 2016-1-26 23:18:54

煮酒正熟发表于 2016-1-26 10:03
以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里， ...

有一个问题你没考虑到，那就是各种因素的相关影响。这个问题在数据简单的时候，比较容易根据经验来处理，但是随着复杂度上去，很难说到底因果之间是什么关系了。

因此，即使人性没有缺点，没有自私保守和狂傲，也一样不可能解决这个问题。

大数据最好的一面是只有数据量大，最坏的一面是随着数据量的增长，复杂度也上去了。前者可以通过硬件投资来解决，而后者无解。

在软件开发这个领域，这个问题是一直存在而且没什么好办法解决的，这就是为什么软件开发的基本原则之一就是大问题分解成一堆小问题，分而治之。但是这个分解必须是各个部分之间关系明确的，否则就是在找倒霉。因此，大数据的复杂度问题就像软件工程里面的CASE TOOLS复杂度一样，会把泡沫弄破滴。

穿着裤衩裸奔 · 发表于 2016-1-26 23:14:53

Software engineer 还不到10W usd，比想象的低不少啊

老兵帅客 · 发表于 2016-1-26 23:11:26

MacArthur 发表于 2016-1-26 10:02
“BIG DATA”正在慢慢被这帮人给玩臭了。。。

利用CEO们对于技术上最新潮词又恨又怕又不得不装得很in的 ...

公开诳人啊。

冰蚁 · 发表于 2016-1-26 23:08:10

晨枫发表于 2016-1-26 09:52
有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所 ...

我觉得大概是稀疏矩阵啥的应该已经做进软件，成为日常工具了，所以就不提了。

因果啥的，理论上以后要靠人工智能判断喽。目前人工智能还不行，就靠人脑。人脑处理能力有限，所以top data scientist 就很吃香。回到你的主贴，就 money 多多啦。

老兵帅客 · 发表于 2016-1-26 23:05:11

晨枫发表于 2016-1-26 09:52
有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所 ...

当年的软件界还时髦过第四代语言和CASE tools呢，结果后来证明根本行不通。为啥，因为复杂度简单了没事，一旦复杂度上去，变数也就急剧上去了，就不是简单的逻辑和业务知识能处理的了，于是还得回到第三代语言完事。

因此我看老酒的这个大数据，早晚也是这个命。不过老酒要是善于忽悠的话，倒是个很好的机会。

煮酒正熟 · 发表于 2016-1-26 23:03:58

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

以我个人在我们公司成立21个月的Data Science （数据科学）部门的观感来说，在大数据/数据科学这一行里，除了少数西海岸高科技类型公司，在2010年以前就建立了数据科学organization，并大量招募大数据分析员，因而将大数据的分析方法与数据本身结合的较好之外，大部分传统公司都处于你所说的这个阶段。对于大部分传统公司比如Macy's，一个普遍性难题是，懂数据懂business的人不会玩儿大数据那些分析手段，而会玩儿大数据分析手段的这批都是小孩子，刚进公司，自然不懂业务也不懂数据甚至人际交往能力都有缺陷。有的公司，比如我们这里，采取的人事策略就是，先招进来，让老人带新人，将业务知识和数据知识传授给新人，同时老人也可以从新人那里学到大数据方法。这个策略现在看来是彻底的捣乱失败再捣乱再失败... 根结有两个，人的问题和外部因素。人的问题：老人保守，怕教会了你自己的饭碗就丢了；新人狂傲，不待见学这些很枯燥无味的商务和数据，另外也没有耐心教老鸟。外部原因就是，西海岸一堆高科技公司吼吼地招有一定经验的大数据分析员。我们公司的作用最终就是帮他们西海岸的亚马逊等等免费培训了两年，然后这帮小崽子们就都飞啦

MacArthur · 发表于 2016-1-26 23:02:46

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

“BIG DATA”正在慢慢被这帮人给玩臭了。。。

利用CEO们对于技术上最新潮词又恨又怕又不得不装得很in的心态，有意无意的进行误导，什么事只要上了BIG DATA马上立竿见影，一切问题全部解决。。。

前两天刚刚招待了这么一位，号称要做SPLUNK第二，要专门为我们公司建立“BIG DATA”，告诉他我们公司这点儿数据不够BIG呵。。。人说没关系，我们有“BIG DATA”，你们不够BIG我们BIG就行了。。。

老兵帅客 · 发表于 2016-1-26 23:00:07

冰蚁发表于 2016-1-26 09:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

我说冰姨啊，不要说的这么吃果果嘛，这样会毁掉多少人的梦想啊。

学术认真是必要滴，但是这个世界必须有足够的忽悠空间，否则经济会很差，失业人口会很多滴。

晨枫 · 发表于 2016-1-26 22:52:38

冰蚁发表于 2016-1-26 08:30
大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的 ...

有点联想起自控里在80年代很流行的“大系统理论”了，那时也说是系统大到超过传统数学控制理论的尺度，所以稀疏矩阵什么的都出来了。现在好像又不听说这事了。

大数据里的机器学习看来最大的问题就在于这个只看pattern不管因果了。现代科学的理性思维的基础就在于因果。

冰蚁 · 发表于 2016-1-26 22:30:07

本帖最后由冰蚁于 2016-1-26 09:44 编辑

大数据目前处于非常原始的阶段，和以前的统计/ data mining并没有特别显著的区别。大部分公司挂个大数据的名，干着以前的事，因为根本玩不转那么多数据。前几年就已经有大数据是个筐，什么都往里装的说法。另一个公司的朋友说，他们业内已经不提 big data 这个词。

我觉得目前有点类似互联网兴起后的泡沫，要崩掉一两次后，大概会有一个比较清晰的模式出来。另外，人工智能也得跟上来。这样才能玩转大数据。

PS，附一段 big data 的定义。我看楼上对 big data 定义有走偏的趋势。

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.[13] Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data. Big data requires a set of techniques and technologies with new forms of integration to reveal insights from datasets that are diverse, complex, and of a massive scale.[14]

In a 2001 research report[15] and related lectures, META Group (now Gartner) analyst Doug Laney defined data growth challenges and opportunities as being three-dimensional, i.e. increasing volume (amount of data), velocity (speed of data in and out), and variety (range of data types and sources). Gartner, and now much of the industry, continue to use this "3Vs" model for describing big data.[16] In 2012, Gartner updated its definition as follows: "Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization."[17] Gartner's definition of the 3Vs is still widely used, and in agreement with a consensual definition that states that "Big Data represents the Information assets characterized by such a High Volume, Velocity and Variety to require specific Technology and Analytical Methods for its transformation into Value".[18] Additionally, a new V "Veracity" is added by some organizations to describe it,[19] revisionism challenged by some industry authorities.[20] The 3Vs have been expanded to other complementary characteristics of big data:[21][22]

Volume: big data doesn't sample; it just observes and tracks what happens
Velocity: big data is often available in real-time
Variety: big data draws from text, images, audio, video; plus it completes missing pieces through data fusion
Machine Learning: big data often doesn't ask why and simply detects patterns[23]
Digital footprint: big data is often a cost-free byproduct of digital interaction[22]

The growing maturity of the concept more starkly delineates the difference between big data and Business Intelligence:[24]

Business Intelligence uses descriptive statistics with data with high information density to measure things, detect trends, etc..
Big data uses inductive statistics and concepts from nonlinear system identification[25] to infer laws (regressions, nonlinear relationships, and causal effects) from large sets of data with low information density[26] to reveal relationships and dependencies, or to perform predictions of outcomes and behaviors.[25][27]

In a popular tutorial article published in IEEE Access Journal,[28] the authors classified existing definitions of big data into three categories: Attribute Definition, Comparative Definition and Architectural Definition. The authors also presented a big-data technology map that illustrates its key technological evolutions.

老兵帅客 · 发表于 2016-1-26 20:28:11

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

所以这些东西很多都是主观影响的选择结果，能否成功就要看运气了。于是就是这么试试、那么试试，看看哪个能比较碰上现实一些。

老兵帅客 · 发表于 2016-1-26 20:26:39

禅人发表于 2016-1-26 00:48
linked-in顾名思义就是要把你我她他扯在一起嘛。记得我对你说过，这几个人与你link的节点,估计就是各自留 ...

linkedin这方面做得很差，我经常收到一些莫名其妙的的人的请求加连接的要求，因为他们与我无论是在专业上还是地域和利益上都毫无关系。

它做的比较靠谱的是用你提供的简历来搜索相关性，因此你会发现你的同学们、前同事们都出现了。其余的就算了。

老兵帅客 · 发表于 2016-1-26 20:23:46

煮酒正熟发表于 2016-1-26 00:30
我对机器学习的了解也很粗浅。以我粗浅的了解来说，这个东西肯定不是吮马silver bullet或是万能解药，而 ...

不奇怪，机器学习的基础就是统计，但是在采样不够大的情况下，无法有效地消除噪音，于是你会发现系统会有很多误判。这方面的消除还是靠人，也就是后台有人根据现实人工消除一些噪音，但是没有根本的解决办法。

但是假如能够做大采样足够大的话，就能有效地消除噪音，但是对应的时间和空间开销以及费用就会成问题了。其实这也就是现在所谓的大数据的优势之一。问题是有多少人玩得起这样的硬件环境？

老兵帅客 · 发表于 2016-1-26 20:17:08

煮酒正熟发表于 2016-1-25 23:04
上面那个例子是基于传统的商业问题的回答。对于这种问题，传统的建模手段就是经典统计学的（比如SAS）。 ...

相关性的问题在于很多是主观认定滴，因为你没有多少非常过硬地证据，过了一段时间无利可图了，就被悄悄滴忽略了。于是我们发现，那不是专业技术，而是办公室政治。

不要以为我在说笑话，施乐那个多余的工厂是怎么出来的，那可是一票MBA专家的专业经验确定的，属于最彻底的专业认定，结果就是个大笑话。为啥，因为数据的特点是垃圾进、垃圾出。要从中找出来确实相关的，有时候是运气，有时候就是德性了。

老兵帅客 · 发表于 2016-1-26 20:12:29

holycow 发表于 2016-1-25 22:59
做企业级应用的人，不管做不做大数据，市场价值都是两部分组成的：技术能力和行业经验。因此你这个问题对 ...

走投无路的才会一次跳两步呢。

煮酒正熟 · 发表于 2016-1-26 13:58:05

晨枫发表于 2016-1-26 00:51
这就不可能是好模型……

我猜，一方面是模型的叠加使用导致结果不可预测，再一个是模型没有算到基于自己这个模型所做出的市场行为，反过来会为市场所追踪和使用... 所以，单独看每一个模型都很美很好，但使用起来就会出一些预想不到的问题。这还没算花街年景好的时候高级金领不断跳槽导致后继者对前任的复杂模型吃不透所引发的问题呢

晨枫 · 发表于 2016-1-26 13:53:11

煮酒正熟发表于 2016-1-25 23:41
你说的是multi-collinearity吗？

建模的程序通常是 ---

哈哈，一样的步骤。我们可能多一个experiment design来产生数据。

		自动登录	找回密码
密码			注册

美国最好的工作

点评

点评

点评