木不铎 发表于 2017-10-19 06:06:54

《十九大报告》之数据挖掘解读

本帖最后由 木不铎 于 2017-10-20 06:42 编辑

      收集了17、18和19大的三次讲话,前两次是胡锦涛,这次是习近平。然后利用"搜狗"的一个分词字典,用python对讲话进行词语分解,并做了进一步分析。

      除掉开头的套话“同志们:现在,我代表第十八届中央委员会向大会作报告。”以及标点符号后,这三次讲话的字数分别为25499, 26086和29166字,有越扯越长的趋势,10年之间,增长了14.4%。考虑到俺们的GDP增长率远远大于这一数字,暂时可以忍受。

      再除去“的”、“和”与“是”这三个频率最高的单字以后,出现最多的前六个词汇分别为
            十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)
            十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)
            十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)

      从这上面可以看出,“发展”一直是国家的头等大事,“人民”作为国家的根本,也被反复念叨,而“党”作为一个单独字出现的频率越来越高。

      如果统计一下所有含有“党”的词汇,再对比一下含“民主”二字的词语,然后各列一下排名前五的词语。

            十九大 : 338   vs.60
            党(107),全党(33),我们党(27),党内(17),党和国家(14)
            民主(34),社会主义民主政治(9),民主制度(3),社会主义民主(2),民主集中制(2)

            十八大: 233   vs.68
            党(74),全党(21),党员(15),共产党人(6),党和国家(6)
            民主(35),党内民主(6),民主制度(5),社会主义民主政治(4),民主权利(4)

            十七大: 234   vs.67
            党(68),全党(20),党员(20),我们党(11),党和国家(7)
            民主(29),社会主义民主政治(10),党内民主(5),民主权利(4),民主党派(3)

      对比这三组数据,可以看出,“民主”一直处于尴尬的地位,至少相对于“党”而言,属于配角地位。但考虑到这是“党的”会议,也可以理解。另外,“党”字的出现次数大幅度提高,说明“加强党的领导”这种说法不是空穴来风。是喜?是忧?静观其变吧。

(To be continued)

一瞬无尽 发表于 2017-10-19 08:53:29

十九大 : 发展(141), 人民(133),坚持(113),党(107),建设(97),中国(76)
             十八大: 发展(157), 人民(92),建设(82),中国特色社会主义(79),坚持(78),党(74)
             十七大 : 发展(181), 人民(90),建设(83),加强(73),党(68),坚持(66)(注:“完善”也是66次,并列第六)

19:以上总次数除以 29166 得到套话率:0.0229
18:0.022多
17: 0.02200086277893250715714341738892

总之是套话在提升似乎
{:187:}

山远空寒 发表于 2017-10-19 10:10:38

快写,如果好,可以发编辑部微信号

看客 发表于 2017-10-19 10:39:44

不知道是不是同一支笔杆子摇出来的。要不再做做话语分析?

longcheng 发表于 2017-10-19 10:53:33

数据挖掘干的不错!

profer 发表于 2017-10-19 11:49:32

。。

本帖最后由 profer 于 2017-10-19 11:55 编辑

路过路过路过路过路过路过路过路过路过路过路过路过

不懂中 发表于 2017-10-19 13:27:52

有意思!还可以再挖挖!

勤劳工作的猪 发表于 2017-10-19 13:32:02

{:237:}{:237:}

bamboo0530 发表于 2017-10-19 13:34:37

很有意思的角度:lol

石工 发表于 2017-10-19 22:23:18

“党”和“民主”的对比组找的好!

把它俩结合起来的“党内民主”更有意思,17大5次,18大6次,19大没上榜。我又查了一下原文,还真有,总共一次,在第1部分第5段的中间部分。这段就一句话,229个字,一口气念下来不容易呀不容易。

有了这一次,就堵住了港台无良记者们的臭嘴,让他们叫嚣“党内民主不见了!”的阴谋无法得逞!

起草文件的绝对是洞察秋毫的高人,比起前一阵在湾仔军徽下给菲律宾移交武器而浑然不知的大使(还有武官?),实在是判若云泥。

jellobean 发表于 2017-10-19 23:56:55

{:237:}{:237:}

木不铎 发表于 2017-10-20 06:12:26

本帖最后由 木不铎 于 2017-10-20 06:15 编辑

   
    人们说一段话,叫“讲话”,提升一下,就成了“理论”,完善一下,则成了“思想”,上升到哲学高度,就成为了“主义”。
         
    看看包含“主义”、“思想”和“理论”的词汇在三次讲话中的次数。
               
      十九: 189 40 26
      十八: 189 32 30
      十七: 189 42 40
   
    有意思的是,“主义”出现的次数稳定在189次,这可是小概率事件;“思想”呢,十八大的时候小小滑落,这次又反弹回来了;至于最不着调的“理论”,保持稳定下降趋势。
   
    如果分别看一下“主义”类词汇的前三甲,如下所示:
   
      十九:中国特色社会主义(70), 社会主义(28), 马克思主义(12)+马克思列宁主义(5)
      十八:中国特色社会主义(79), 社会主义(40), 马克思主义(7)+马克思列宁主义(4)
      十七:中国特色社会主义(52), 社会主义(40), 马克思主义(22)+马克思列宁主义(3)
   
    三甲的位置没有变化,同时可以看出,“社会主义”尤其是“中国特色”的“社会主义”是TG的核心思想,至于舶来品,展示一下就可以了。值得一提的还有,1)四甲和五甲也是披着“社会主义”外衣的词汇,2)“共产主义”在19大出现了4次,在18、17大仅出现了1次。
   
    再来看看“思想”代表队的三甲阵容,如下所示:
   
      十九:思想(27), 重要思想(2),毛泽东思想(2)
      十八:思想(12), 重要思想(5),毛泽东思想(4)
      十七:思想(14), 重要思想(10),毛泽东思想(5)

    “重要思想”这种戴个虚头八脑帽的“重要”帽子的词汇由10次逐渐降低到2次,“毛泽东思想”则下降到2次,而笼统地冠之以“思想”一词则大量出现,有一统江湖的意思。其实,抢这个冠名权一般属于吃力不讨好的差事,挂上去容易,但抹下来更简单。
   
    最后看看“理论”代表队的前三名,如下所示:
   
      十九:理论(18),理论体系(2), 邓小平理论(2)
      十八:理论(13),理论体系(9), 邓小平理论(4)
      十七:理论(13),理论体系(11), 邓小平理论(9)

    笼而统之的“理论”一直是冠军宝座,“286理论”日渐隐退。至于“理论体系”,本来就不是政治家的事情,从务实的角度看,逐渐弱化是正确的选项。
   
    在这三次讲话中,有五个人名被提到过,分别是“马克思”和“列宁”,加上共和国的前三位核心,统计如下:
   
         十九:马克思(18), 列宁(5), 毛泽东(2), 邓小平(2), 江泽民(0)
         十八:马克思(12), 列宁(4), 毛泽东(6), 邓小平(6), 江泽民(2)
         十七:马克思(28), 列宁(3), 毛泽东(8), 邓小平(11), 江泽民(2)
   
    个人认为,从历史地位上看,马>列>毛>邓>江,这一次应该是比较合理的。不过,列宁同志之所以能出现,都是沾了大胡子的光。

(To be continued)

木不铎 发表于 2017-10-20 06:18:30

看客 发表于 2017-10-19 10:39
不知道是不是同一支笔杆子摇出来的。要不再做做话语分析?

找好关键词,就可以做个余弦分析了。等写到最后一段时,再做这个。不过,俺觉得,这种长篇大论都是一堆上书房行走的劳动成果,再加上各位大佬的删改,才能最后成文。

不知 发表于 2017-10-20 08:55:20

一瞬无尽 发表于 2017-10-19 08:53
19:以上总次数除以 29166 得到套话率:0.0229
18:0.022多
17: 0.02200086277893250715714341738 ...

我查是十九大全文是32000多字

不知 发表于 2017-10-20 10:54:25

不知 发表于 2017-10-20 08:55
我查是十九大全文是32000多字

直接网上扒下来,word计数。应该算标点,不算空格

木不铎 发表于 2017-10-21 20:44:47

本帖最后由 木不铎 于 2017-10-21 21:19 编辑

    注:从此处开始,文本分析扩展到十四大(1992)。

    一个国家实力如何,主要体现在政治、经济、文化、教育、科技、国防和外交这几个方面,如果看一下这七个词汇在三次报告出现的次数,也可以对国家的大政方针的侧重点有个大概的了解。
      
    十九大:93 70 79 43 17 16 8
    十八大:52 104 87 43 16 16 5
    十七大:48 107 77 47 15 12 6
   
    与以前相比,最突出的变化就是“政治”一词的出现频率大幅度增加,十八大和十七大,“政治”的出现次数不到“经济”的一半,而这次却超出后者33%。是不是预示着什么非同寻常的变化呢?念及此处,干脆将文本分析扩展到十四大(1992),以
“经济”的出现次数为参照点(即设为1),看一下七个词汇这25年的变化。
http://www.aswetalk.net/bbs/data/attachment/album/201710/21/203927iez77kbyve4ahb09.png
    从上图可以看出,“经济”一直是历届会议关注的重中之重,而“文化”在2002年,即十六大开始,才真正提上来,“政治”紧随其后,但相对于“经济”而言,出现的频次连一半都不到。而在这次会议中,“政治”一跃超过“文化”和“经济”,抢占第一把交椅。这是否意味着,“经济”已经不再是关注重点,至少其重要性不再是独一无二了,而中国即将进入一个政治变动期?或者,按照马克思的政治经济学理论,“经济基础决定政治上层建筑”,中国自改革开放以来,经济高速发展,而政治体制的改革进展缓慢,甚至可以说有些滞后。但是,当经济建设到了一定程度时,为其服务的上层建筑不可避免地会进入调整期。这一次,将“政治”突然提到如此的高度,再联系到最近这一两年大规模的反腐行动,难道是说明政治体制改革真的要开始了吗?
   
    另外,“文化”也超过了“经济”。毕竟,光有钱没有文化,最多也就是个土豪。有钱了,文化素质上面也要上去点儿。但文化建设是搞一言堂,还是百花齐放?走走看吧。
   
    “教育”、“科技”、“国防”和“外交”的次序大致无变化。“教育”是立国之本,且其地位一直处于上升,这是好事。

(To be continued)

木不铎 发表于 2017-10-25 06:59:01

本帖最后由 木不铎 于 2017-10-25 07:14 编辑

      “制度”<=>“法律”
      http://www.aswetalk.net/bbs/data/attachment/album/201710/25/065354zae2r5addxrabrr8.png

             制度 政策 纪律 法律+法规+宪法
十九大:10029   15   6+2+8=13
十八大:10019   8    11+1+3=15
十七大:84   22   1    10+2+3=15

      “制度”作为一个关键词,一直保有较高的出镜率,看来将一切方针、政策、纪律等以”制度“的形式固定下来一直是TG的工作重心之一。毕竟“政策”、特别是“纪律”具有一定的时效性和多变性,在实际工作中经常不太受人待见,时常被歪嘴和尚念歪了经,执行与否、力度大小很多时候是看主政者的个人喜好。但是,作为一个国家真正的架构体系的“法律+法规+宪法”,并非重点关注对象。
      
    “刀制”<=>“水治”
   http://www.aswetalk.net/bbs/data/attachment/album/201710/25/065355s6ueix4v0uee0dxu.png
   
    法制,制(立刀部首)中带刀,俗称为“刀制”。“刀制”的英文是“rule by law”。 “刀制”的重点在于政府透过法律來控制人民,人民必須受到法律拘束,但是政府与执政者本身超越法律,不必受到法律限制。法治,治(三点水部首)中带水,被称为“水治”。“水治”的英文是“rule of law”。“水治”是将国家,政府与政治领袖都置于法律的规范之下,是所谓“法至上统治”。早几年,中国的法律界就有“刀制”与“水治”之争论。但从上图可以看出,自十七大(2007)以后,诸如此类的争论可以休亦。但中国的事情是,表面宣传和具体实施经常是两回事情。
   
    “斗争”<=>“团结”
    http://www.aswetalk.net/bbs/data/attachment/album/201710/25/065356yd2ls0cul60z8ll8.png
    团结一直是主流,但十九大与以往不同,“斗争”的重要性被显著提升。如果看一下与斗争相关的高频词汇,如下所示
   
    十九大:斗争(20) 军事斗争(3)
    十八大:斗争(3) 军事斗争(2)
    十七大:斗争(2) 军事斗争(1) 阶级斗争(1)
   
    我们所处的世界并非一团和气,无论是国内还是国外,都存在着各种各样的“敌对势力”。“军事斗争”在十七大(2007)年进入了大会报告中,但“斗争”与“团结”相比,显然并非关注重点。然而,在十九大,“斗争”一词的大幅度增长与“军事斗争”的小幅增长,可能反映出这里所强调的“斗争”主要并非是对外的斗争,而是一种“内斗”,即国内各个利益集团之间的勾心斗角。毕竟,“阶级斗争”作为一个历史词汇,已经在十八大时消亡。(注:1992年十四大时,斗争 vs. 阶级斗争 = 5 vs 4)
   
    “中国”<=>“世界”
    http://www.aswetalk.net/bbs/data/attachment/album/201710/25/065357yxb4m7j7zomjn6xm.png
    如果用“中国”、“世界”和“全球”进行搜索,结果如下:
                     中国    世界+全球
    十九大:193   39+16=55
    十八大:145   35+13=48
    十七大:138   35+8=43
   
    内政问题始终是关注的重点,外面的世界很精彩,但也很无奈。“攘外必先安内”和“韬光养晦”实际是一脉相承的。按照古人常说的“修身->齐家->治国->平天下”的顺序,只有“国治”才能“天下平”。毕竟,中国本身的政治和经济问题还很多,现在就学米国充世界老大,还太早。

狼人 发表于 2017-10-25 09:25:50

大数据应用的具体体现!

木不铎 发表于 2017-10-26 21:04:16

本帖最后由 木不铎 于 2017-10-26 22:46 编辑

    如果,用“国有”和“国营”代表“国有经济”,“私营”、“民营”、“个体”和“非公有制”代表“非公有制经济”,再加上“集体经济”搜索历届会议的报告,结果如下:
http://www.aswetalk.net/bbs/data/attachment/album/201710/26/210328yaghhgeahahh1hao.png
    “国有(营)”成为报告中的热词的时候,正是大下岗的年代。从1997年到2002年,国有单位职工数目从10766万人,减少到6924万人,近4000万原国有企业员工失去了工作,集体所有制经济持续萎缩。而非公有制(私营,民营,个体,非公有制)经济逐渐发展壮大,并成为中国GDP贡献的主力(2006年占比为63%),也成为最大的就业市场。根据《中国统计年鉴》(2016)提供的数据,全国就业人数在2015年底约为4亿人,其中国有单位为6208万人,占比15.5%,集体单位为481万人,占比1.2%,其它,即非公有制占比83.3%。

    尽管如此,与其他所有制经济相比,“国有”经济依旧是报告的关注重点,毕竟,国家经济体系的支柱行业依旧是国企的天下。至于集体所有制,属于“爹爹不疼,姥姥不爱”的小可怜,日渐势微已是必然。“非公有制”经济在中国的政治地位,比较诡异,虽然在经济活动中是绝对的主力,但来自意识形态的不利影响多多少少还是存在的。值得关注的是“混合所有制”在十九大又被提了出来,这也许是释放了新一轮“国企改革”的微妙信号。

            
    根据《中国统计年鉴》(2016)的数据,中国一、二、三产业在GDP中的占比分别为4.6%,41.6%和53.7%。如果用“农业”,“工业+制造业”,和“服务业+第三产业”,分别代表这三个产业,再加上“外贸+贸易”来代表“贸易”,并以此作为关键词对报告进行搜索,结果如下:
http://www.aswetalk.net/bbs/data/attachment/album/201710/26/210330q2gt0w3owzduuoz2.png   
    除了16大(2002),农业一直是最大的关注对象,第二产业次之,第三产业则一直排在末尾,这与三个产业在GDP中的排名正好相反。2002年比较特殊,工业(15)+制造业(4)出现的次数达到了顶点,估计那时是因为国企改革到了关键点的缘故。“农业”、“农村”和“农民”所代表的“三农问题”在历次报告中都被反复提及,因为这个问题一直存在,而且事关根本。由此看来,被提到的次数多,并不一定代表什么好事。对“贸易”的关注持续上升中,毕竟中国现在已经是世界第一大出口国和第二大进口国,进出口总额在2016年约为3.6万亿美元,比米国只少了2120亿,估计超过米国也就是一两年的事儿。

木不铎 发表于 2017-10-27 07:03:30

本帖最后由 木不铎 于 2017-10-27 16:58 编辑

    这里所用的方法是“主变量分析”,即挑出排名靠前的30个关键热词,然后统计一下这些词语在报告文本(十四大至十九大)中各自所占的百分比,这就形成了一个6X30的数据矩阵,每一行代表一个该报告在一个30维空间中的坐标,然后就可以进行主变量分析了。最后,将各个词语所代表的坐标轴,以及六次报告的位置投影到第一主变量(PC1)和第二主变量(PC2)的平面上。http://www.aswetalk.net/bbs/data/attachment/album/201710/27/070219wr88rmf885scv58m.png

   
    如上图所示,386的三次报告1992、1997和2002比较分散,其中,1992离“经济”最近,2002居中,中正平和,或者说“面面俱到”。486的两次报告,即2007和2012处于左下方,明显是一套风格,喜欢“发展”和“促进”,远离政治意味浓厚的词汇。而586呢,高居左上角,与前两任完全不同的风格,其(十九大)报告中强调的是“党”、“政治”、“人民”这三个名词,再加上“必须”和“实现”。这与前面分析中发现的“党的领导”和“政治”会加强的结论吻合。
   
    如果纯用单个汉字(去除“和”、“是”、“的”这类无意义词后)看一下,我们得到了类似的分布特征。
http://www.aswetalk.net/bbs/data/attachment/album/201710/27/070217r4795oo8ppwoz7wx.png   
    2002居中,没有鲜明特点,1992和1997靠右侧,不远处是“经”和“济”。2007和2012在左下角,2017高悬于左上角,旁边站着“党”字。
   
    好了,就到这里。
页: [1] 2
查看完整版本: 《十九大报告》之数据挖掘解读