5 r% c& V/ P7 I) |$ {
工业管理其实不懂,不过常在河边走,不会开船,也见识过开船,咱就瞎扯扯见到的事情,还请方家斧正。# }+ j$ B3 y" D, b
& o' Z( z+ ^, j1 a
工业管理的范围很大,既然咱们是“点滴谈”,那就只能挑着扯,比如项目管理过程、产品开发过程、技术改革过程、安全生产过程、规范操作和员工培训过程、设备维修过程等等。人事和财务的事情咱们不熟,那是河汊里的勾当,咱们在河边看不见,也乐得清净。原料供应、产品发送、生产调度也是大头,这些个事情也; A' x) x9 _& X. J3 L% L
不熟,只有打一个哈哈了。
" j2 w" c0 f$ N- s$ }! T " v, E) d# d: l" b) m
不管在哪里,安心日常工作的没有好果子吃,要升官发财,抓项目是最好的捷径,这一条,古今中外,概莫能外。大型项目的事情比较复杂,也都是请人做,马鹿对这档子事情熟悉,咱就不废那个话了。中小项目和“抓革命、促生产”第一线的人关系比较密切。况且不管在哪里,项目都是一时的,公司的成败还是要靠日常工作,吹鼓手围着的总是默默无闻、吭哧吭哧的抬轿手,这一条,也是古今中外,概莫能外的。而工业界日常工作最重要的一条,就是安全生产。这包括日常生产,更包括技术改造。
5 k. }* w0 A9 z8 x: P8 V* o6 b $ O8 M* U& Q& w" [5 g4 m
日常生产的安全操作涉及的范围其实并不大,归根到底,只有一条:规范操作。规范操作包括两部分,一是有健全的标准操作规范(Standard Operating Procedure,简称SOP),二是健全的员工培训和考核体系。. m* i Y W6 X5 |7 D6 {
+ G0 m( C0 v% Q+ k
健全的操作规范必须涵盖所有的主要设备的正常操作步骤,包括启动(start up)、停车(shutdown)、加料(inventory)、放空(de-inventory)、隔离(isolation)等。这是从单件设备出发的SOP,还有从生产过程出发的SOP,涵盖多个设备,比如反应器“点火”(light off,意为开始反应)、精馏塔开工、过程开工前的打循环(circulation)等。操作规范的目的不是束缚人们的主观能动性,而是减少操作中的随意性,避免不必要的人为错误。控制室里有一大排书架,放的就是各班组的SOP。除非是天天做的事,很熟悉了,否则只要有一点疑问,首先应该做的不是“不耻下问”,而是查阅SOP,只有对SOP有疑问,才到不耻下问的时候。所有操作规范必须标明:
) W' I' p/ p$ K/ |& M* n' B - 涵盖范围
" N) V5 s" `) Y' T7 P+ ~0 O! ^; Z - 操作步骤
9 s- I/ J: u1 i) `: f. g D - 延续时间
- \% w6 y" T S2 x% ]% C5 G - 参数数值
; o' c# _3 N2 d9 [7 e2 u; w! P - 遇到意外的处理办法(比如马达不肯启动,泵的压力上不去)
3 e( F% e: P! e9 q* o1 {$ Z- O* X7 e8 S `6 G3 J( l
非常重要的是,所有SOP都必须写明作者、版本(revision)和最后修改的时间。这一方面是明确责任,但更重要的是,到修改的时侯,有的地方可能不清楚原意,找原作者比较容易澄清。5 I3 m" q4 X- U. [+ y
. l5 _" p' }; g. Q# C. P
SOP的一个特别的分支是紧急操作规范(Emergency Operating Procedure,简称EOP),对所有可以想象得到的紧急情况,都要有相应的EOP,包括断电、控制系统全面失灵甚至重大天灾、恐怖分子袭击。EOP必须放在容易拿到的地方,便于在发生紧急情况时按图索骥。EOP不是给事先对应急处理没有任何训练的人用的,如果两眼一抹黑,完全靠EOP来应急,那肯定要误事。紧急情况毕竟少,很多人应该没有真正遇到过,完全凭记忆容易有遗漏或错误,对照着EOP就好多了。换句话说,EOP像考试时容许带书进去一样,用于提示的。
5 G3 G% k9 A1 |( u$ H# n
K: n' e5 Q% \# Y4 g& |
这是工厂里的情况,实际上开飞机也是一样。民航飞行员的飞行包里,就包括EOP,在发生紧急情况的时候,也要有副驾驶照着EOP念下一步的指令,正驾驶做动作。
8 B7 Z% O' U( m4 z& X
# u3 @! L9 j8 ?5 G$ G5 S
SOP包括的是方法,但不包括正常生产的过程参数。生产线开动起来了,只要不启动新的设备,就没有SOP什么事。接下来是调整过程参数,使产品达到规定的质量指标的问题,这就是标准操作条件(Standard Operating Conditions,简称SOC)。对于任一个产品,主要过程参数有目标值(aim)、高限(high limit)、低限(low limit),主要参数不仅包括质量参数(产品的强度、色泽等),更包括工艺参数(反应器的温度、压力等)。操作工的目标是将产品质量保持在目标值上,最低限度应该保持在高限和低限之内。为了保证质量,操作工容许对工艺参数作一定的调整。如果一切正常,质量参数在目标值上的时候,工艺参数也应该在目标值上。如果质量参数在目标值上,但工艺参数稳定在偏离目标值的地方,那生产过程肯定有什么地方出了问题,就要找问题,而不是简单地把质量维持在目标值上了事。操作工对工艺参数的调整以不超越工艺参数的高限、低限为界。如果工艺参数已经达到界限,但质量参数依然不能达标,操作工必须征求部门的主管工程师的指令,才能“越界”操作,大多数情况下,可以通过调节常用工艺参数以外的过程参数,帮助主要工艺参数回到正常范围。4 w$ X+ T" X: I: S% i5 A
% g1 T, F# A; L! R# u2 r( C7 @! ^
这是正常情况,但事情总是在不断变化的,技术进步的核心在于进步,什么都不敢或者不愿改变,死守陈规,那离落后过时也就只有一步之遥了。问题是怎么变。& o+ M1 ?; n4 d2 n
* W: [8 s6 w" |7 |' o; z
兴之所至、灵机一动地改变,变好了是侥幸,出了事故,那就悔之莫及了。如果有控制地改变,那就可以既容许改变,又最大限度地避免不必要的惊讶甚至灾难。这是一门学问,官话叫Management of Change(简称MOC,不知道合适的中文译名应该是什么?),或者Facility Change Management(简称FCM,同样不知道合适的译名),核心在于management,也就是说,有控制地进行。
' j3 O( {& D. }" @ k a
" U/ D2 U; Y7 ~
MOC的基本步骤是:; R2 R! m# k$ V/ Y' `0 ^! x
- 提出想法(idea generation)
6 w3 F: F, J9 n1 ~# h7 i - 评估可行性(feasibility evaluation); `7 ~5 Y5 I2 j, J0 ^. V
- 制定轻重缓急(prioritization)- g# l" q$ M9 X0 B: q' H6 L( |% Z$ [) U
- 评估风险(risk evaluation)- E: o7 l' y2 s9 Q$ F$ _5 t. H
- 实施(implementation)
# k( F1 ~' J: v0 N( e - 投运(commission)* S5 w& u6 B$ S* i6 k" E
- 书面记录(documentation)
0 K( n/ U, t! D$ ~1 O$ e - 交工(sign off)+ d/ Z7 |: o* R8 ?* c6 d
, V7 i6 c- E- k2 N0 \1 N
在更高的层次上,就要包括经济效益分析、公司经营方向什么的,就超出这篇小文的范围了。. e. C8 e! q7 x
% h& n5 N- J3 I+ Q- \
MOC涵盖所有和产品质量或安全生产、环境保护有关的行为。开发新产品、安装新设备、改革现有工艺、改装现有设备、改变SOC和SOP(包括EOP)修改控制系统硬件软件,都要受到MOC的节制,尽管具体适用的条款可能有所不同。9 f1 X2 V. B6 `5 E7 H$ O3 S Q
# p2 B) O; K+ ^! _( @
所有的改变都是从提出想法开始的。所有人对所有问题都能提建议,也鼓励体建议,但“说干就干”或者在建议箱里投小纸条的年代已经过去了,为了集中管理所有的建议,一般都用SAP一类的ERP(Enterprise-wide Resource Planning,指全公司范围的信息、资源和任务管理)系统。提出建议的人要阐明问题所在,可能的话,还要包括解决办法的建议。建议中要指定由哪一个部门负责处理这个建议。1 I E+ |: \# S" I5 L* E6 [9 U+ ^
' \. M$ ~* R. G& N
主管部门接到建议后,交由有关人员研究,首先确认问题确实存在,再对解决问题方法的建议作可行性评估,必要的话,要做一些试验对建议进行验证。在实际操作中,并不一定是这样“官僚”:你提建议,我审批。大家都是在一起工作的,对问题都心中有数,提建议的时候,已经有有关人员的参与,这时按MOC按部就班的主要目的,是把工作量列入有关的管理系统,好综合平衡轻重缓急。
- F$ ]6 k, T: f* v e! ? * f: @* b& `1 `1 I) @5 |# G
如果要进行试验的话,需要一些额外的步骤。各个公司的叫法不同,但一个比较通行的叫法是Experimental Operation Instruction,简称EOI。这是一个由规定格式的试验指导文件,规定
" V, B4 z x0 U$ w6 K - 试验的目的
. m! D7 z3 l$ R: x - 理论依据
' ~/ y2 M: F- W - 考虑过的其他方法
( f+ w+ U1 |. l# |# s) h( C4 O - 为什么不用其他方法
% w. O2 v8 F& g" B - 试验可以开始的条件
9 ~: ~* ~9 |) W; B* } - 具体的试验步骤% y. S; ?- x2 s; ?& q& E
- 需要特别注意的工艺和质量参数- h! ~1 r3 N; u* P/ |' U0 |9 C: }
- 试验时机
% A/ y- _) v4 ^5 m& R9 w - 时间长度, v( ~+ j E; ?3 i8 ^; s U+ j
- 由谁主持2 S: i* R* o+ T1 E/ w6 R
- 需要什么人在场5 ~2 ?- U/ b: d' l
- 可能出现的意外
+ b4 B' _. ~/ Q* v" v% J - 对已知意外情况的处理* }0 U( \" h Q
- 出现意外时由谁决定下一步怎么办
& z* v7 I, R' o* L( n' c4 v - 试验成功的准则
( c, [/ S8 ?. V. K2 h - 中止试验的条件
( a( p1 f$ _0 w - 需要什么样的支援人员和设施当班或待命! P1 O) x* I# Z! A
$ p% P" g' M8 P9 S* |2 g9 [9 Q: r
当然,光有EOI文件是不够的,所有EOI要进行风险评估,很多意外情况在制定EOI文件时没有考虑到,奉献评估的结果要加进EOI文件中去。EOI开始前,有关人员要对操作人员作讲解,回答操作人员的疑问或质疑。最重要的是,EOI完成后,要及时写出书面的总结报告,把试验结果和发现记录下来。EOI记录是非常重要的,这是重要技术改革的依据,和经验的总结。实际生产中,变化的因素太多,光靠数据分析有时无法区分导致特定现象的原因,只有EOI这样有控制的试验才能确定因果关系。( Z: K8 f" s6 c
8 ^6 S, p( ]: q2 _! A3 w: F
人们对改变现状的想法可能很多,有关人员的手头也不会闲着,这就需要对所有建议的轻重缓急作综合平衡,这就是所谓prioritization,确定优先等级。一般每星期几个部门的人都要碰一下头,对全厂的具体任务作prioritization。0 ]: }$ f6 w- m0 F
" t0 W: c" H# \; t7 @* O
对于比较小而简单的任务,前面有些步骤可能省略或合并,特别简单但只有中等重要程度的工作可能比更重要但非常复杂的工作先作,但有一件事是永远不能省略或合并的,那就是风险评估,这是MOC中最重要的一步。即使从法律角度来说,万一出了事故,追查责任的时候,也有证明表明已经尽到努力(due diligence),而没有玩忽职守。现在什么事都动不动打一场官司,这还是很重要的。即使现在没有近在眼前的危险,秋后算账的可能性肯定存在,寄希望于“法不责众”作为日后的麻烦的开脱是非常不可靠的。) o- L1 ]3 ?& s9 \9 X c! {9 s
# g+ _- u4 h- |: |
风险评估有两方面,一是产品对用户的安全风险,包括环境保护要求。这主要包括各种行业和公司内部标准和产品测试。FAA的适航性规范、DOT的车辆安全标准、ISO/ASA/CAS/JSA/TUV/IEC/IEEE等各种标准组织的标准及认证方法,都是管这个的。这些标准的制订、修订和认证有一个严格得繁琐的过程,目的就是要确保产品对用户和环境的安全。以双发民航客机的ETOPS为例,ETOPS意为Extended-range Twin-engineOperational Performance Standards,意指在空中单发停车后,靠剩下的单发能够继续维持安全飞行和着陆的时间。ETOPS决定了双发客机的越洋航线,因为这些飞机必须在离备降机场不超过制订飞行时间内的走廊飞行。40年代时,FAA指定ETOPS60,所有双发飞机的航线不得远离备降机场60分钟以上。到了波音767年代,在足够的发动机可靠性数据金额双发飞机安全运营数据的支持下,标准放宽到ETOPS120。波音777的航程进一步超过波音767,只有进一步放宽ETOPS才能发挥其经济性。除了新的发动机可靠性数据外,FAA规定,只有在按ETOPS120运行一年以上没有问题后,才可以申请ETOPS180。认证过程过程包括飞机满载情况下,在海上实际关闭一台发动机,在规定时间内,飞机不光要安全稳定,也不能对飞行员有过分的补偿要求。除了对飞机本身认证外(称为typecertification),对航空公司和机组乘员的训练、机修保障、技术支援也要认证,这称为operationalcertification。只有两个认证都齐全了,才能飞认证的ETOPS等级。这些标准不是绝对不可以违反的,但对于每一个这样的特例(exception),一定要有详细的试验和说明,证明这样的违反不会造成对安全或环境的损害,并且明确告知用户。必要的时候,需要由发布标准的当局对这样的特例开具“个案处理”认证。波音777就获得了FAA的特许,不需要先运行一年ETOPS120,而可以直接按ETOPS180认证。不过欧洲的EASA(过去陈JAA)还是不理这个茬,所有在欧洲飞行的波音777照样要一年ETOPS120后才能申请ETOPS180。; ~. U- J) C$ P1 A* `5 M2 B- d% _
! y& b+ w% y( [* F+ }
第二个就是对生产过程的安全和生产设施的环境的风险评估。公司内部都有安全标准,这是结合行业标准和公司实际制订的,对工程设计和施工作具体的规范。公司标准一般比行业标准更严格,至少不能低于行业标准。对标准的实施,主要靠各种风险评估方法。“危害和操作性分析”(Hazard and Operability Analysis,简称HAZOP)是一个常用的方法。HAZOP把整个生产装置细分到每一件设备、每一段管道,对这一段里按more、less、no、different来分析,more可以使压力更高,流量更大,温度更高,等等,less也是一样。No可以是less的一个特例,也可以不是,比如压力低和抽真空就不是一回事。Different指这一段管道或设备里进入不是本来设计所针对的物料,比如催化剂和原料单体跑窜了的情况。HAZOP对每一件设备、每一段管道的所有情况按部就班地分析,提出出现意外时的解决办法(risk mitigation),直到确认风险已经是可以接受的地步。一般情况下,“那就没有办法啦”是不可接受的。不过HAZOP只考虑“单一危险”情况,而不考虑“双重危险”(double jeopardy),也就是说,对于ETOPS的情况,只考虑一台发动机熄火的情况,而不是一台发动机熄火、而且液压系统失灵,或者两台发动机同时熄火。对于特别危险的过程,有时就必须考虑“双重危险”的情况,这样HAZOP的工作量剧增。
: p0 ~" [7 x' w , M9 S( n S# ?+ U' s! W5 S& e
对于不太复杂的小任务,可以用简化的SQRA(SimplifiedQualitative Risk Analysis),先问问题,“要是……”,然后分析后果,接着是出现的可能性,比如每年至少出现一次,或1000年才可能出现一次,等等,还有就是严重性,比如出次品,或者会出现人员伤亡,等等,最后提出解决办法,和实施解决办法后的剩余风险。如果风险足够小,就接着分析下一个情况;如果风险没有办法降到低的可以忽略不计的地步,就要上峰拍板,承担领导责任。) l; R+ `5 h' }! S$ X
( H1 w- G: W6 W9 J; o
HAZOP太兴师动众,一般只有新设施或重大改造才用。日常的小改小动,用SQRA比较合适,这包括机械、管路、控制系统硬件、软件、SOP和SOC的修改等等。1 A$ t6 |4 a7 U5 F
6 e9 s7 D* n- O1 a3 x: J2 O
控制系统对现代过程越来越重要,控制系统的可靠性不再能靠“毛估估”过关。Safety Integrity Level Analysis(SIL)就是专门用来设定控制系统所需要的可靠性的。SIL有三个等级,按发生的机率和严重性来界定。SIL 1是通常的等级,容许采用“普通”等级的系统,但控制回路和安全连锁贿赂仍然必须相互独立,不能公用传感器,以防止“一损俱损”。SIL 2属于关键系统,必须有专门的安全连锁系统,通常必须有全线冗余系统,甚至不光是双重冗余,还要三重冗余。所有设备必须和SIL 2的等级相符,系统结构和参数的修改需要通过严格的步骤。SIL 3就是核电站、民航客机的级别,已经超过一般工业安全等级了,没有涉及过,想来应该更严格,HAZOP也必须考虑双重甚至三重危险的情况
% {+ ?6 `+ @' A/ f! }9 Q5 M。核电站控制系统、民航飞机控制系统常用古董级的8088、80186、M68020等芯片(Eurofighter Typhon的飞行控制系统就是4片M68020),原因就在于这些可靠性要求特别严格的应用场合,系统地认证非常花时间和金钱,如果使用要求没有改变,一般不会因为元件过时而轻易升级,由特别的芯片试制工厂按实验室规模小批生产也比重新认证划得来。( i) H) X' Y' \
, n5 _; K$ @( k/ X
新建设施除了HAZOP,还要对所有设备和管路作SIL分析,所有控制系统的仪表和软件都根据相应的SIL要求指定。改建、扩建时,SIL按需要重做。
* ?& k+ Q" ~' D( g: C4 X' K @2 Y: N* o# E5 j: O! M
到了实施阶段,这就看具体的工作了,各个行当都有自己的规定、规范,得按规矩来,不能兴之所至。要紧的是,稍大一点的任务,一般不会一个人独自完成,而是由一个同行核实。这不是信任问题,人无完人,孰能无过。在危险的工作场合,比如进入密封容器(confined space),起吊重物,必须有专职的安全监护(safety watch)在一旁,随时准备提醒甚至营救,绝对不能出现发生事故后,操作人员受伤而无法呼救的情况。人们常对西方工人“一人干活两人看”,其实这两人常常就是safety watch,不时在那里闲逛。! Q( p* W# ^" M; b0 _. E6 v; S& Y
' {3 m* y9 k( Q/ l: o3 I* ]3 B
维修人员开始工作前,都必须取得“工作许可”(work permit),写明任务范围、注意事项,必须有工段主管人员签字。不同等级的工作有不同等级的许可,比如“密闭空间许可”(confined spacepermit),“开挖许可”(excavation permit),“动火许可”(hot work permit),尤其是动火的工作,比如需要切割、电焊什么的,分为“黄色等级”(yellow hot,有温度,但没有明火)、“红色等级”(red hot,有明火)、“白色等级”(white hot,高温明火),哪一级的主管可以签哪一级的字。干活之前,必须和当班工人通气,取得同意。在工作现场,所有开关、阀门都挂牌,分黄牌、红牌。黄牌是警告性质,比如灭火器、脚手架的有效期,红牌表示“不要动这件设备”,可能是正在维修,或者生产过程临时改变。牌上写明挂牌理由,并表明工作许可号,这样可以查对。0 i3 R: ?* V8 Z: s( ?0 f! {
/ Z% |$ l9 G( U) v
控制系统(尤其是安全连锁系统)需要临时增减功能时,需要专门的“临时失能许可”(impairment permit),同样需要写明原因、范围、有效时间等。各个公司的规定不同,但一般impairment不能超过72小时,超过72小时的,需要按MOC处理。
' D7 S5 k n# e% b1 ?5 }
3 ]# u0 K9 }0 ^. a) s4 B' N0 Y
维修人员进入生产现场前,都要通报控制室有关人员,并通报外场人员,还要在“签到板”上标明自己的名字和要进入的区域,万一发生事故,抢救队可以知道到哪里去找人。
1 Y# o5 X* M" _; T
2 W' n; p; b7 q# F7 B/ b& H
在北美,安全第一的概念不是说着玩的。成绩最卓著的工作人员,如果忽视安全,屡教不改,照样开除。为了产量而忽视自己安全的人,非但得不到嘉奖,还会受到乘除,因为他不仅危害自己的安全,还可能危害他人的安全。北美也没有什么“抢救国家财产”的事,你冲进去了,抢救队就要冲进去救你,这就危害他人安全。在灾难性的事故面前,操作工的职责是关闭火源(或者别的灾害来源),把装置置于事故安全状态(fail safe state),然后自己逃命。冲进灾害现场抢险只有在有必要的后援时才进行,没有受过专门训练并有此职责的人,不鼓励参加抢险。4 J" o0 q# z5 [! H) \# f$ n
! _3 ^0 ]9 o1 \- @/ n
说一句题外话,国内很多化工厂实行公园化,大量绿化,看着赏心悦目。但北美化工厂非但不绿化,还特意把所有空地的土质地面压实,铺上石子,每年还要喷洒除草剂,确保没有任何杂草,这是为了确保不会因为零星火星引起火灾,万一起火,空地可以起到阻隔火势蔓延的作用。平日的视觉效果嘛,只好牺牲了。) p W$ C4 U2 _% J5 d
8 b6 y( B+ C. ?4 k+ K& b
投运也要看各个专业的具体情况,复杂系统投运本身就有一整套投运操作规范(commission procedure),这些规范也要经过风险评估。控制系统投运都要先行试验,确保工作正常。
+ K" J& G0 a# b- }* C1 o & A. @+ Q) A2 q& _
越扯越远了,先到这儿吧。5 ] T5 h3 _1 g3 c) j. I l7 b$ V
|