作者 | 馬可薇,凌敏
這個“鍋”,誰都別背。
谷歌最早在 2003 年就提出了 SRE(Site Reliability Engineer,站點可靠性工程師)概念,經過 20 年發展,SRE 不僅是一個崗位,更是一個體系化的工程,并已逐步在越來越多的大型互聯網公司落地。
日前,谷歌 SRE 工程師 Michelle Brush 在 InfoQ 英文站發表視頻演講,分享了谷歌 SRE 工程的關鍵策略——反“背鍋”文化。Brush 認為,反“背鍋”文化并不是完全對個人無問責,而是構建一種持續改進的文化,并賦予人們權力,創建一種能讓正確行為持續發生的環境。
問責:
以結果為驅動就是對的嗎?
構建反“背鍋”文化的第一步,是先明確“問責”二字。
不少互聯網企業會經常提到“問責”二字,但實際大家對“問責”的理解并不一致。有人認為“問責”是指因為錯誤的決定而受到懲罰,或者是必須面對自己行為的后果。Brush 則認為,“問責”是組織保證你會被根據自己為所負責的事情而做出的相關行為,所產生的后果進行評估。
這里面每個關鍵詞都有其存在的意義。比如保證、負責、行為三個關鍵詞代表了組織的保證。在組織與個人之間存在某種信任或合約,保證評估不僅是根據結果,還會根據其在需要承擔一定責任的情況下做出的行為。這些要素都很重要,不能只挑其中兩三個執行。
然而在實際工作中,有些組織忽視保證、負責、行為,只關注后果、評估,試圖將重點放在對員工的評估上,僅根據結果對決策進行評估。這種情況通常會出現在那些自稱“以結果為驅動”的組織中。有的組織自稱“以結果為驅動”是在試圖表明自己會在工作的開展方面給予員工自主權,不會微觀管理或過度規定;有的則會通過這句話表明自己在乎的有且僅有結果,不在乎是這個結果是如何達成,中途又斷了多少退路、錯待了多少人。
知名牌手 Annie Duke 曾在《用賭注思考》一書中提到組織中的領導者和撲克玩家在早期常見的一種糟糕的傾向——“結果論”——無論行為如何,都將決策的好壞與結果掛鉤。如果一家組織只看得見結果,那他們永遠沒法真正學到東西,因為在任何事中都有運氣的成分存在。
Brush 認為,世界很復雜,系統很復雜,組織也很復雜,大家沒辦法掌控所有變量。有時會相信通過概率、可能性或是一些僥幸,才能讓事情完全正確或完全錯誤。這種情況下,如果只評估結果,那么你會對組織以及什么可行、什么不可行有非常糟糕的理解。這也是為什么我們需要看得見所有要素,需要在評估的過程中包含結果和行為,而組織也需要保證他們會看重所有的要素。
評估與提升:
將行為和結果相結合
如果企業不以結果為驅動,那么該評估員工的哪些行為?如何判斷行為的獎懲?
Brush 認為,這是價值觀的問題。組織或團隊都會有價值觀,比如更重視交付速度、成本降低,或者是創新等等。公司通常會從這些價值觀中衍生出一些規范,讓員工明白哪些個人行為在這個價值體系中占據了一定地位。如果重視這些行為,確實能帶來良好的結果。反之,如果還是只看重結果,不僅看不到什么該做、什么不該做,甚至可能還會遇到這樣的場景——人們會因為做了自己想要的事而得到獎勵,而不一定是因為做了正確的事而被獎勵。
如果只按照行為獎勵,比如“不相信結果,我只想確保人們永遠在做對的事,我要為此獎勵他們”,那么你很可能讓組織的創新和效率為此受損,因為你周圍的世界會不斷變化。如果你一直在做自認為可行的事,那么即使這些不再能行得通,你也不會注意得到。
將行為和結果相結合后,如何再進一步提升?
Brush 認為,要想提升工作,就要去回顧成功的經歷,要知道在自己的系統中,什么算是成功,一切順利時又是什么樣的?目前有哪些行為?如何持續?如何重現?如果沒法重現,就要看員工每天都在做什么,是有他們的什么行為保證了成功的發生?接著,還要仔細地觀察并思考,假設如果停止這些行為會發生什么?結果會有什么變化?人們不再進行這些行為之后組織會有什么變化?
這樣做的目的是小心幸存者偏差,不能只關注正向結果,認為所有導致正向結果的事情都必然是實現正向結果的一部分。此外還要關注險些成功的場景,要知道是什么讓你僥幸避免了一場災難的發生,并確保這些幸運能夠重現。還要關注事故、錯誤、意外、中斷場景,并捫心自問,情況是否會變得更糟?沒有變得更糟是因為僥幸嗎?如何做得更好?不從預防發生的角度來看,而是如果這類事情再次發生,組織將如何采取不同的應對措施?組織要如何更好地確保每個人都能在這個時間點上做正確的事?
在過去,Brush 見過不少類似的情形:組織在分析時花了太多的時間考慮要如何阻止事情發生,而忘記了人總會犯錯,軟件總會有缺陷,硬件總會出故障,過度地預防會讓人失去對組織中軟件更為彈性的豐富理解,而這才是大家真正想要的。此外,如果人們花費了過多時間在預防上時,可能有時會不慎回到根因分析的模式中。
根因分析:
一定要找個“背鍋”的人嗎?
提到根因分析,有人認為,若想在組織中實行問責的制度,就必須讓人們為自己犯下的錯誤負責。Brush 在職業生涯早期時也是這么做的,但她發現,這種觀念的本質是,我們期望那些導致不良結果的行為或決策的參與人,成為推動解決方案的人。無論是否有意,我們都是將追溯總結視作了懲罰。
這是因為要想讓一切運轉起來,就需要找到一個“背鍋”的人,一個承擔責任的人。要做到這點,有時候得將一切過度精簡到一系列的事件,從而找到一個決策點,這樣所有人都能一致認為這個決策點才是問題的根本所在。之后再找到是誰該為這個決策點負責,并將其稱之為是“根因”。
為了保證這類事件不再發生,企業把工作任務交給背鍋的人,讓他們寫報告,把所有事情都承包了。很多時候,除了這些工作,企業還會再加上一些可怕的流程,比如到領導面前解釋發生的一切,可能還會再挨上兩句罵。所有這些,無論有意與否,本質上都是懲罰,都是行為的后果。
這并不是一個好方法。在人們犯錯時給予懲罰,通常會導致他們在犯錯時不告訴你,“找根因”又會讓一切變得更糟。因此,不能一味地認為追究責任就是讓造成問題的人去解決問題,去寫解決問題的方案。
這又引出了關于大棒與蘿卜的討論。每個組織都有各種宏觀和微觀的獎懲措施,這些獎勵是蘿卜,而后果則是大棒。多數時候的后果和行為管理期望都是如此,為不順利的事情承擔后果,為順利的事提供蘿卜或獎勵。
那么問題來了,懲罰真的有效嗎?這其中有很多研究和探討的空間,但一般來說,答案是否定的,正向增強往往比負向增強要更有效。要想在組織中建立正確的行為,你得有正確行為的標榜。你需要體現出組織鼓勵正確的行為,但不一定要建立懲罰或后果文化,因為后者會導致人們不想惹麻煩而對你有所隱瞞。
每個人都有自己的平均表現,在行為進行或結果實現的過程中,處處都存在可變性。對于平均表現水平而言,如果有人在長時間內將一切都做到好,那么在另一段時間內這個人大概又不會做得很好。這種是符合人類表現的鐘形曲線的。

有趣的是,真的有人在試圖解決故障或事故時踩過這個坑。他們在做事故分析時,可能會想出一個絕妙的主意,比如說通過減緩發布速度或者添加額外審查之類的,試圖避免這種事故在未來重演。而在落實這個主意后,一段時間內事情似乎是在向好的方向發展,但這也是在復雜度與曲線的擬合,一切只是又在向均值回歸而已。
此外,幸存者偏差也存在于這種場景下。如果我們光是看到進展順利的事情,就稱這種行為或結果致使了事情的正向發展,那么我們其實是忽視了在同樣行為下,進展不順利的情況。一般來說,正向增強勝過負向增強,為了讓人們做正確的事,我們寧可要獎勵也不要后果。
這背后,其實更關鍵的是內在動力勝過外在動力。讓人們因為對自我的認同感而去做正確的事,而不是依賴外界的獎勵或后果,這樣可以提高成功率。但即使在我們發現了這種模式并試圖改變行為從而獲得不同的結果,或者說是組織想要學習并做出不同的舉動,激勵方式也不應該是在員工做出正確行為時立刻給予獎勵,或者是在他們沒做對時立刻進行懲罰。我們實際想看到的是如何為員工創造動力,讓他們能自發地去做這些事。
《如果你非常聰明,為什么你不快樂?》一書中提到,人們處于一種流動感時會感到快樂。流動感也就是我們所說的狀態,本質來說就是人們效率超高且完全沉浸于工作之中的時候。我們能給予人們的流動感越多,便越能讓人們想要去做正確的事。也是就是說,對這種流動感的破壞越大,人們就越容易做錯事,因為我們沒有為他們創造動力去做正確的事。如果我們想要激勵人們去做對的事,我們需要想明白該怎么從這一角度入手,怎么利用這四點(目的、自主、掌控、流),讓人們自發愿意去做正確的事。
在《如果你非常聰明,為什么你不快樂?》這本書中,還探討了人們會因為什么才會更快樂。人們不會因為升職加薪或是其他什么原因而更快樂,因為這類事情發生的頻率太低了,所以它們不是個好的激勵因素。通過對比得來得快樂或幸福也是非常短暫的,因為你很快便會常態化現在的處境。你需要減少對這方面的關注,而將驅動力視為重心。但這也不意味著你不該給員工升職加薪的機會,升職加薪還是該有的,但卻不該是驅動員工每天做正確事的動力。
除了對升職加薪這些短時效性獎勵的過度依賴,有些企業會對目的過度依賴。
Brush 曾在一家醫療機構工作過,這家機構常常會把醫生或護士請來,給工程師講講糟糕代碼的后果,比如代碼錯誤可能導致病人死亡,試圖借此讓工程師們寫出質量更高的軟件。或許企業會以為這樣能激勵工程師,給大家一個強烈的目標和使命,大家就會自然而然地做正確的事。但這實際上,這樣的方式非常打消大家的積極性。一是這會讓大家產生焦慮,大家只想盡可能降低自己的責任,減少對發生結果的內疚感,出事了也不會被指責;二是這會讓大家感到憤怒,這是在居高臨下地暗示大家,寫這個軟件的原因不是構建系統需要優化,也不是需要更好的測試工具,而是在說“你們不了解情況,如果我們愿意告訴你怎么做,你們才能做得更好”。
因此,企業不要把獎勵看作是為了讓人們做出正確事而懸在他們頭頂的蘿卜,而是用日常或更為頻繁的獎勵以填補晉升或補貼周期之間的空隙。人們其實非常喜歡驚喜和愉悅的事。在 Brush 負責的一個項目中,人人都在為追趕進度加班加點,Brush 為了表達對項目中大家努力工作和性能提升的感激之情,給所有的人都買了一輛 Hot Wheel 小車。直到今天,Brush 還能收到大家的消息,告訴 Brush 他們在清理櫥柜時看到了這輛小車的圖片。
如何理解反“背鍋”文化?
Brush 認為,反“背鍋”實際是指構建一種持續改進的文化,或至少要與持續改進的文化相輔相成,而建立這種文化則必須賦予人們權力,創建一種能讓正確行為持續發生的環境。你需要獎勵提升而不是一成不變。
比如,有時組織里會設置一個高不可攀目標,然后等到人們達成這個目標時才給予獎勵。但這會導致人們缺乏改進的動力。狀態好的人達成了目標后會開始摸魚,畢竟他們已經完成了任務,而離目標還有十萬八千里的人可能會覺得這個目標太難了,他們下輩子都沒辦法完成,并最終放棄了實現這個死目標的動力。
企業希望能獎勵改進,為發展和探索留出時間,讓人們能夠發揮創造力,擁有掌控的能力,擁有用不同方法完成任務的自主權。此外,企業也要不斷去尋求并聽取反饋意見,尋求批評建議,讓批評成為文化的一部分,真正地去獎勵改進,變得更好和保持很好都是可以接受的,即使是做到最好的團隊也應該尋求建設性的批評和反饋。
有些人太害怕去責怪他人,他們其實并不想去批判性評估任何決定,只想假裝一切正常,或者只想創建一個只會做對事的環境。這兩種原因相結合,就形成了“不健康的積極”——組織所創建的文化中,只希望看到進展順利的事情,就好比是“不允許失敗”的文化。這樣的結果就是,人們不再鼓勵或直接拒絕建設性的批評。
在只鼓勵積極信息的環境中,人人都在贊美他人或者認為一切都很順利、都很好,一旦有人站出來說事情其實進展得并不好,有需要面對的風險沒有解決,會有問題出現,那么這個人就會被這種文化所制裁。因為在這種文化內,沒有人會這么做,也沒有人會去提及這些東西。而如果人們會因為提出風險或者承認失敗而受到懲罰,那么他們也將被要求對任何決定做出毫無轉圜余地的承諾,只能承諾不能否定。這會導致非常不健康的積極環境。
比如,有些企業的文化是“要想反對,必先提議”。這聽上去沒什么問題,要是有人想提出一個風險點,那他們肯定不能光是嘴上說說,他們得給出正確的做法,給出解決方案。但這么做的問題在于,人們能發現風險點,但這不是他們的工作內容,他們有自己的任務,也有其他的工作,他們只是正巧發現了某些事情可能會進展不順。
這種“要想反對,必先提議”的文化會將解決問題的重擔壓在提出問題的人身上,指出風險點意味著工作量的增加,意味著額外的工作內容,人們不會想為額外的項目而操心。千萬小心不要創造出這種有風險提出者承擔解決責任的環境,聽取批評性反饋可以,建設性建議則是更好。當然,即使是沒有具體的實施計劃,建設性建議可能會改善組織或系統的整體成功。
要想正確地做到反“背鍋”,需要具備一種“容許框架”的素質,也就是說,你必須要認可他人的能力,要默認他人是能夠做對事的。捫心自問,是什么讓這個決策在當時看來是最優的選擇?在人們面對困境時,所有制約因素都自相矛盾,也許他們時缺乏特定技能,也許他們具備應有的技能但系統卻是一團亂麻。他們或許不知道該怎么辦,只是試試看會有什么結果。錯不在他們,也不是他們做出了錯誤的決策,只是系統如此,他們別無他法。
很多組織會將其歸結于缺乏培訓。一些組織花費了大價錢編寫培訓內容并讓所有員工都去上課,祈禱著人們能記住教訓,并在下次同樣的事情發生時能長記性,但同樣的事并不會再次發生。不要指望通過培訓讓人們掌握所有知識并做出正確的決策。相反,應該從系統的角度思考問題,人類作為系統的一部分,他們在創造、使用技術,他們身處特定環境之中,有自己要遵循的制度和程序,也有企業所制定的激勵措施。這所有的一切都由反饋回路相連,從而形成一個龐大的社會技術系統,允許人們各行其是。
在明白這點后,企業可以進入與人相關的討論,找出哪些部分需要調整才能讓下次的結果更好。有的時候答案是技能的開發,有的時候則是因為企業送員工走上了失敗之路,因為企業對員工提出了要求,卻沒給他們準備的機會,在后者發生時默認地選擇線上或導師培訓,這些項目的投資回報率非常低。
寫在最后
總的來說,反“背鍋”的最終要訣,其實就是評估行為和結果,而不是二者選一。你需要回顧進展順利、勉強成功,以及進展不順的事情,而不是緊盯著那些進展糟糕的事,需要避免因果律信條和根因分析,確保沒有將一切過于精簡從而導致問責式結局。
如果企業希望人們能認領解決方案并做對事,應當使用目的、自主、掌控以及流,這些才是人們日常工作的動力源泉。企業需要創建持續改進的文化,消除由可視性驅動的規則、規定和衡量標準。最后,將決策轉移到信息方向,而非反向而行。
原文鏈接:
https://www.infoq.com/presentations/blameless-accountability/