偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

雙11大隊長霜波:從手忙腳亂到胸有成竹,我們?nèi)绾巫哌^這十年?

企業(yè)動態(tài)
十年間,依賴于迅速崛起的互聯(lián)網(wǎng)技術(shù)以及各項新興技術(shù)的沉淀,阿里巴巴締造了全球數(shù)字經(jīng)濟時代的第一“操作系統(tǒng)”。在這個操作系統(tǒng)上,讓全球消費者和商家買、賣、逛、聽、看、游得順心、放心、舒心。

 [[248898]]

2018年,雙11迎來了十周年。

十年間,依賴于迅速崛起的互聯(lián)網(wǎng)技術(shù)以及各項新興技術(shù)的沉淀,阿里巴巴締造了全球數(shù)字經(jīng)濟時代的***“操作系統(tǒng)”。在這個操作系統(tǒng)上,讓全球消費者和商家買、賣、逛、聽、看、游得順心、放心、舒心。

十年間,阿里巴巴的技術(shù)同學和全球開發(fā)者們,一起把互聯(lián)網(wǎng)前沿技術(shù)轉(zhuǎn)化為全球消費者、全球數(shù)字經(jīng)濟參與者可以感知的便利。

它如今已經(jīng)不僅僅是全球消費者的狂歡節(jié),更是名副其實的全球互聯(lián)網(wǎng)技術(shù)的演練場。

第十個雙11即將來臨之際,阿里技術(shù)推出《十年牧碼記》系列,邀請參與歷年雙11備戰(zhàn)的核心技術(shù)大牛,一起回顧阿里技術(shù)的變遷。

今天,天貓技術(shù)質(zhì)量部資深總監(jiān)、雙11大隊長霜波,將帶領(lǐng)大家,細數(shù)每一年雙11的重要節(jié)點和突破,遺憾與不足。我們相信,無論是雙11,還是你正在經(jīng)歷的項目,都需要敬畏和細致的態(tài)度。所有的成功,一定是每個人***努力的結(jié)果。

[[248899]] 

雙11大隊長霜波

2009年

2009年是淘寶商城成立的第二年,這一年的秋天,運營的同學想搞一場營銷活動,逍遙子喜歡四個一,而11.11又是網(wǎng)民創(chuàng)造的“光棍節(jié)”,所以就選擇了這一天。誰也沒有想到,這樣一個帶著點隨意的選擇,竟然在若干年后成為影響中國乃至全球的大事件,造就了電商行業(yè)***影響力的品牌——雙11。

***屆雙11的活動口號是全場五折,拉了幾十個商戶參加,未曾想效果驚人,淘寶商城的成交額是平時的十倍。幸運的是,在2009年初,“五彩石”項目,將淘寶和商城的系統(tǒng)底層架構(gòu)統(tǒng)一了,雖然商城的成交額增加十倍,但由于基數(shù)還比較小,這個成交額和淘寶的日常成交額比起來并不大,因此系統(tǒng)上沒有出現(xiàn)特別重大的事故。

盡管如此,暴增的流量還是讓工程師們措手不及。采訪當年***屆的工程師四虎時,他回憶說:“***年雙11,作為交易系統(tǒng)的owner,接到老板指示,光棍節(jié)要搞個活動,你值一下班。那年我們啥都沒做,就坐在那看服務器的情況。0點一到,發(fā)現(xiàn)服務器流量暴增,一下子服務器就掛了。我們就手忙腳亂地去重啟服務器,恢復系統(tǒng)。系統(tǒng)起來后,發(fā)現(xiàn)店鋪和商品圖片又出不來了。***次雙11,可以說完全是意料之外,沒有做任何準備的,不僅僅是把我們的交易和商品系統(tǒng)壓掛了,同時把很多商家的外部圖片空間也給壓掛了。服務器容量、網(wǎng)絡帶寬容量、系統(tǒng)保護都是沒有的。”

2010年

吸取了上一年的經(jīng)驗,2010年雙11之前技術(shù)部門專門成立了大促小分隊,負責保障穩(wěn)定性的同學在創(chuàng)業(yè)大廈10樓集中辦公。那一年,高峰不在0點,而是出現(xiàn)在第二天白天,早上10點左右CDN的容量很快達到上限,圖片展示越來越慢,眼看就要出不來了。大家緊張起來,激烈地討論還有什么辦法。有人提出搜索的圖片展示占了很大的容量,可以將搜索的大圖降級為小圖。然后給搜索的負責人打電話,通知他:“對不起了,我們要對搜索的圖片降級了,雙11結(jié)束就給你們恢復過來。”這一招幫助當年的雙11渡過了容量的***風險。

之后,每一年的搜索大圖降級小圖都成了雙11的必備降級方法之一,雖然后面再也沒有啟用過。同時,每一年雙11之前CDN都會拉一個大會,讓所有業(yè)務評估自己雙11當天的CDN使用量,提早2個月就開始擴容的準備。“所有的苦難都是用來幫助我們成長的”,這句話用在雙11當中特別合適。

四虎回憶第二年的情景:“第二年,我們開始有了心理準備,預計流量是平時的3倍5倍,但是實際流量遠遠超出我們的想象,達到了平時流量的十幾倍。不過基于前一年的經(jīng)驗,這一年我們做了很多工作,分布式系統(tǒng)的防雪崩、核心系統(tǒng)的自治,這些技術(shù)改進讓我們的系統(tǒng)比上一年好了很多,雖然0點高峰還是出現(xiàn)大量的購買失敗,但是服務器沒有大面積宕機,流量下降后能夠繼續(xù)良好地服務。”

2011年

2011年淘寶商城成為獨立的事業(yè)部,雙11對于剛剛成立的淘寶商城技術(shù)部已經(jīng)是一件相當重要的大事,各團隊提早幾個月就開始準備,并且上線了***期的價格申報系統(tǒng),完成了雙11的商家商品報名的工作,一切似乎都很順利,可是……

11月10日晚上23點,有人反饋設(shè)置的優(yōu)惠價格寫錯了,3折的商品寫成了0.3折。

23點32分確定砍掉折扣0.5%以下的商品,然后需要推送到整個商品庫。執(zhí)行到一半的時候,越來越多的人反饋商家把優(yōu)惠理解錯了,擔心影響太大,決定砍掉1.1%以下的商品,但是由于之前的操作已經(jīng)執(zhí)行,所以先要回滾,然后再全部推送。

23點45分,開始回滾。

23點55分,回滾完成,開始重新推送。

11日0點10分,所有推送完成,同時開始收到大部分商品屬性丟失的問題反饋。屬性丟失意味著買的衣服沒有顏色,意味著買的鞋子沒有尺寸,當時用戶由于很多商品都已經(jīng)在購物車中準備良久,所以并不仔細觀察就下了單,可是商家卻沒有辦法發(fā)貨。這是一個非常嚴重的系統(tǒng)Bug。當時唯一能做的事情就是通知所有有問題的商家下架商品,等待系統(tǒng)修復。

11日凌晨1點,定位到錯誤代碼是回滾程序的Bug。決定發(fā)布新的系統(tǒng)解決問題。

11日早上5點,系統(tǒng)Bug修復,通知商家重新上架商品。

時隔5年,回憶起那一晚,依然心有余悸。外界往往認為雙11那一晚是精心準備的,技術(shù)是游刃有余的,可是每一年,我們都在匆忙中解決各種臨時的突發(fā)事件。實際上真正痛苦的遠遠不止技術(shù)人員,還有那些被影響的商家。

在2012年的6月雙11商家溝通會議上,我們問商家:“對雙11***的期望是什么?”反饋最多的期望就是:“系統(tǒng)穩(wěn)定。”一個商家站起來說:“去年雙11的0點我們被通知下架所有商品,當時團隊10多個人,從0點到早上6點,沒有一個人敢離開。我們借了款,備了平時十倍的貨,如果這個雙11賣不掉,我們回到家,對家人唯一能說的可能就是 ‘對不起,我破產(chǎn)了’,或者‘對不起,我失業(yè)了。’”

那個晚上,很多人無眠。

痛定思痛,我們在接下來的一年做了大量的穩(wěn)定性相關(guān)的工作,我們上線了新的招商、價格管控、商品申報和優(yōu)惠系統(tǒng)。我們做了csp的壓測平臺。我們做了系統(tǒng)限流sysguard自我保護系統(tǒng)。我們在2012年準備了接近3000的降級開關(guān),做了4次大規(guī)模功能演習,確定了雙11當天的指揮和決策流程。我們以為2012年我們能做到萬無一失。

2012年

這一年雙11的項目5月就啟動了,當天晚上整個集團的核心技術(shù)幾乎都all in在雙11,我們準備了一個很大的房間,每個核心人員做好各種預案手冊,當天晚上全神貫注就等著0點的到來。可是,那個0點,流量來得比以往更猛一些。

0點的時候,系統(tǒng)顯示交易成功率不到50%,各種系統(tǒng)報錯,立刻下單報錯,購物車支付報錯,支付系統(tǒng)報錯,購物車的東西丟失。系統(tǒng)排查的大部分指向都是一個錯誤,取不到商品信息了。再進去看,商品中心系統(tǒng)的網(wǎng)卡被打滿了,無法再響應請求。情況緊急,商品中心開啟了事先準備的幾乎所有降級方案,但效果并不明顯。大約在1點左右,系統(tǒng)流量峰值慢慢緩和,我們的系統(tǒng)成功率才重新恢復到90%以上。

另一個發(fā)生問題的是支付寶的健康檢查系統(tǒng),和所有系統(tǒng)的自我保護系統(tǒng)一樣,這個健康檢查系統(tǒng)會定時掃描線上機器,根據(jù)機器應答返回時間判斷是否正常,將超時嚴重的機器在應用列表中剔除,當時用了自研發(fā)的ssl 卸載 spanner 負載均衡算法有問題,導致服務器負載不均,應用那時候用的是apache ,連接數(shù)只有1K 多的性能瓶頸,在雙十一的流量之下雪崩了。發(fā)現(xiàn)問題之后,我們快速啟動了應急預案,同時做了流量切換,支付成功率重新回到了正常值。在1點之后,我們看到系統(tǒng)各項指標都恢復了,心情稍稍輕松了一些。但是白天新的問題又來了。

白天的時候,各種商家開始來電反饋一個嚴重的問題,系統(tǒng)超賣了。就是本來應該賣完下架的商品,在前臺展示依然有庫存,依然不停地被賣出。我們理應給商家一個正確實際的庫存,可是由于0點的各種異常、降級和超時導致庫存的狀態(tài)已經(jīng)不對了。由于數(shù)據(jù)過于凌亂,系統(tǒng)已經(jīng)無法當場完成糾正,除了通知商家自己檢查庫存,盡快下架商品之外,我們已經(jīng)無能為力了。那年的雙11,很多商家由于我們的超賣不得不緊急重新采購,加工,補貨。那年的雙11,應該有不少用戶要等很久才能收到購買的商品。

之后的雙11技術(shù)復盤會上,所有技術(shù)同學達成了一個共識,我們一定要有一套系統(tǒng)能夠最真實地模擬雙11當天的流量,能夠及時發(fā)現(xiàn)大壓力下線上系統(tǒng)的所有問題和風險,保障雙11的0點體驗。所以2013年,集合了各個BU的力量我們創(chuàng)造了一套全新的壓測系統(tǒng):全鏈路壓測。

一個全新的系統(tǒng),從產(chǎn)生到全面實施從來不是一帆風順的。剛開始,大家根本不敢到線上壓,擔心影響用戶,直到有人大膽地承諾:“出了故障我來背!”到9月時,剛開始兩次大規(guī)模的壓測都失敗了。有人開始懷疑方案的可行性,思考要不要回到之前的壓測模式,直到有人堅決地前行:“我們這次一定要成功,讓所有的開發(fā)一起來加入!”有人在打趣:“摩擦了一晚上都沒有動靜。”有人在寬慰:“***次從來不會一把成功,我們多磨合幾次。”我清晰地記得***期的那些開發(fā)同學,在一個小小的會議室里面,晚上12點我回家的時候他們在,早上8點我來公司他們還在。眼睛里經(jīng)常有血絲,但是說起話來還是中氣十足。每次給我的答復都是:“我們會成功的。”感謝這些同學,無論現(xiàn)在是否依然在雙11的崗位上奮戰(zhàn),但雙11的功臣中一定會有你們的名字。

針對庫存的問題,我們在2013年做了獨有的超賣審計系統(tǒng),會實時對賬所有庫存,一旦有超賣馬上能收到報警,這個系統(tǒng)在這些年的庫存保障中發(fā)揮了很大的作用。 

2013年

10月全鏈路壓測終于成功了,幾次壓測中發(fā)現(xiàn)了600多個Bug。參加的技術(shù)同學紛紛感慨稱之為“神器”。但是在0點開始之前還是出現(xiàn)了一個小插曲。通常雙11之前所有日志都會清理一遍,但是那一年這個常見的操作卻遺漏執(zhí)行了,技術(shù)同學就在10號晚上發(fā)現(xiàn)問題時,臨時手工寫了一個簡單腳本處理日志清理,可是腳本發(fā)生了一個小問題導致日志文件被刪掉,由于害怕日志輸出找不到文件會影響性能,所以決定分批重啟機器,重啟時又發(fā)現(xiàn)已經(jīng)執(zhí)行的提前預案中有一個Bug,在啟動初始化時有報錯,導致應用啟動失敗。***只能緊急發(fā)布修復了Bug。所有機器重新啟動完成的時間是10號晚上11點55分。當時大家盯著時間,盯著系統(tǒng)一臺機器一臺機器地發(fā)布,和時間賽跑的感覺歷歷在目。再后來每次大促之前我們會提前準備一份作戰(zhàn)手冊,寫好所有的內(nèi)容,細化到時間點和執(zhí)行人,防止再出現(xiàn)任何的意外。那一年,有驚無險。0點的成功率滿足期望。而且系統(tǒng)容量和0點的峰值差不多吻合。用戶體驗剛剛好。

2013年的時候由于各個系統(tǒng)的預案加起來已經(jīng)超過2000個,無法靠人來控制和梳理了,我們做了一個所有預案的控制系統(tǒng),提前降級的開關(guān)可以準時執(zhí)行,準備好的預案可以錄入并且做好權(quán)限和通知管理。

[[248900]] 

2014年

2014年,由于用戶和數(shù)據(jù)的急劇增長,杭州的機房已經(jīng)容納不下我們的系統(tǒng)擴容了。于是我們在上海建立了新的機房,雙11當天,真正啟動并且實現(xiàn)了異地多活的夢想。那一年是最順利的一次雙11,系統(tǒng)和用戶體驗都沒有問題。但是在雙11的總結(jié)中我們發(fā)現(xiàn)了一個特別明顯的趨勢,就是無線的占比越來高,雙11當天0點已經(jīng)超過50%,如何在手機這么小的屏幕上推薦給用戶他真正想要的商品也成為技術(shù)必須解決的難題。

2015年

2015年,***次有了雙11晚會,晚會現(xiàn)場可以壓團隊,可以現(xiàn)場抽獎,技術(shù)部的同學實現(xiàn)了線上和線下的同期互動。效果超出期望的好,然后我們的客戶端注冊系統(tǒng)當場就被用戶的熱情打爆了,緊急擴容解決。

0點無線端導購的流量大大超過了我們的預期,而我們的物流系統(tǒng)和導購部署在同一批物理機之上,機器資源發(fā)生爭搶,有10%的物流機器被打死,無法響應,那么落入這批機器的用戶就會購買失敗。在0點10分的時候,我們做了一個決策,直接剔除了這批死掉的機器,系統(tǒng)的成功率重新恢復到正常值。當時的決策有點風險,因為0點10分的時候流量依然很大,我們無法推測剔除這批機器的風險,那90%的機器如果扛住了,我們就成功了,如果扛不住,可能所有交易就會跌到零。我想一定是用戶的熱情創(chuàng)造了奇跡。我們幸運地扛住了那個0點。

2015年我們在會場頁面實現(xiàn)了全面的個性化,每個用戶看到的會場推薦都帶入了自己的喜好和偏向,這一變化,讓無線的點擊和購買率得到了大大的提升,也為下一年的全面?zhèn)€性化打下了基礎(chǔ)。

[[248901]] 

2016年

2016年開始,我們的全鏈路壓測加上了導購的流量,而且在2016年我們的導購峰值也從之前的10號10點轉(zhuǎn)移到了11號的0點,和交易的峰值完全重合,0點峰值的壓力進一步加大。

為了能快速釋放和節(jié)省雙11的成本,我們實現(xiàn)50%的云化,在雙11之后一周內(nèi)就將機器資源釋放出來,提升機器循環(huán)使用的效率。

我們手機客戶端自己做起了直播。晚上就可以在手淘和天貓客戶端一邊看晚會一邊參加抽獎和互動游戲。

產(chǎn)品玩出了跨店的紅包和購物券,可是由于0點的限流產(chǎn)生,就發(fā)生了這些組合下單的商品一單被限流支付失敗的情況下其他一起下單的商品由于享受了組合的優(yōu)惠所以也一起無法下單。雙11前一天已經(jīng)評估出了這個風險,所以準備了一個后臺程序幫助回補沒有使用的紅包和購物券。可是由于流量的長時間的持續(xù),限流時間超出預期,我們的后臺程序也在大壓力下掛掉了。技術(shù)的同學只能對后臺程序進行擴容,從準備的幾十臺機器擴展到幾百臺機器,終于在早上6點完成了紅包和購物券的回補。

2017年

2017年的零點是過往歷史上最順暢的一年,包括我們新上的混布系統(tǒng)都在零點很順利的扛過了我們零點的高峰。 


可是一點預售付尾款的那一刻,我們卻發(fā)生一個功能的bug。飛豬預售訂單無法支付尾款,這也導致飛豬發(fā)出的很多紅包無法使用,從而大量的用戶開始投訴。無法回滾,因為回滾意味這很多功能要缺失,不敢切開關(guān),不知切換開關(guān)之后對其他bu會不會有影響,我們只能小心地修改代碼,重新測試上線,所以直到早上6點,這一問題才被解決。而導致這一bug的根本原因是11月8號晚上的一個緊急發(fā)布引入的一個問題,由于太晚發(fā)布沒有趕上功能回歸的時間節(jié)點,于是遺漏到了線上。最終,變成2017年雙11的***遺憾。

總結(jié)

2018的雙11越來越近,第十個雙11,一定要做到十全十美,以史為鏡,每一年的問題都不同,但是阿里的技術(shù)人絕不會讓同樣的錯誤重復兩次,我們一起加油!

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】 

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-06-29 13:52:16

Veritas多云數(shù)據(jù)治理

2019-12-13 16:08:57

戴爾

2014-04-14 10:25:31

亞馬遜

2011-10-24 15:49:54

投影儀常見問題

2013-09-11 09:20:18

項目經(jīng)理程序員

2013-01-29 10:17:47

BSMBMC業(yè)務服務管理

2015-02-09 19:49:19

暢捷通

2021-06-07 14:16:24

CEO網(wǎng)絡安全網(wǎng)絡攻擊

2011-10-28 16:13:24

Office 2003比爾蓋茨

2018-11-15 14:29:15

蘋果iPhone中國

2009-05-13 08:21:11

SUSELinux桌面

2011-11-04 09:04:50

Eclipse

2009-04-13 15:29:49

COBOL編程語言商業(yè)語言

2011-08-29 09:54:49

信息安全防泄漏內(nèi)網(wǎng)安全

2011-11-02 14:22:40

安全

2011-06-16 09:34:54

Mac OS十年

2024-02-05 10:10:06

Vue策略編譯

2013-09-10 11:24:14

項目經(jīng)理項目管理程序員

2011-02-16 10:14:33

點贊
收藏

51CTO技術(shù)棧公眾號