Python如何使基于Java的StubHub受益
自2006年以來,Python 已經(jīng)相當流行,你可以看到越來越多的初創(chuàng)公司在他們開始自己的業(yè)務時選擇 Python作為主要語言,例如:
Netflix – 在線電視節(jié)目和電影公司
Dropbox – 最流行的文件同步和共享工具
YouTube – 分享在線視頻
Disqus – 在線討論和評論服務
OpenStack – 用于構建公共云和私有云的全開放源代碼,全 Python 基礎構建
當這些初創(chuàng)公司把這個優(yōu)雅利落的語言作為基礎設施來支持其業(yè)務的快速增長而得到越來越多的利益時,我在考慮我們 StuhbHub (一個基于 Java 生態(tài)系統(tǒng)的公司)怎樣也可以從中獲益,節(jié)省工作時間,并顯著提高生產(chǎn)力,我會解釋 Python 是什么?為什么選擇 Python ,并向你展示用 Python 為我們的日常工作提供解決方案。
Python是什么 ? 為什么選擇Python ?
Python是一種解釋型的,面向?qū)ο蟮膭討B(tài)語言,像Java一樣同樣是跨平臺的。與傳統(tǒng)的主流語言如 Java / C + + 相比,程序員們喜歡它是由于以下原因:
1. Python 是一種多用途的語言
我們知道,每一種語言都有其自身的優(yōu)勢或劣勢,例如有些人會用 C++ 寫運行在Windows操作系統(tǒng)平臺上的游戲,但沒有人會用 C++ 去建網(wǎng)站。好消息是你幾乎可以利用 Python 處理任何工作,例如:web 應用,桌面 GUI 應用,Linux 腳本或其他任何方便的工具,并且作為”膠水語言”你甚至可以在 Python 代碼中調(diào)用像 Java/C++ 等其他語言,這意味著你已有的代碼庫可以重用。
2. Python 更有生產(chǎn)力
一般來說, 當我們談及 Java 和 Python時,最顯著的區(qū)別是作為動態(tài)語言 Python 不需要編譯這一步。這其實就意味著”生產(chǎn)力”。
還記得我們?nèi)绾悟炞C Java 代碼的修改嗎? 尤其是在 StubHub,我們有一個相當大的代碼庫。
- 修改你的 Java 代碼 (1分鐘)
- 使用 ant/maven 把你的 Java 代碼編譯為字節(jié)碼 (5分鐘)
- 重啟 Jboss/Tomcat 來部署你的應用程序(5分鐘)
- 打開瀏覽器查看變化
這里的痛點是:假設你有一個 bug 修復需要1分鐘,但你必須等待至少10分鐘,才能在瀏覽器中看到變化,更糟糕的是,如果所做的修復并不能正常工作,因此,又要花費下一個10分鐘只是為了做構建和部署。
當你使用 Python 處理的話,就相當容易了。
- 修改你的 Python 代碼(1分鐘)
- F5 刷新瀏覽器查看變化
恭喜! 你在每次迭代修改上都節(jié)省了十分鐘的時間。
考慮一下每位開發(fā)者每天有多少次修改代碼,像 StubHub 這樣的龐大組織又有多少開發(fā)者,你可以計算下你總共可以節(jié)省多少工時,這可能大得超乎你的想象。
3. 優(yōu)雅,整齊,緊湊的 Python
還有另一個主要的優(yōu)點。Python的語法相當酷,我曾有一次用 Python 和 Java 去實現(xiàn)同樣的功能,與 Java 相比 Python 僅僅用了一半的代碼行數(shù)做了同樣的事情。 基于此,這就是為什么人們喜歡用偽代碼來驗證想法或通過編寫 Python 代碼,實現(xiàn)一個快速原型。這能很快地讓你知道你的想法或原型是否可行,然后你可以為你的生產(chǎn)環(huán)境用 Java 重寫代碼。這總好過你在一開始用 Java 編碼,卻最終發(fā)現(xiàn)你的原型是不可行的。
StubHub 的 Python 故事
StubHub 走的技術路線如下:
第一代: coldfusion
第二代:Java, 基于流的框架
第三代:Java, Tapestry + Spring + Hibernate 各種現(xiàn)代技術框架
你可以看到整個技術生態(tài)系統(tǒng)的發(fā)展是基于Java的。作為一名工程師,有時你不可能說服你的團隊或架構師放棄已有的代碼庫或把底層架構從 Java 轉為其他的,但是,仍舊有一些改善的空間,你可以把事情做得又好又快,讓我給你分享一下來自我在 StubHub 個人工作經(jīng)歷的幾個故事。
故事1:使用 Python 處理 Java 源代碼
2011年 StubHub 的技術團隊舉行了為期一周名為 fixit 的活動,活動要求所有的開發(fā)者在一周之內(nèi)為已有的代碼寫盡可能多的測試用例以提高整體的測試覆蓋率,但在此之前,我們需要先把一些測試用例標記為”broken”, 因為如果有任何測試用例失敗,都會導致分析工具無法正常產(chǎn)生覆蓋率報告。
關鍵是給測試用例標記上”broken”很容易, 只要給 @Test annotations 加上 broken 的屬性,如下所示:
把這樣的代碼:
- public class SomeTest {
- ...
- }
改成:
- @Test(groups = {"broken"})
- public class SomeTest {
- ...
- }
但在 StubHub 的代碼庫中有成百上千的測試用例代碼,那意味著你首先得把他們都找出來,從代碼庫中檢出一份案例,修改源代碼,提交回修改,然后為下一個案例重復此步驟直到處理完所有成百上千個案例。
#p#
這事相當枯燥,我認為Python 更擅長這種重復的文件處理而不是我,以下是自動處理的Python代碼片段:
- def start(path_name):
- for root, dirs, files in os.walk('src/' + path_name):
- if files:
- for file in files:
- filename = root + '/' + file
- print 'filename: ' + filename
- os.system('p4 edit //depot/project/pb_fixit_2011/gen31/test/' + filename)
- with open(filename, 'r+') as javafile:
- fileContent = javafile.read()
- matcher = re.search(r'@Test([\w\W]*?)public class', fileContent)
- if not matcher:
- fileContent = re.sub(r'public class', '@Test(groups = {"broken"} )\npublic class', fileContent)
- javafile.seek(0) # return to 0 file position
- javafile.write(fileContent)
僅僅14行代碼,通過遍歷給定的路徑,并使用 p4 edit ...
從 Peforce 檢出文件,從Java源文件讀取文件內(nèi)容,使用正則表達式把測試用例標記為 broken,然后把更改寫回源文件。我想這個腳本節(jié)約了我一天的工作。
故事2:測試第三方的API
2012 年我加入了一個名為禮物卡的項目,有一個名為 Black Hawk 的第三方技術合作方,他們提供兌換錢的 Web Service API。在這個項目剛開始的時候,他們希望確保 StubHub 的測試服務器和 Black Hawk 服務器之間的 API 調(diào)用是通暢的。由于這僅僅只是做個驗證,并不需要很嚴謹?shù)膶懴抡?guī)的,能夠很好處理異常的 Java 代碼,也不需要在我們已經(jīng)安裝了 JRE 和 HttpClient 庫的環(huán)境下部署我們的代碼并測試 API(順便說一下, Python 作為基礎應用被預裝在大多數(shù)的 Linux 分發(fā)版中),當我認為這并不是很正式的代碼,以后也不會被別人重用或者維護,就有了可以做同樣事情的 Python 代碼:
- from httplib2 import Http
- def call_bh(url):
- try:
- http = Http()
- # Post request parameters
- body = """<?xml version="1.0" encoding="UTF-8"?>
- <bhnums:request
- ......
- </bhnums:request>
- """
- headers = {'Content-type': 'text/xml;charset=UTF-8'}
- response, content = http.request(url, "POST", headers=headers, body=body)
- # Expected post response
- print content
- except Exception, e:
- print e
- print 'fail to call black hawk.'
- else:
- print 'success to call black hawk.'
通過 Python 來調(diào)用服務很令人愉快。盡管第一次失敗了,由于代碼的短小和易讀性我只需要拷貝Python代碼段到郵件里,發(fā)送給第三方的人詢問:“這段代碼有什么毛病 嗎?” 他們更正了某個 http 請求包的問題,給我回了郵件,然后我在測試服務器上修改代碼,再次測試,它正常工作了。這期間并沒有用到 JRE/IDE/編譯/構建/部署,僅僅通過 ssh 連接到你的 Linux 服務器,使用 vi/emacs 修改你的代碼, 然后運行!
故事3:給客戶重新發(fā)送獎勵郵件
2012 年,我還參與了另外一個名為 Rewards 的項目,旨在給參加這項活動的用戶發(fā)送打折信息。他們加入這項活動以后,應該會收到一封關于活動詳情的郵件。不幸的是由于服務器的問題,有 1285 位用戶沒有成功收到郵件,因此盡管他們已經(jīng)加入了 Rewards 這個活動,卻可能無法了解到如何獲得折扣。因此,我被要求重新發(fā)送郵件來補救這個問題。
這項任務很緊急,如果我們能及時重新發(fā)送郵件,對用戶來說也很有價值。但是假如我們選擇傳統(tǒng)的 Java 代碼,我們需要通過 JDBC 或 Hibernate 來調(diào)用 SQL, 從數(shù)據(jù)庫獲得沒收到郵件的用戶,寫下重新發(fā)送郵件的代碼, 弄清楚在生產(chǎn)環(huán)境上,哪里構建/部署這段代碼比較合適,然后回滾這次部署,因為這段代碼只會使用一次。這很丑陋而且我能想象到,這至少需要花費我們2天時 間來開發(fā)部署。
選擇Python的話事情就簡單多了,它還是一段運行在Linux服務器上的腳本。為了避免讀取數(shù)據(jù)庫,我們可以首先從數(shù)據(jù)庫中取出用戶 id 并像這樣作為一個列表寫到腳本中
- users = [556483, 556480, 556477, 556379, 556378, 556471, 556374, 469686, 556369, 556466, 556365, 556364, 556462, 556460, 556362, 556360, 556456, ...]
1285個用戶 ID 看起來是比較大的數(shù)目,但把他們?nèi)糠旁?Python 的一個列表中作為腳本的一部分還是可以接受,然后讓我們給用戶重新發(fā)送郵件:
- def sendmail_to_all(users, url):
- for user in users:
- time.sleep(1)
- sendmail(user, url)