偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Python除了做爬蟲抓數(shù)據(jù)還能做什么?其實還能監(jiān)視和衡量網(wǎng)站性能

開發(fā) 后端
收到Google的公告后,我認為現(xiàn)在是共享它的絕佳時機,并解釋了如何創(chuàng)建對初學(xué)者友好的Python腳本。關(guān)于腳本的最好的事情是,一旦建立了基礎(chǔ),就可以提取許多不同的指標,這些指標可以在頁面速度測試以及Lighthouse分析中找到。

借助這份對初學(xué)者友好的指南,您可以構(gòu)建自己的自定義Python腳本來自動測量網(wǎng)站的關(guān)鍵速度和性能指標。

 

Python除了做爬蟲抓數(shù)據(jù)還能做什么?其實還能監(jiān)視和衡量網(wǎng)站性能

在過去的一個月中,Google宣布了許多通過關(guān)鍵速度和性能指標來衡量用戶體驗的方法。

巧合的是,我一直在努力編寫一個Python腳本,該腳本使用Google PageSpeed Insights(PSI)API一次收集多個頁面的指標,而無需為每個單獨的URL運行測試。

收到Google的公告后,我認為現(xiàn)在是共享它的絕佳時機,并解釋了如何創(chuàng)建對初學(xué)者友好的Python腳本。

關(guān)于腳本的最好的事情是,一旦建立了基礎(chǔ),就可以提取許多不同的指標,這些指標可以在頁面速度測試以及Lighthouse分析中找到。

網(wǎng)絡(luò)重要指標簡介

5月初,Google推出了Core Web Vitals,它是其關(guān)鍵Web Vitals指標的一部分。

這些指標用于提供有關(guān)網(wǎng)站上用戶體驗質(zhì)量的指導(dǎo)。

Google將其描述為“幫助量化您的網(wǎng)站體驗并確定改進機會”的一種方式,進一步強調(diào)了它們向關(guān)注用戶體驗的轉(zhuǎn)變。

核心網(wǎng)絡(luò)生命力是真實的,以用戶為中心的指標,用于衡量用戶體驗的關(guān)鍵方面。加載時間,互動性和穩(wěn)定性。

除此之外,Google 上周宣布,他們將引入一個新的搜索排名信號,它將這些指標與現(xiàn)有頁面體驗信號(例如移動設(shè)備友好性和HTTPS安全性)結(jié)合在一起,以確保它們繼續(xù)為高質(zhì)量網(wǎng)站提供服務(wù)給用戶。

監(jiān)控性能指標

預(yù)計此更新將于2021年推出,Google已確認不需要立即采取行動。

但是,為了幫助我們?yōu)檫@些更改做準備,他們更新了用于測量頁面速度的工具,包括PSI,Google Lighthouse和Google Search Console Speed Report。

Pagespeed Insights API從何入手?

Google的PageSpeed Insights是查看網(wǎng)頁效果摘要的有用工具,它使用現(xiàn)場數(shù)據(jù)和實驗室數(shù)據(jù)來生成結(jié)果。

這是獲得少數(shù)URL概述的好方法,因為它是逐頁使用的。

但是,如果您在大型站點上工作,并且希望獲得大規(guī)模的見解,那么該API可以有利于一次分析多個頁面,而無需單獨插入URL。

用于衡量性能的Python腳本

我創(chuàng)建了以下Python腳本來大規(guī)模度量關(guān)鍵性能指標,以節(jié)省手動測試每個URL所花費的時間。

該腳本使用Python將請求發(fā)送到Google PSI API,以收集和提取在PSI和Lighthouse中顯示的指標。

我決定在Google Colab中編寫此腳本,因為這是開始編寫Python并允許輕松共享的好方法,因此本文將使用Google Colab貫穿整個安裝過程。

但是,它也可以在本地運行,對數(shù)據(jù)的上傳和下載進行一些調(diào)整。

請務(wù)必注意,某些步驟可能需要一些時間才能完成,尤其是當每個URL通過API運行時,為了不使請求過載。

因此,您可以在后臺運行腳本,并在完成步驟后返回到腳本。

讓我們逐步介紹啟動和運行此腳本所需的步驟。

步驟1:安裝所需的軟件包

在開始編寫任何代碼之前,我們需要安裝一些Python程序包,然后才能使用該腳本。這些使用導(dǎo)入功能很容易安裝。

我們需要的軟件包是:

  • urllib:用于處理,打開,閱讀和解析URL。
  • json:允許您將JSON文件轉(zhuǎn)換為Python或?qū)ython文件轉(zhuǎn)換為JSON。
  • request:一個HTTP庫,用于發(fā)送各種HTTP請求。
  • pandas:主要用于數(shù)據(jù)分析和處理,我們正在使用它來創(chuàng)建DataFrames。
  • time:一個用于處理時間的模塊,我們正在使用它在請求之間提供時間間隔。
  • 文件:通過Google Colab,您可以上傳和下載文件。
  • io:用于訪問文件的默認接口。
  1. # Import required packages  
  2. import json 
  3. import requests 
  4. import pandas as pd 
  5. import urllib 
  6. import time 
  7. from google.colab import files 
  8. import io 

第2步:設(shè)置API請求

下一步是設(shè)置API請求。完整的說明可以在這里找到,但是從本質(zhì)上講,該命令將如下所示:

  • https://www.googleapis.com/pagespeedonline/v5/runPagespeed?url={yourURL}/&strategy=mobile/&key={yourAPIKey}

這將允許您附加URL,策略(臺式機或移動設(shè)備)和API密鑰。

要在Python中使用它,我們將使用urllib請求庫urllib.request.urlopen并將其添加到名為result的變量中,以便我們可以存儲結(jié)果并在腳本中再次使用它們。

  1. # Define URL   
  2. url = 'https://www.example.co.uk' 
  3.  
  4. # API request url 
  5. result = urllib.request.urlopen('https://www.googleapis.com/pagespeedonline/v5/runPagespeed?url={}/&strategy=mobile'
  6. .format(url)).read().decode('UTF-8'
  7.  
  8. print(result) 

步驟3:測試API

為了測試API的正確設(shè)置以及對測試過程中生成的內(nèi)容的理解,我使用簡單的urllib.request方法通過API運行了一個URL。

完成此操作后,我將結(jié)果轉(zhuǎn)換為json文件并下載了它,以便查看結(jié)果。

  1. Convert to json format 
  2. result_json = json.loads(result) 
  3.  
  4. print(result_json) 
  5.  
  6. with open('result.json''w'as outfile: 
  7.   json.dump(result_json, outfile) 
  8.  
  9. files.download('result.json'

(請注意,此方法用于在Google Colab中轉(zhuǎn)換和下載JSON文件。)

步驟4:讀取JSON檔案

JSON文件顯示字段數(shù)據(jù)(存儲在loadingExperience下)和實驗室數(shù)據(jù)(可以在lighthouseResult下找到)。

為了提取所需的指標,我們可以利用JSON文件的格式,因為我們能夠看到每個部分下面的指標。

第5步:上傳CSV并存儲為Pandas數(shù)據(jù)框

下一步是上傳我們要通過PSI API運行的URL的CSV文件。您可以通過抓取工具(例如DeepCrawl)生成站點URL的列表。

當我們使用API​​時,建議您在此處使用較小的URL示例集,尤其是在您擁有大型站點的情況下。

例如,您可以使用訪問量最高的頁面或產(chǎn)生最大收入的頁面。另外,如果您的站點有模板,則非常適合測試其中的模板。

您還可以在此處添加column-header變量,我們將在遍歷列表時使用該變量。確保此名稱與您上傳的CSV文件中的列標題名稱匹配:

  1. uploaded = files.upload() 
  2. #if your column header is something other than 'url' please define it here  
  3. column_header='url' 

(請注意,此方法用于在Google Colab中上傳CSV文件。)

將其上傳后,我們將使用Pandas庫將CSV轉(zhuǎn)換為DataFrame,我們可以在以下步驟中進行迭代。

  1. # Get the filename from the upload so we can read it into a CSV. 
  2. for key in uploaded.keys(): 
  3.   filename = key 
  4. Read the selected file into a Pandas Dataframe 
  5. df = pd.read_csv(io.BytesIO(uploaded[filename])) 
  6.  
  7. df.head() 

DataFrame看起來像這樣,從零索引開始。

步驟6:將結(jié)果保存到響應(yīng)對象

下一步涉及使用for循環(huán)來迭代剛剛通過PSI API創(chuàng)建的URL的DataFrame。

for循環(huán)使我們可以遍歷上載的列表并為每個項目執(zhí)行命令。然后,我們可以將結(jié)果保存到響應(yīng)對象中,并將其轉(zhuǎn)換為JSON文件。

  1. response_object = {} 
  2.  
  3. # Iterate through the df 
  4. for x in range(0, len(df)): 
  5.  
  6.         # Define request parameter 
  7.         url = df.iloc[x][column_header] 
  8.  
  9.         # Make request 
  10.         pagespeed_results = urllib.request.urlopen('https://www.googleapis.com/pagespeedonline/v5/runPagespeed?url={}&strategy=mobile'.format(url)).read().decode('UTF-8'
  11.  
  12.         # Convert to json format 
  13.         pagespeed_results_json = json.loads(pagespeed_results) 
  14.  
  15.         # Insert returned json response into response_object 
  16.         response_object[url] = pagespeed_results_json 
  17.         time.sleep(30) 
  18.          
  19.         print(response_object[url]) 

我們將在此處使用范圍內(nèi)的x,它表示循環(huán)中正在運行的URL,以及(0,len)允許循環(huán)遍歷DataFrame中的所有URL,無論包含多少個URL 。

該響應(yīng)對象防止通過重寫相互循環(huán),你的網(wǎng)址,使我們能夠保存數(shù)據(jù)以備將來使用。

這也是在將其轉(zhuǎn)換為JSON文件之前,將使用列標題變量定義URL請求參數(shù)的地方。

我還將此處的睡眠時間設(shè)置為30秒,以減少連續(xù)進行的API調(diào)用次數(shù)。

另外,如果您希望更快地提出請求,則可以在URL命令的末尾附加一個API密鑰。

縮進在這里也很重要,因為每個步驟都是for循環(huán)的一部分,因此必須在命令中縮進它們。

步驟7:創(chuàng)建一個數(shù)據(jù)框來存儲響應(yīng)

我們還需要創(chuàng)建一個DataFrame來存儲我們要從響應(yīng)對象中提取的指標。

DataFrame是類似于表的數(shù)據(jù)結(jié)構(gòu),具有存儲數(shù)據(jù)的列和行。我們只需要為每個指標添加一列并適當?shù)孛?,如下所示?/p>

  1. Create dataframe to store responses 
  2. df_pagespeed_results = pd.DataFrame(columns= 
  3.           ['url'
  4.           'Overall_Category'
  5.           'Largest_Contentful_Paint'
  6.           'First_Input_Delay'
  7.           'Cumulative_Layout_Shift'
  8.           'First_Contentful_Paint'
  9.           'Time_to_Interactive'
  10.           'Total_Blocking_Time'
  11.           'Speed_Index'])   
  12.  
  13. print(df_pagespeed_results) 

出于此腳本的目的,我使用了Core Web Vital指標以及當前Lighthouse版本中使用的其他負載和交互性指標。

這些指標各自具有不同的權(quán)重,然后將它們用于總體績效得分:

  • LCP
  • FID
  • CLS
  • FCP
  • TTI
  • TBT

您可以在上方鏈接的各個目標網(wǎng)頁上找到有關(guān)每個指標的更多信息以及如何解釋分數(shù)的信息。

我還選擇包括速度指數(shù)和整體類別,這些類別將提供慢速,平均或快速得分。

步驟8:從響應(yīng)對象中提取指標

保存響應(yīng)對象后,我們現(xiàn)在可以對其進行過濾并僅提取所需的指標。

在這里,我們將再次使用for循環(huán)遍歷響應(yīng)對象文件,并設(shè)置一系列列表索引以僅返回特定指標。

為此,我們將從DataFrame中定義列名稱,以及為每個URL從中提取每個指標的響應(yīng)對象的特定類別。

  1. for (url, x) in zip( 
  2.     response_object.keys(), 
  3.     range(0, len(response_object)) 
  4. ): 
  5.  
  6.         # URLs 
  7.         df_pagespeed_results.loc[x, 'url'] =\ 
  8.             response_object[url]['lighthouseResult']['finalUrl'
  9.  
  10.         # Overall Category 
  11.         df_pagespeed_results.loc[x, 'Overall_Category'] =\ 
  12.             response_object[url]['loadingExperience']['overall_category']    
  13.  
  14.         # Core Web Vitals      
  15.  
  16.         # Largest Contentful Paint     
  17.         df_pagespeed_results.loc[x, 'Largest_Contentful_Paint'] =\ 
  18.         response_object[url]['lighthouseResult']['audits']['largest-contentful-paint']['displayValue'
  19.  
  20.         # First Input Delay  
  21.         fid = response_object[url]['loadingExperience']['metrics']['FIRST_INPUT_DELAY_MS'
  22.         df_pagespeed_results.loc[x, 'First_Input_Delay'] = fid['percentile'
  23.  
  24.         # Cumulative Layout Shift     
  25.         df_pagespeed_results.loc[x, 'Cumulative_Layout_Shift'] =\ 
  26.         response_object[url]['lighthouseResult']['audits']['cumulative-layout-shift']['displayValue'
  27.  
  28.         # Additional Loading Metrics  
  29.  
  30.         # First Contentful Paint  
  31.         df_pagespeed_results.loc[x, 'First_Contentful_Paint'] =\ 
  32.         response_object[url]['lighthouseResult']['audits']['first-contentful-paint']['displayValue'
  33.  
  34.         # Additional Interactivity Metrics  
  35.  
  36.         # Time to Interactive   
  37.         df_pagespeed_results.loc[x, 'Time_to_Interactive'] =\ 
  38.         response_object[url]['lighthouseResult']['audits']['interactive']['displayValue'
  39.  
  40.         # Total Blocking Time    
  41.         df_pagespeed_results.loc[x, 'Total_Blocking_Time'] =\ 
  42.         response_object[url]['lighthouseResult']['audits']['total-blocking-time']['displayValue'
  43.  
  44.         # Speed Index 
  45.         df_pagespeed_results.loc[x, 'Speed_Index'] =\ 
  46.         response_object[url]['lighthouseResult']['audits']['speed-index']['displayValue'

我已將此腳本設(shè)置為提取上面提到的關(guān)鍵指標,因此您可以立即使用它來收集此數(shù)據(jù)。

但是,可以提取在PSI測試以及Lighthouse分析中都可以找到的許多其他有用指標。

在此JSON文件可用于查看每個指標在列表中的位置。

例如,在從Lighthouse審核中提取指標(例如“互動時間”的顯示值)時,將使用以下內(nèi)容:

  1. df_pagespeed_results.loc[x, 'Time_to_Interactive'] =\ 
  2. response_object[url]['lighthouseResult']['audits']['interactive']['displayValue'

再一次,重要的是要確保每一個都位于循環(huán)中,否則它們將不會包含在迭代中,并且只會為一個URL生成一個結(jié)果。

步驟9:將DataFrame轉(zhuǎn)換為CSV文件

最后一步是創(chuàng)建一個摘要文件以收集所有結(jié)果,因此我們可以將其轉(zhuǎn)換為易于分析的格式,例如CSV文件。

 

  1. summary = df_pagespeed_results 
  2.  
  3. df_pagespeed_results.head() 
  4.  
  5. #Download csv file  
  6. summary.to_csv('pagespeed_results.csv'
  7. files.download('pagespeed_results.csv'

(請注意,此方法用于在Google Colab中轉(zhuǎn)換和下載CSV文件。)

進一步探索數(shù)據(jù)

目前,我們導(dǎo)出的所有指標都存儲為字符串,這是用于文本和字符的Python數(shù)據(jù)類型。

由于我們提取的某些指標實際上是數(shù)字值,因此您可能希望將字符串轉(zhuǎn)換為數(shù)字數(shù)據(jù)類型,例如整數(shù)和浮點數(shù)。

整數(shù),也稱為int,是整數(shù)的數(shù)據(jù)類型,例如1和10。

浮點數(shù),也稱為浮點數(shù),是十進制點數(shù),例如1.0和10.1。

為了將字符串轉(zhuǎn)換為數(shù)字,我們需要執(zhí)行兩個步驟,第一步是將's'字符(用于表示秒)替換為空格。

我們通過在每列上使用.str.replace方法來執(zhí)行此操作。

  1. #Replace the 's' with a blank space so we can turn into numbers 
  2. df_pagespeed_results['Largest_Contentful_Paint'] = df_pagespeed_results.Largest_Contentful_Paint.str.replace('s'''
  3. df_pagespeed_results['First_Contentful_Paint'] = df_pagespeed_results.First_Contentful_Paint.str.replace('s'''
  4. df_pagespeed_results['Time_to_Interactive'] = df_pagespeed_results.Time_to_Interactive.str.replace('s'''
  5. df_pagespeed_results['Total_Blocking_Time'] = df_pagespeed_results.Total_Blocking_Time.str.replace('ms'''
  6. df_pagespeed_results['Speed_Index'] = df_pagespeed_results.Speed_Index.str.replace('s'''

然后,我們將使用.astype()方法將字符串轉(zhuǎn)換為整數(shù)或浮點數(shù):

  1. #Turn strings into intergers or floats 
  2. df_pagespeed_results['Largest_Contentful_Paint'] = df_pagespeed_results.Largest_Contentful_Paint.astype(float
  3. df_pagespeed_results['Cumulative_Layout_Shift'] = df_pagespeed_results.Cumulative_Layout_Shift.astype(int
  4. df_pagespeed_results['First_Contentful_Paint'] = df_pagespeed_results.First_Contentful_Paint.astype(float
  5. df_pagespeed_results['Time_to_Interactive'] = df_pagespeed_results.Time_to_Interactive.astype(float
  6. df_pagespeed_results['Speed_Index'] = df_pagespeed_results.Speed_Index.astype(float

完成此操作后,您可以使用多種不同的方法進一步評估數(shù)據(jù)。

例如,您可以使用數(shù)據(jù)可視化庫(例如matplotlib或seaborn)來可視化指標,以及測量指標如何隨時間變化并將結(jié)果分組為慢速,中速和快速存儲桶。

由于我們已經(jīng)介紹了很多內(nèi)容,因此我不會在本文中介紹這些內(nèi)容,但是如果您想了解更多信息,請隨時與我們聯(lián)系。

結(jié)論

該腳本最終幫助我測量了一組URL的關(guān)鍵頁面速度和性能指標,并可視化了結(jié)果以識別需要改進的頁面。

它還允許您隨時間監(jiān)視結(jié)果并量化已進行的改進。

我還創(chuàng)建了一個腳本來專門測量三個核心Web Vitals的百分比和類別。

我希望這對希望自動化其性能測試并進一步探索PSI API的人有所幫助。

請隨時保存此Colab文件的副本,并使用它來幫助測量和監(jiān)視您的頁面速度,或者按照自己的步驟進行操作。您可以在此處訪問我在本文中分享的所有代碼段。

責任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2020-07-06 14:39:18

知識圖譜思維

2015-05-20 17:09:47

云存儲數(shù)據(jù)云端化

2017-06-12 14:26:10

項目經(jīng)理程序員項目管理

2025-03-31 09:00:00

漏洞AI數(shù)據(jù)泄露

2021-03-29 14:46:00

人工智能醫(yī)療傳感器

2025-04-07 08:15:00

大模型AI探人工智能

2014-07-24 16:35:16

2018-04-10 11:14:00

2022-10-10 12:07:49

造車新能源Web3

2020-04-01 17:39:57

天翼云新基建

2019-03-06 08:56:03

阿里云服務(wù)器VPN

2020-12-09 15:26:00

人工智能律師互聯(lián)網(wǎng)

2022-07-26 09:48:55

微服務(wù)服務(wù)AKF

2020-04-22 09:42:17

大數(shù)據(jù)機器學(xué)習(xí)技術(shù)

2017-01-15 11:17:20

2021-10-15 10:39:43

RabbitMQ隊列延遲

2021-03-26 08:41:11

Go語言Docker

2020-06-29 10:19:31

新基建運營商網(wǎng)絡(luò)

2022-04-14 08:21:35

數(shù)據(jù)庫查詢變慢MySQL

2013-02-26 09:46:10

大數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號