一款懶人必備的Python爬蟲(chóng)神器
前言
今天把最近的一個(gè)應(yīng)用做好了,測(cè)試了一下運(yùn)行沒(méi)有問(wèn)題,剩下的就是檢驗(yàn)一下結(jié)果如何.從光譜到Lab值通常使用matlab中的roo2lab(),不過(guò)經(jīng)過(guò)我最近的測(cè)試發(fā)現(xiàn)轉(zhuǎn)換的結(jié)果并不理想,而且這個(gè)轉(zhuǎn)化的代碼也不是我寫(xiě)的所以另尋他法,找到了下面這個(gè)網(wǎng)頁(yè)。
動(dòng)手
有了這個(gè)網(wǎng)頁(yè),很簡(jiǎn)單就想到去解析.然后很快找到了這個(gè)api,可以看到用post提交表單請(qǐng)求就可以返回結(jié)果。
于是一番操作,修改form表單,構(gòu)造傳入的spectrum,但是最終請(qǐng)求得到的卻是一個(gè)頁(yè)面,并不是想要的json.然后許久沒(méi)寫(xiě)爬蟲(chóng)的我直接惱火,想到自動(dòng)化工具模擬操作.可是selenium很難用而且還得去找瀏覽器新版本的驅(qū)動(dòng),隨后直接搜索一番,發(fā)現(xiàn)了這個(gè)神器—playwright。
首先老規(guī)矩去它的首頁(yè)看看教程
接著安裝一下playwright以及瀏覽器的驅(qū)動(dòng)。
pip install pytest-playwright
playwright install
第二步的時(shí)候很慢,所以我只等他下載好了chrome和ffmpeg直接就ctrl+c停止了,畢竟我也用不著其他的瀏覽器驅(qū)動(dòng)。
然后稍微瀏覽一下這個(gè)文檔功能非常豐富,不過(guò)我用到的功能也不多,接下來(lái)的使用才是真正適合我們懶人的。
記住一行代碼
python -m playwright codegen xxx.com
其中xxx.com就是我們的目標(biāo)網(wǎng)址,運(yùn)行后會(huì)創(chuàng)建一個(gè)熟悉的自動(dòng)化頁(yè)面,然后我們就進(jìn)行一些我們想要的操作,比如設(shè)置開(kāi)始的最小波長(zhǎng)為400nm,然后觀察以及光源改為D65/10.一系列操作后會(huì)看到對(duì)應(yīng)的代碼已經(jīng)生成好了。
至今為止我還沒(méi)有寫(xiě)一行代碼,不過(guò)構(gòu)造輸入的光譜還是得自己來(lái)的。
把這一段代碼復(fù)制下來(lái),然后自己寫(xiě)構(gòu)造輸入的函數(shù)(就幾行),然后通過(guò)選擇器(直接左鍵元素復(fù)制xpath)得到lab值,這樣目標(biāo)就搞定了。
整體代碼如下:
import time
from playwright.sync_api import Playwright, sync_playwright, expect
import numpy as np
data_test=np.loadtxt('./dist/1_res.csv',delimiter=',')
def get_str(arr):
arr_str=""
for i in arr:
arr_str+=str(format(i,".2f"))+"\r\n"
return arr_str
labs=[]
def run(playwright: Playwright) -> None:
browser = playwright.chromium.launch(headless=False)
context = browser.new_context()
# Open new page
page = context.new_page()
# Go to https://www.qtccolor.com/secaiku/tool/spectrum
page.goto("https://www.qtccolor.com/secaiku/tool/spectrum")
# Click div[role="tab"]:has-text("光譜數(shù)據(jù)")
page.locator("div[role=\"tab\"]:has-text(\"光譜數(shù)據(jù)\")").click(
# Click text=最小波長(zhǎng):nm
page.locator("text=最小波長(zhǎng):nm").click()
# Fill [placeholder="\33 80"]
page.locator("[placeholder=\"\\33 80\"]").fill("400")
# Select 1964
page.locator("select[name=\"obs\"]").select_option("1964")
# Select D65
page.locator("select[name=\"ill\"]").select_option("D65")
# Fill textarea[name="spectrum"]
for i in range(len(data_test)):
inputs=get_str(data_test[i,:])
# Click textarea[name="spectrum"]
page.locator("textarea[name=\"spectrum\"]").click()
page.locator("textarea[name=\"spectrum\"]").press("Control+a")
page.locator("textarea[name=\"spectrum\"]").fill(inputs)
# Click button:has-text("轉(zhuǎn)換顏色")
page.locator("button:has-text(\"轉(zhuǎn)換顏色\")").click()
time.sleep(1)
# Click text=Lab0.000.000.00 >> td >> nth=1
L=float(page.locator('xpath=//*[@id="scroll_container"]/div[1]/div/div[2]/table/tbody/tr[2]/td[2]').inner_text())
# Click text=Lab0.000.000.00 >> td >> nth=2
a=float(page.locator('xpath=//*[@id="scroll_container"]/div[1]/div/div[2]/table/tbody/tr[2]/td[3]').inner_text())
# Click text=Lab0.000.000.00 >> td >> nth=3
b=float(page.locator('xpath=//*[@id="scroll_container"]/div[1]/div/div[2]/table/tbody/tr[2]/td[4]').inner_text())
print(L,a,b)
labs.append([L,a,b])
# ---------------------
context.close()
browser.close()
with sync_playwright() as playwright:
run(playwright)
np.savetxt('./1_lab_res.csv',labs,delimiter=",")
可以說(shuō)從安裝到實(shí)現(xiàn)就幾分鐘,而且特別容易上手,我第一次用也一下就能實(shí)現(xiàn)效果。
剩下的就是簡(jiǎn)單的寫(xiě)個(gè)函數(shù)計(jì)算色差啥的就沒(méi)難度了。
最后
大廠出品果然不同,使用它在不考慮運(yùn)行效率(有異步但是我懶得看了)的情況下可以輕松實(shí)現(xiàn)復(fù)雜操作,懶人最?lèi)?ài)!