偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一日一技:如何提取網(wǎng)頁(yè)中的日期?

開發(fā) 前端
最近我發(fā)現(xiàn)Python的一個(gè)第三方庫(kù),叫做htmldate,經(jīng)過測(cè)試,它提取新聞的發(fā)布時(shí)間比較準(zhǔn)確。我們來看看這個(gè)庫(kù)怎么使用。

Gne[1]雖然在提取新聞?wù)牡臅r(shí)候,準(zhǔn)確率比較高,但由于提取新聞發(fā)布時(shí)間使用的是正則表達(dá)式,因此提取效果有時(shí)候不那么讓人滿意。

最近我發(fā)現(xiàn)Python的一個(gè)第三方庫(kù),叫做htmldate,經(jīng)過測(cè)試,它提取新聞的發(fā)布時(shí)間比較準(zhǔn)確。我們來看看這個(gè)庫(kù)怎么使用。首先使用pip安裝:

python3 -m pip install htmldate

然后,我們使用Requests或者Selenium獲得網(wǎng)站的源代碼:

import requests
from htmldate import find_date
html = requests.get('https://www.kingname.info/2022/03/09/this-is-gnelist/').content.decode('utf-8')
date = find_date(html)
print(date)

運(yùn)行效果如下圖所示:

而這篇文章的發(fā)布時(shí)間,確實(shí)是3月9號(hào):

我們?cè)儆镁W(wǎng)易新聞來看一下,相互激勵(lì) 增進(jìn)友誼(精彩綻放) |殘奧|中國(guó)代表團(tuán)|單板滑雪|奪金_網(wǎng)易政務(wù)[2] 這篇新聞對(duì)應(yīng)的發(fā)布時(shí)間如下圖所示:

現(xiàn)在我們用Requests獲得它的源代碼,然后再提取發(fā)布時(shí)間:

發(fā)布日期確實(shí)對(duì)了,但是后面的時(shí)間怎么丟失了呢?如果想把時(shí)分秒保留下來,可以增加一個(gè)參數(shù)outputformat,它的值就是你在datetime.strftime里面輸入的值:

find_date(html, outputformat='%Y-%m-%d %H:%M:%S')

運(yùn)行效果如下圖所示:

find_date的參數(shù),除了網(wǎng)頁(yè)源代碼外,還可以傳入U(xiǎn)RL,或者是lxml里面的Dom對(duì)象,例如:

from lxml.html import fromstring

selector = fromstring(html)
date = find_date(selector)

參考文獻(xiàn)[1] Gne: https://github.com/GeneralNewsExtractor/GeneralNewsExtractor

[2] 相互激勵(lì) 增進(jìn)友誼(精彩綻放) |殘奧|中國(guó)代表團(tuán)|單板滑雪|奪金_網(wǎng)易政務(wù): https://www.163.com/news/article/H28Q6NQ1000189FH.html


責(zé)任編輯:武曉燕 來源: 未聞Code
相關(guān)推薦

2020-12-04 06:39:25

爬蟲網(wǎng)頁(yè)

2021-10-15 21:08:31

PandasExcel對(duì)象

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)

2025-05-28 03:15:00

Scrapy數(shù)據(jù)sleep

2020-12-11 06:30:00

工具分組DataFrame

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2023-10-28 12:14:35

爬蟲JavaScriptObject

2024-07-30 08:11:16

2024-07-30 08:16:18

Python代碼工具

2021-07-27 21:32:57

Python 延遲調(diào)用

2024-11-11 00:38:13

Mypy靜態(tài)類型

2021-05-08 19:33:51

移除字符零寬

2022-03-07 09:14:04

Selenium鼠標(biāo)元素

2021-06-08 21:36:24

PyCharm爬蟲Scrapy

2021-02-14 22:22:18

格式圖片 HTTP

2021-04-12 21:19:01

PythonMakefile項(xiàng)目

2024-11-13 09:18:09

2021-04-05 14:47:55

Python多線程事件監(jiān)控

2023-10-29 09:16:49

代碼安全命令

2021-05-13 09:01:51

Cloud Flare瀏覽器網(wǎng)站
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)