偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一日一技:如何正確使用正則表達(dá)式的字符串替換

開發(fā) 前端
在日常工作中,可能需要一次性給大模型發(fā)送N篇文章,讓其幫忙提取并返回Markdown格式的產(chǎn)品信息。然后,讓大模型從這N篇文章中提取出產(chǎn)品信息,標(biāo)明對(duì)應(yīng)產(chǎn)品的出處URL,并以Markdown表格返回。

在日常工作中,可能需要一次性給大模型發(fā)送N篇文章,讓其幫忙提取并返回Markdown格式的產(chǎn)品信息。假設(shè)這N篇文章的json格式如下:

[
{"id": 1, "title": "xxx", "content": "yyyy", "url": "https://..."},
{"id": 2, "title": "xxx", "content": "yyyy", "url": "https://..."}
{"id": 3, "title": "xxx", "content": "yyyy", "url": "https://..."}
]

然后,讓大模型從這N篇文章中提取出產(chǎn)品信息,標(biāo)明對(duì)應(yīng)產(chǎn)品的出處URL,并以Markdown表格返回。返回的Markdown格式如下:

| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | https://xxxx |
| yy | 200 | https://yyyyy |

但上述這種直接處理方法有兩個(gè)弊端。一是有些網(wǎng)站的URL很長(zhǎng),讓大模型原樣將URL返回出來(lái),會(huì)浪費(fèi)輸出token,且輸出token一般都比較貴。二是大模型容易出錯(cuò),可能會(huì)生成假的URL。

因此,一種常見的做法是讓大模型用文章ID來(lái)代替出處URL這一列。上述示例如下:

| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | article_1 |
| yy | 200 | article_2 |

這里提醒大家一下,如果文章ID是1、2、3這種簡(jiǎn)單的數(shù)字,建議拼接一個(gè)前綴,否則在進(jìn)行替換時(shí)容易將其他字段正常的數(shù)字給替換掉。例如,這里我使用article_1來(lái)表示文章ID。

這樣我們?cè)谀玫椒祷氐奈谋疽院螅€需要寫很長(zhǎng)的replace語(yǔ)句將文章ID全部替換成Markdown格式的網(wǎng)址,如下:

answer = ask_llm(參數(shù))
answer = (answer.replace('article_1', f'[{article["title"]}]({article["url"]})')
          .replace('article_2', f'[第二個(gè)標(biāo)題](第二個(gè)連接)')
          .replace('article_3', f'[第3個(gè)標(biāo)題](第3個(gè)連接)')
          。。。
          )

上述replace寫法的代碼長(zhǎng)得太丑了。另一方面,每次replace都會(huì)完整掃描一次文本,如果返回的Markdown很長(zhǎng)的話,非常浪費(fèi)時(shí)間。

最近發(fā)現(xiàn)一個(gè)非常簡(jiǎn)單的辦法,只需要掃描一次Markdown就可以完成全部替換。就是使用re.sub并且把第二個(gè)參數(shù)改寫成函數(shù)。

一般使用re.sub的時(shí)候,第二個(gè)參數(shù)都是字符串,例如:

re.sub('目標(biāo)正則表達(dá)式', '新的字符串', '原始字符串')

下面例子是使用re.sub將一段話中的具體郵箱地址替換為[EMAIL],手機(jī)號(hào)替換為[PHONE]。

圖片圖片

但是re.sub的第二個(gè)參數(shù)實(shí)際上也可以是函數(shù)。下面用一個(gè)例子來(lái)展示。

首先定義一個(gè)字典:

article_id_url_map = {
    "article_1": '[文章標(biāo)題1](https://example.com/article1)',
    "article_2": '[文章標(biāo)題2](https://example.com/article2)',
    "article_3": '[文章標(biāo)題3](https://example.com/article3)',
}

然后使用如下代碼:

answer = re.sub('(article_\d+)', lambda x: article_id_url_map[x.group(1)], answer)

就搞定了。

運(yùn)行效果如下:

圖片圖片

這樣可以在處理返回包含 URL 的 Markdown 時(shí),僅掃描一次就完成全部替換,提高效率。

責(zé)任編輯:武曉燕 來(lái)源: 未聞Code
相關(guān)推薦

2024-05-29 00:00:01

字符串Python縮進(jìn)

2021-06-15 20:56:39

Python正則表達(dá)式

2022-06-10 12:19:24

正則表達(dá)式可讀性

2022-11-06 21:04:49

字符串字段參數(shù)

2024-07-30 08:16:18

Python代碼工具

2010-03-15 16:13:11

Python正則表達(dá)式

2022-06-20 19:37:59

Python字符串HTML

2021-05-08 19:33:51

移除字符零寬

2021-09-14 21:29:01

項(xiàng)目環(huán)境變量

2021-06-08 21:36:24

PyCharm爬蟲Scrapy

2021-10-20 20:02:47

字符變量函數(shù)

2021-10-15 21:08:31

PandasExcel對(duì)象

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)

2022-03-12 20:38:14

網(wǎng)頁(yè)Python測(cè)試

2025-05-28 03:15:00

Scrapy數(shù)據(jù)sleep

2010-03-25 18:25:36

Python正則表達(dá)式

2024-08-27 22:08:13

2020-12-04 06:39:25

爬蟲網(wǎng)頁(yè)

2009-08-14 17:44:46

C#中使用正則表達(dá)式匹

2021-04-27 22:15:02

Selenium瀏覽器爬蟲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)