一日一技:如何正確使用正則表達(dá)式的字符串替換
在日常工作中,可能需要一次性給大模型發(fā)送N篇文章,讓其幫忙提取并返回Markdown格式的產(chǎn)品信息。假設(shè)這N篇文章的json格式如下:
[
{"id": 1, "title": "xxx", "content": "yyyy", "url": "https://..."},
{"id": 2, "title": "xxx", "content": "yyyy", "url": "https://..."}
{"id": 3, "title": "xxx", "content": "yyyy", "url": "https://..."}
]
然后,讓大模型從這N篇文章中提取出產(chǎn)品信息,標(biāo)明對(duì)應(yīng)產(chǎn)品的出處URL,并以Markdown表格返回。返回的Markdown格式如下:
| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | https://xxxx |
| yy | 200 | https://yyyyy |
但上述這種直接處理方法有兩個(gè)弊端。一是有些網(wǎng)站的URL很長(zhǎng),讓大模型原樣將URL返回出來(lái),會(huì)浪費(fèi)輸出token,且輸出token一般都比較貴。二是大模型容易出錯(cuò),可能會(huì)生成假的URL。
因此,一種常見的做法是讓大模型用文章ID來(lái)代替出處URL這一列。上述示例如下:
| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | article_1 |
| yy | 200 | article_2 |
這里提醒大家一下,如果文章ID是1、2、3這種簡(jiǎn)單的數(shù)字,建議拼接一個(gè)前綴,否則在進(jìn)行替換時(shí)容易將其他字段正常的數(shù)字給替換掉。例如,這里我使用article_1來(lái)表示文章ID。
這樣我們?cè)谀玫椒祷氐奈谋疽院螅€需要寫很長(zhǎng)的replace語(yǔ)句將文章ID全部替換成Markdown格式的網(wǎng)址,如下:
answer = ask_llm(參數(shù))
answer = (answer.replace('article_1', f'[{article["title"]}]({article["url"]})')
.replace('article_2', f'[第二個(gè)標(biāo)題](第二個(gè)連接)')
.replace('article_3', f'[第3個(gè)標(biāo)題](第3個(gè)連接)')
。。。
)
上述replace
寫法的代碼長(zhǎng)得太丑了。另一方面,每次replace都會(huì)完整掃描一次文本,如果返回的Markdown很長(zhǎng)的話,非常浪費(fèi)時(shí)間。
最近發(fā)現(xiàn)一個(gè)非常簡(jiǎn)單的辦法,只需要掃描一次Markdown就可以完成全部替換。就是使用re.sub
并且把第二個(gè)參數(shù)改寫成函數(shù)。
一般使用re.sub
的時(shí)候,第二個(gè)參數(shù)都是字符串,例如:
re.sub('目標(biāo)正則表達(dá)式', '新的字符串', '原始字符串')
下面例子是使用re.sub
將一段話中的具體郵箱地址替換為[EMAIL],手機(jī)號(hào)替換為[PHONE]。
圖片
但是re.sub
的第二個(gè)參數(shù)實(shí)際上也可以是函數(shù)。下面用一個(gè)例子來(lái)展示。
首先定義一個(gè)字典:
article_id_url_map = {
"article_1": '[文章標(biāo)題1](https://example.com/article1)',
"article_2": '[文章標(biāo)題2](https://example.com/article2)',
"article_3": '[文章標(biāo)題3](https://example.com/article3)',
}
然后使用如下代碼:
answer = re.sub('(article_\d+)', lambda x: article_id_url_map[x.group(1)], answer)
就搞定了。
運(yùn)行效果如下:
圖片
這樣可以在處理返回包含 URL 的 Markdown 時(shí),僅掃描一次就完成全部替換,提高效率。