偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

RAG系列:切分優(yōu)化 - 基于 Markdown 語法的文檔切分

人工智能
本文我們接著上篇文章解析轉(zhuǎn)換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

引言

RAG系列:解析優(yōu)化 - 不同文件類型統(tǒng)一轉(zhuǎn)換成Markdown一文中我們介紹了將不同文件類型統(tǒng)一解析轉(zhuǎn)換成 Markdown 文件的好處。本文我們接著這篇文章解析轉(zhuǎn)換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

關(guān)于指標(biāo)

RAG系列:系統(tǒng)評估 - 五個主流評估指標(biāo)詳解一文中我們介紹了評估 RAG 系統(tǒng)的五個主流指標(biāo),從本文開始,我會根據(jù)不同優(yōu)化階段來選擇要重點關(guān)注的指標(biāo),不必要每次都關(guān)注五個指標(biāo)的表現(xiàn),這樣可以讓我們的優(yōu)化更聚焦,通過優(yōu)化每個階段的重點指標(biāo),從而逐步優(yōu)化系統(tǒng)的各個環(huán)節(jié)。

在不同優(yōu)化階段需要重點關(guān)注的指標(biāo):

  • 問題優(yōu)化:上下文召回率、答案正確性;
  • 切分優(yōu)化:上下文召回率、上下文相關(guān)性、答案正確性;
  • 檢索優(yōu)化:上下文召回率、上下文相關(guān)性、答案正確性;
  • 生成優(yōu)化:答案忠實度、答案相關(guān)性、答案正確性。

代碼實踐

本文完整代碼地址[1]

基于換行符&空格等字符切分

在之前的示例中,我們用的切分方法是 langchainjs 的 RecursiveCharacterTextSplitter,這是默認(rèn)推薦(常用)的切分方法。與簡單的基于字符計數(shù)或固定分隔符的分割方法不同,RecursiveCharacterTextSplitter 使用一種遞歸的方法來嘗試在多個級別的分隔符上進(jìn)行分割,從而盡量保持文本的語義完整性。

RecursiveCharacterTextSplitter 默認(rèn)分隔符序列是 ["\n\n", "\n", " ", ""],意味著它會先嘗試按段落分割,然后是句子,接著是單詞,最后是逐字符處理。

代碼實現(xiàn):

async function splitDocuments_v50(docs) {
  const textSplitter = new RecursiveCharacterTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小相對比較均勻,都比較接近設(shè)置的 chunkSize(500):

圖片

[379,425,396,376,425,206,495,400,248,299,304,335,314,484,485,425,474,479,352,378,441,443,460,400,398,211,481,346,307,476,414,358,494,480,412,367,383,485,421,407,494,487,334,448,493,397,443,410,400,388,460,492,423,55,484,498,488,422,485,414,382,361,431,157,482,485,192,271,332,424,150,456,410,427,491,477,379,202,461,456,48,39,494,235,474,407,405,248,472,473,134,351,407,102,491,413,486,478,210,495,476,163,383,421,406,486,431,224,488,488,93,487,442,388,496,169,487,485,361,412,468,357,421,362,489,445,468,251,495,477,101,202,498,211,494,328,470,422,332,246,295,393,264]

以下是我們用該方法對 《2024少兒編程教育行業(yè)發(fā)展趨勢報告.md》文件進(jìn)行切分后的結(jié)果:

[
  {
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月\n\n## 少兒編程教育行業(yè)圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)",
},
{
    "pageContent":"![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)\n\n## 專家觀點\n\n### 【童程童美 CEO/孫瀅】\n\n? 當(dāng)前,素質(zhì)教育市場比較分散,但包括少兒編程教育在內(nèi)的市場規(guī)模仍將繼續(xù)擴大。人工智能浪潮越大,人們越可能認(rèn)識到通過素質(zhì)教育發(fā)展孩子其他能力的重要性,包括體育、藝術(shù)、編程等,因此素質(zhì)教育將會繼續(xù)蓬勃發(fā)展。  \n? 鑒于提升學(xué)科成績的剛需長期持續(xù)存在,優(yōu)質(zhì)的教師資源將始終都是稀缺資源。有實力的大品牌和大公司會在素質(zhì)教育發(fā)展的過程當(dāng)中獲得更大的優(yōu)勢。與此同時,市場里具有個性化特點的小公司也會蓬勃發(fā)展,最終呈現(xiàn)巨頭和小而美并存的共榮局面。\n\n### 【點貓科技創(chuàng)始人兼 CEO/李天馳】",
},
{
    "pageContent":"### 【點貓科技創(chuàng)始人兼 CEO/李天馳】\n\n? 點貓科技將以“為下一代提供更有價值的教育”為使命,持續(xù)聚焦工具和內(nèi)容研發(fā),培養(yǎng)青少年的計算思維以及用數(shù)字化的方法和手段解決實際問題的能力,幫助更多地區(qū)和學(xué)校開展人工智能編程教育服務(wù),不斷為科技教育事業(yè)添磚加瓦,并為振興鄉(xiāng)村教育、助力教育公平貢獻(xiàn)自己的力量。\n\n### 【核桃編程創(chuàng)始人兼 CEO/曾鵬軒】\n\n? 未來教育的趨勢是以實操為主的教育方式。少兒編程是學(xué)習(xí)的工具,一種能夠?qū)崿F(xiàn)主動學(xué)習(xí)的教育方式,也是一種未來教育的理念。核桃編程讓孩子通過編程來學(xué)習(xí),而不是學(xué)習(xí)編程,而實操是對編程最有效的學(xué)習(xí)方式,也是核桃編程的核心理念。我們希望通過核桃編程帶來一種正向的學(xué)習(xí)理念,不只是為了學(xué)而學(xué),而是為了用而學(xué)。我們要培養(yǎng)的孩子,是對科學(xué)充滿好奇、擁有無限創(chuàng)造力,最重要的是具有獨立思考與自主學(xué)習(xí)的能力。\n\n### 【斯坦星球 CEO/崔顯耿】",
}
  ...
]

然后對此進(jìn)行評測,將該評測結(jié)果(v5.0)作為本文的基準(zhǔn):

圖片

基于 Markdown 語法切分

要基于 Markdown 語法進(jìn)行切分,我們采用的是 langchainjs 提供的MarkdownTextSplitter。MarkdownTextSplitterRecursiveCharacterTextSplitter的子類,也就是在RecursiveCharacterTextSplitter 默認(rèn)分隔符序列的基礎(chǔ)上添加了一些 Markdown 特有的分隔符['\n## ', '\n### ','\n#### ', '\n##### ','\n###### ', '```\n\n','\n\n***\n\n', '\n\n---\n\n','\n\n___\n\n' ],這樣就意味著它會先嘗試按 Markdown 標(biāo)題 分割,然后是代碼塊、接著是分割線,最后是按 RecursiveCharacterTextSplitter 方法切分,這樣就能夠識別并考慮 Markdown 文本中的不同元素(如標(biāo)題、段落、列表項、代碼塊等),從而進(jìn)行更加合理的切分。

代碼實現(xiàn):

async function splitDocuments_v51(docs, config) {
  const textSplitter = new MarkdownTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小分布的比較分散,最小的文檔塊大小只有 10:

圖片

[192,340,402,378,387,400,495,381,225,273,275,314,281,435,485,245,350,302,387,411,378,383,445,451,32,463,398,143,359,359,484,359,39,490,271,437,420,308,28,441,443,436,465,25,407,494,487,334,14,432,148,343,182,437,145,72,410,400,388,172,29,255,492,423,55,484,498,28,458,168,252,451,32,477,225,419,392,37,118,482,485,192,19,250,332,424,150,19,27,481,242,487,491,175,300,36,462,35,10,461,456,48,27,10,494,235,14,458,32,206,380,387,27,22,472,473,134,339,10,407,102,412,407,27,13,486,478,210,14,467,129,412,30,31,350,170,206,29,492,71,263,378,253,488,88,440,487,353,38,279,432,170,34,133,487,485,361,392,468,357,243,31,474,203,28,484,203,127,32,460,37,31,12,495,477,101,14,142,30,10,498,211,327,404,36,393,183,453,448,277,393,264]

我們再看下用該方法對 《2024少兒編程教育行業(yè)發(fā)展趨勢報告.md》文件進(jìn)行切分的結(jié)果:

[
  {
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業(yè)圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創(chuàng)始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術(shù)迅猛發(fā)展,如何為中小學(xué)生提供更加優(yōu)質(zhì)的科學(xué)教育、全面提高科學(xué)素質(zhì),成為一個急迫的時代命題,編程作為鏈接 AI 時代和創(chuàng)新人才的“鑰匙”越來越剛需,整個青少年編程市場也進(jìn)入活躍期。編程教育的目標(biāo)是要培養(yǎng)個性化、創(chuàng)新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優(yōu)質(zhì)的教育資源,激發(fā)好奇心、培養(yǎng)創(chuàng)造力,實現(xiàn)個性化、創(chuàng)新性人才的培養(yǎng),在助力科學(xué)教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應(yīng)國家政策號召,推動編程教育與人工智能的融合及普及國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續(xù)出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學(xué)開設(shè) Scratch、Python 等程序設(shè)計課程,培養(yǎng)編程思維,普及編程教育。  \n? 天津市政府招生辦發(fā)布的《 2018 年天津科技特長生招生計劃》中,多所中學(xué)將信息學(xué)奧賽、信息技術(shù)、人工智能等納入了招生范疇。  \n? 重慶市教委發(fā)布《關(guān)于加強中小學(xué)編程教育的通知》,將編程列為重慶中小學(xué)必修課,要求小學(xué)三年級開始學(xué)編程。  \n? 北京市教育委員會將人工智能納入北京中小學(xué)社會實踐,明確了人工智能與教育融合發(fā)展在教育各學(xué)段主要任務(wù)。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創(chuàng)客資源,著力打造創(chuàng)客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學(xué)初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進(jìn)行線上與線下結(jié)合的編程培訓(xùn)。  \n? 浙江省發(fā)布消息,八年級新增 Python 內(nèi)容,五六年級按照教材規(guī)劃開始接觸大數(shù)據(jù)、人工智能、程序設(shè)計與算法。  \n? 北京市海淀區(qū)明確指出:將信息技術(shù)(包含編程)納入初中學(xué)業(yè)水平測試,考試不通過不予畢業(yè)。  \n? 上海市教委提出推進(jìn)人工智能、編程技術(shù)等課程進(jìn)中小學(xué)課堂,支持高校人工智能相關(guān)專業(yè)建設(shè),提升師生信息素養(yǎng)。  \n? 長沙市發(fā)改委等部門指出,中小學(xué)新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術(shù)”列入初中學(xué)業(yè)水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達(dá)到 C 級及以上。\n\n- 2022 年",
}
]

該切分方法的評測結(jié)果(v5.1)如下:

圖片

從評測結(jié)果來看,該方法對各項指標(biāo)有提升但不是很明顯,因此我們進(jìn)一步分析下原因并優(yōu)化。

合并過小的文檔塊

在使用 MarkdownTextSplitter 進(jìn)行切分文檔的時候,我們可以看到切分后的文檔塊大小分布是比較分散的,最小的文檔塊大小只有 10,由于 MarkdownTextSplitter 切分方法的特性,這些小的文檔塊可能就是一個標(biāo)題,比如:["##### 業(yè)務(wù)模式", "##### 課程體系", "##### 產(chǎn)品優(yōu)勢"]。由于我們是根據(jù)向量距離檢索相關(guān)文檔的,由于更大的文本塊,其所涵蓋的信息量也增大,可能導(dǎo)致向量表示變得更加稀疏,往往我們檢索出來的是這些更小的文檔,但這些文檔往往不包含或包含很少答案所需的關(guān)鍵信息,從而影響到上下文召回率。

因此我們需要將這些過小的文檔塊進(jìn)行合并,由于這些過小的文檔塊是標(biāo)題,所以簡單的方法就是將過小的文檔塊直接合并到下一個文檔塊上,代碼實現(xiàn):

async functionsplitDocuments_v52(docs) {
// 在 splitDocuments_v51 的結(jié)果上進(jìn)行處理
const documents = awaitsplitDocuments_v51(docs);
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    // 長度小于100的文檔
    if (doc.pageContent.length < 100) {
      // 如果不是最后一個元素,則合并到下一個元素
      if (i < documents.length - 1) {
        console.log('合并內(nèi)容:', doc.pageContent, '到下一個');
        documents[i + 1].pageContent =
          doc.pageContent + '\n' + documents[i + 1].pageContent;
      }
      // 刪除當(dāng)前元素
      documents.splice(i, 1);
      i--; // 回退索引以適應(yīng)數(shù)組縮短的情況
    }
  }
return documents;
}

通過這樣的優(yōu)化,我們看下評測結(jié)果(v5.2)如下:

圖片

此時我們可以看到,上下文召回率較 v5.1 有了比較明顯的提升。

給文檔塊補充標(biāo)題

之所有要把不同的文件轉(zhuǎn)換成 Markdown 文件,其中的好處是 Markdown 文件能夠以純文本形式保留文檔的基本結(jié)構(gòu)(標(biāo)題、列表、代碼塊、表格),其中的標(biāo)題提供了文檔的關(guān)鍵詞和上下文信息,能來用來幫助快速理解文檔內(nèi)容,并在檢索時更準(zhǔn)確地定位到與用戶提問相關(guān)的信息,這可以提高上下文相關(guān)性,因此給每個文檔塊補充標(biāo)題是非常有必要的。

MarkdownTextSplitter切分后的結(jié)果:

[
  {
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業(yè)圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創(chuàng)始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術(shù)迅猛發(fā)展,如何為中小學(xué)生提供更加優(yōu)質(zhì)的科學(xué)教育、全面提高科學(xué)素質(zhì),成為一個急迫的時代命題,編程作為鏈接 AI 時代和創(chuàng)新人才的“鑰匙”越來越剛需,整個青少年編程市場也進(jìn)入活躍期。編程教育的目標(biāo)是要培養(yǎng)個性化、創(chuàng)新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優(yōu)質(zhì)的教育資源,激發(fā)好奇心、培養(yǎng)創(chuàng)造力,實現(xiàn)個性化、創(chuàng)新性人才的培養(yǎng),在助力科學(xué)教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應(yīng)國家政策號召,推動編程教育與人工智能的融合及普及國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續(xù)出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學(xué)開設(shè) Scratch、Python 等程序設(shè)計課程,培養(yǎng)編程思維,普及編程教育。  \n? 天津市政府招生辦發(fā)布的《 2018 年天津科技特長生招生計劃》中,多所中學(xué)將信息學(xué)奧賽、信息技術(shù)、人工智能等納入了招生范疇。  \n? 重慶市教委發(fā)布《關(guān)于加強中小學(xué)編程教育的通知》,將編程列為重慶中小學(xué)必修課,要求小學(xué)三年級開始學(xué)編程。  \n? 北京市教育委員會將人工智能納入北京中小學(xué)社會實踐,明確了人工智能與教育融合發(fā)展在教育各學(xué)段主要任務(wù)。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創(chuàng)客資源,著力打造創(chuàng)客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學(xué)初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進(jìn)行線上與線下結(jié)合的編程培訓(xùn)。  \n? 浙江省發(fā)布消息,八年級新增 Python 內(nèi)容,五六年級按照教材規(guī)劃開始接觸大數(shù)據(jù)、人工智能、程序設(shè)計與算法。  \n? 北京市海淀區(qū)明確指出:將信息技術(shù)(包含編程)納入初中學(xué)業(yè)水平測試,考試不通過不予畢業(yè)。  \n? 上海市教委提出推進(jìn)人工智能、編程技術(shù)等課程進(jìn)中小學(xué)課堂,支持高校人工智能相關(guān)專業(yè)建設(shè),提升師生信息素養(yǎng)。  \n? 長沙市發(fā)改委等部門指出,中小學(xué)新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術(shù)”列入初中學(xué)業(yè)水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達(dá)到 C 級及以上。\n\n- 2022 年",
}
]

我們通過看 MarkdownTextSplitter切分后的結(jié)果,可以看到文檔塊所在的每一層級的標(biāo)題是有缺失的,理想狀態(tài)下,該文檔塊需要有它所在的一級標(biāo)題、二級標(biāo)題、三級標(biāo)題等等,所以在這里我們將對每個文檔塊的標(biāo)題進(jìn)行補充,實現(xiàn)代碼如下:

async functionsplitDocuments_v53(docs, config) {
// 在 splitDocuments_v52 的結(jié)果上進(jìn)行處理
const documents = awaitsplitDocuments_v52(docs, config);
// 獲取每個文檔塊的標(biāo)題并添加到元數(shù)據(jù)中
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    const lines = doc.pageContent.split('\n');
    const headers = [
      {
        key: 'header5',
        value: '##### ',
      },
      {
        key: 'header4',
        value: '#### ',
      },
      {
        key: 'header3',
        value: '### ',
      },
      {
        key: 'header2',
        value: '## ',
      },
      {
        key: 'header1',
        value: '# ',
      },
    ];
    headers.forEach((header) => {
      const { key, value } = header;
      doc.metadata[key] = [];

      // 提取每一行的標(biāo)題
      for (const line of lines) {
        if (line.startsWith(value)) {
          doc.metadata[key].push(
            line.replace(newRegExp(`/^${value}/`), '').trim()
          );
        }
      }
      // 如果當(dāng)前文檔沒有對應(yīng)標(biāo)題,則取前一個文檔的對應(yīng)標(biāo)題的第一個,并加入到當(dāng)前文檔中
      if (i > 0) {
        if (doc.metadata[key].length === 0) {
          const preHeader = documents[i - 1].metadata[key][0];
          if (preHeader) {
            doc.pageContent = preHeader + '\n\n' + doc.pageContent;
            doc.metadata[key] = [preHeader];
          }
        }
      }
    });
  }
return documents;
}

這樣處理后,我們可以看到每個文檔塊都補充了每一級的標(biāo)題:

[
  {
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n## 少兒編程教育行業(yè)圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n## 專家觀點\n\n### 【極客晨星創(chuàng)始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術(shù)迅猛發(fā)展,如何為中小學(xué)生提供更加優(yōu)質(zhì)的科學(xué)教育、全面提高科學(xué)素質(zhì),成為一個急迫的時代命題,編程作為鏈接 AI 時代和創(chuàng)新人才的“鑰匙”越來越剛需,整個青少年編程市場也進(jìn)入活躍期。編程教育的目標(biāo)是要培養(yǎng)個性化、創(chuàng)新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優(yōu)質(zhì)的教育資源,激發(fā)好奇心、培養(yǎng)創(chuàng)造力,實現(xiàn)個性化、創(chuàng)新性人才的培養(yǎng),在助力科學(xué)教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n## 少兒編程教育行業(yè) 十大趨勢\n\n### 01 國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應(yīng)國家政策號召,推動編程教育與人工智能的融合及普及國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續(xù)出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學(xué)開設(shè) Scratch、Python 等程序設(shè)計課程,培養(yǎng)編程思維,普及編程教育。  \n? 天津市政府招生辦發(fā)布的《 2018 年天津科技特長生招生計劃》中,多所中學(xué)將信息學(xué)奧賽、信息技術(shù)、人工智能等納入了招生范疇。  \n? 重慶市教委發(fā)布《關(guān)于加強中小學(xué)編程教育的通知》,將編程列為重慶中小學(xué)必修課,要求小學(xué)三年級開始學(xué)編程。  \n? 北京市教育委員會將人工智能納入北京中小學(xué)社會實踐,明確了人工智能與教育融合發(fā)展在教育各學(xué)段主要任務(wù)。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創(chuàng)客資源,著力打造創(chuàng)客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"# 少兒編程教育行業(yè)發(fā)展趨勢報告\n\n## 少兒編程教育行業(yè) 十大趨勢\n\n### 01 國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應(yīng)國家政策號召,推動編程教育與人工智能的融合及普及國家戰(zhàn)略政策利好,少兒編程教育重要性逐步提升\n\n- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學(xué)初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進(jìn)行線上與線下結(jié)合的編程培訓(xùn)。  \n? 浙江省發(fā)布消息,八年級新增 Python 內(nèi)容,五六年級按照教材規(guī)劃開始接觸大數(shù)據(jù)、人工智能、程序設(shè)計與算法。  \n? 北京市海淀區(qū)明確指出:將信息技術(shù)(包含編程)納入初中學(xué)業(yè)水平測試,考試不通過不予畢業(yè)。  \n? 上海市教委提出推進(jìn)人工智能、編程技術(shù)等課程進(jìn)中小學(xué)課堂,支持高校人工智能相關(guān)專業(yè)建設(shè),提升師生信息素養(yǎng)。  \n? 長沙市發(fā)改委等部門指出,中小學(xué)新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術(shù)”列入初中學(xué)業(yè)水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達(dá)到 C 級及以上。\n\n- 2022 年",
}
]

通過這樣的優(yōu)化,我們看下評測結(jié)果(v5.3)如下:

圖片

此時我們可以看到,上下文相關(guān)性較 v5.2 有了比較明顯的提升。

結(jié)語

通過對比基于通用字符遞歸切分方法與基于 Markdown 語法的文檔切分方法,我們可以看到基于 Markdown 語法的文檔切分方法對 RAG 系統(tǒng)的各項指標(biāo)是有一定的提升作用,然后我們通過合并過小的文檔塊提升了上下文召回率,通過給文檔塊補充標(biāo)題提升了上下文相關(guān)性

引用鏈接

[1] 本文完整代碼地址: https://github.com/laixiangran/ai-learn/blob/main/src/app/rag/05_document_split_optimize/route.ts

責(zé)任編輯:龐桂玉 來源: 燃哥講AI
相關(guān)推薦

2025-06-24 09:51:10

2024-09-04 09:11:42

2022-01-07 14:00:35

分庫分表業(yè)務(wù)量

2025-06-23 09:21:53

2019-11-25 10:12:59

Python技巧工具

2011-08-18 16:03:48

數(shù)據(jù)切分MySQL

2024-08-05 10:23:36

2025-06-03 08:50:24

RAGMarkdown

2025-05-22 06:48:50

RAGAI應(yīng)用開發(fā)框架DeepSeek

2017-07-17 14:45:43

數(shù)據(jù)庫DB分庫切分策略

2021-03-17 16:15:55

數(shù)據(jù)MySQL 架構(gòu)

2024-06-24 14:32:33

2017-12-08 10:42:49

HBase切分細(xì)節(jié)

2017-08-28 16:40:07

Region切分觸發(fā)策略

2025-05-26 09:57:46

2024-02-05 14:12:37

大模型RAG架構(gòu)

2017-06-19 16:45:41

數(shù)據(jù)庫水平切分用戶中心

2023-10-10 14:03:47

swap排序解法

2025-03-24 08:20:39

RAGLLM檢索增強生成

2011-08-11 18:54:01

數(shù)據(jù)庫分頁查詢
點贊
收藏

51CTO技術(shù)棧公眾號