偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT | 用GPT實現(xiàn)高考志愿系統(tǒng)

人工智能
數(shù)據(jù)采集首先用到的想到是爬蟲,但是卻面臨一個問題,數(shù)據(jù)的異構(gòu)性,針對每個頁面都去寫爬蟲解析是非常麻煩,而且隨著頁面變動,可能原來解析方式又需要重新修改,為此結(jié)合GPT,出現(xiàn)了很多用GPT解析和整理網(wǎng)頁數(shù)據(jù)的開源項目,其中:ScrapeGraphAI比較好用。

高考出分將近,看到各種高考志愿一對一輔導(dǎo),其實是利用信息差掙錢,但是隨著AI的技術(shù)快速發(fā)展,數(shù)據(jù)平權(quán)的時代已經(jīng)到來,信息差不是特定人員的優(yōu)勢。為此,我和小伙伴們利用ChatGPT技術(shù),開發(fā)了高考志愿智能填報系統(tǒng)。

圖片圖片

志愿系統(tǒng)

體驗地址:http://gaokao.su007.club/

邀請碼:6mRtf GyJwco rhGXoK qDGln8 OPC7Ys

1、架構(gòu)設(shè)計

架構(gòu)設(shè)計架構(gòu)設(shè)計

  • 構(gòu)建大語言模型的LLM,通過爬蟲抓取數(shù)據(jù),進行清洗
  • 數(shù)據(jù)清洗后,按照格式入庫到sqlite中
  • 將sqlite按照格式,提供給LLM繼續(xù)微調(diào)
  • 微調(diào)后,將模型部署提供API Server對外訪問

2、數(shù)據(jù)采集

數(shù)據(jù)采集首先用到的想到是爬蟲,但是卻面臨一個問題,數(shù)據(jù)的異構(gòu)性,針對每個頁面都去寫爬蟲解析是非常麻煩,而且隨著頁面變動,可能原來解析方式又需要重新修改,為此結(jié)合GPT,出現(xiàn)了很多用GPT解析和整理網(wǎng)頁數(shù)據(jù)的開源項目,其中:ScrapeGraphAI比較好用。

開源地址:https://github.com/VinciGit00/Scrapegraph-ai

ScrapeGraphAIScrapeGraphAI

使用樣例:

from scrapegraphai.graphs import SmartScraperGraph

graph_config = {
    "llm": {
        "model": "ollama/mistral",
        "temperature": 0,
        "format": "json",  # Ollama needs the format to be specified explicitly
        "base_url": "http://localhost:11434",  # set Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # set Ollama URL
    },
    "verbose": True,
}

smart_scraper_graph = SmartScraperGraph(
    prompt="整理學校信息,包括學校名稱、地址 ...",
    source="https://www.gaokao.cn/school/search",
    cnotallow=graph_config
)

result = smart_scraper_graph.run()
print(result)
  • 這里的輸出結(jié)果由于敏感,所以就不輸出;
  • 由于高考數(shù)據(jù)在互聯(lián)網(wǎng)上比較多,所以可以搜一些相關(guān)的網(wǎng)頁都整理到AI Scraper中,自動分析數(shù)據(jù);
  • 如果有興趣的小伙伴可以嘗試一下,不過爬蟲可能被限制,然后需要遵守法律法規(guī)進行數(shù)據(jù)的爬?。?/li>

3、模型微調(diào)

數(shù)據(jù)整理好以后,就可以進行模型微調(diào),解決AI志愿的推薦問題,當然這里又有另一種方式,就是通過few-shot Prompt,通過上下文進行對話,這樣也可以達到類似的效果,缺點就是上下文不能太長。

這里微調(diào)就使用:LLamaFactory+LLama3,使用界面就可以進行:

LLamaFactoryLLamaFactory

整理的數(shù)據(jù)集如下:

[
{
    "conversations": [
        {
            "from": "human",
            "value": "2024年高考600分,希望選北京的學校,該怎么選?"
        },
        {
            "from": "gpt",
            "value": "根據(jù)北京2023年xxx錄取分數(shù)線:{爬取的分數(shù)線數(shù)據(jù)和專業(yè)數(shù)據(jù)},2022年xxx錄取分數(shù)線:{爬取的分數(shù)線數(shù)據(jù)和專業(yè)數(shù)據(jù)},2021年xxx錄取分數(shù)線:{爬取的分數(shù)線數(shù)據(jù)和專業(yè)數(shù)據(jù)},推薦...,原因是..."
        },
        ...
    ]
}
]

大約整理了10w條數(shù)據(jù),經(jīng)過一些調(diào)整參數(shù)最后微調(diào)完成以后,就可以部署到API Server中。

6、功能上線

圖片圖片

圖片圖片

圖片 圖片

責任編輯:武曉燕 來源: 周末程序猿
相關(guān)推薦

2019-06-28 15:54:49

大數(shù)據(jù)

2015-06-17 14:44:36

大數(shù)據(jù)填高考志愿

2020-07-08 14:14:48

AI高考人工智能

2025-06-12 13:03:13

2024-06-27 10:37:56

2020-07-27 15:01:59

大數(shù)據(jù)人工智能高考志愿

2023-06-26 07:20:51

2025-04-21 08:13:58

ChatGPTAINLP

2025-06-26 17:08:43

2022-06-23 15:54:15

NLP訓(xùn)練

2018-06-25 11:00:48

人工智能機器人高考

2012-07-18 15:26:49

2024-06-13 20:27:05

2019-07-23 09:08:43

Python操作系統(tǒng)高考
點贊
收藏

51CTO技術(shù)棧公眾號