DeepSeek開源模型重塑法證審計,個人本地做RAG+微調(diào),25年多試試
全球82億人口,網(wǎng)民55.6億,而ChatGPT坐擁3.5億全球月活,滲透率算下來也有6%左右了。但這還是DeepSeek-R1開源之前的故事。1/20 開源以來,DeepSeek-R1屬實又硬拉高了一大波全球 AI的滲透率,或者換句話說,是解鎖了更多的應用場景。
其實,本來就有個爛大街的共識是,截止 24 年年底大模型的tokens成本已經(jīng)足夠低、基座模型的智能程度也已經(jīng)足夠高,25年是可預見的AI Agent爆發(fā)的一年。也就是預計會在更個細分領(lǐng)域和細分場景上,涌現(xiàn)一批一大堆專注于特定任務的智能體?,F(xiàn)在看起來,這個共識似乎已經(jīng)開始變成常識了。
Anyway,這篇來給各位介紹一個基于DeepSeek本地部署模型(或商用 API)的自動化法證郵件分析系統(tǒng)。源碼已在Github 開源,項目地址是:https://github.com/weiwill88/Email_audit, 歡迎大家試用后交流。
1、開發(fā)背景
開發(fā)的起點是,一個小紅書上的盆友來咨詢說,自己做法證審計經(jīng)常需要查閱嫌疑人的工作郵箱,但是目前主要是人工根據(jù)經(jīng)驗設計關(guān)鍵詞去做郵件過篩,然后再人肉的看完過去兩年左右的郵件。當然,還需要根據(jù)蛛絲馬跡來梳理線索,so 問了下是否能用DeepSeek自動完成這個過程。我當時直接回復說,這個沒有 deepseek也能干,后來在實際做的過程中又想了下,可能也不是。
一年期用 Claude 3 或者 GPT 4o確實能力上沒問題,但問題是 API 貴啊。那當時能否部署開源模型到本地呢,既不要錢還保證信息安全,也不是不行,只是普通電腦如果只有集成顯卡,基本也就跑個7b,這個尺寸下原有的開源模型比較拉胯,效果很差,那還不如不用。
現(xiàn)在的變化是,DeepSeek-R1蒸餾過的幾個小尺寸模型也已五臟俱全,湊活下也能用。至少針對核心敏感數(shù)據(jù)的本地處理可以應付下,大批量的脫敏數(shù)據(jù)條件允許下,也可以考慮使用商用API 來加快下速度。另外用 DeepSeek 的GRPO 方法也可以選擇對本地部署的小尺寸模型進一步進行微調(diào),可以使用 Unsloth工具,7G顯存就能微調(diào)小尺寸模型。用自己的數(shù)據(jù)打造專屬模型,本也是本地部署的終極意義。
言歸正傳,Unsloth 微調(diào)的教程和案例后續(xù)再發(fā)文,接下來先介紹下這個項目本身。
2、項目定位
本系統(tǒng)旨在利用大語言模型實現(xiàn)對被分析對象 outlook 郵箱中海量郵件的自動化分析和快速摘要,幫助法證審計人員迅速捕捉郵件中的蛛絲馬跡,降低人工篩查工作量。特別針對長期郵件(如員工兩年內(nèi)的全部郵件)進行重點優(yōu)化,實現(xiàn)自動摘要、疑點提示及重點預警功能。
3、郵件模擬
本來是拿自己的 outlook 郵箱來做的樣例去試代碼邏輯,但發(fā)現(xiàn)我只有充斥著廣告的收件箱,發(fā)件箱幾乎為空,完全不具備代表性。于是,就用 DeepSeek-r1 按照法證審計中的一些風險要點,去模擬了一個案例,然后再用 Deepseek-V3 生成了具體的模擬郵件內(nèi)容(100 封)。
看完這個模擬郵件的設計文檔和生成郵件結(jié)果,我忽然也發(fā)現(xiàn),我其實很多項目的數(shù)據(jù)樣例都可以讓 DeepSeek-r1 來生成,這樣或許測試數(shù)據(jù)還具備代表性。
4、快速開始
4.1 環(huán)境要求
Python 3.8+、DeepSeek API Key(默認模式)或 Ollama(離線模式)
4.2 安裝依賴
pip install -r requirements.txt
4.3 模型選擇
本項目支持兩種模式運行:
1. 在線模式(默認,推薦)
使用 DeepSeek V3 API:
? 優(yōu)點:分析速度更快(約 5-10 倍)結(jié)果更準確無需本地部署資源占用少
?? 注意事項:需要聯(lián)網(wǎng)需要 API 密鑰郵件內(nèi)容會發(fā)送至 API 服務器
配置方法:
在 .env 文件中設置你的 API 密鑰:
DEEPSEEK_API_KEY=你的密鑰
DEFAULT_MODEL=deepseek_api
2. 離線模式
使用本地 Ollama 模型:
? 優(yōu)點:完全離線運行數(shù)據(jù)本地處理無需 API 密鑰
?? 注意事項:需要較高配置(建議至少 16GB 內(nèi)存)首次運行需要下載模型(約 7GB)分析速度較慢
配置方法:
安裝 Ollama:https://ollama.ai/ ( https://ollama.ai/ )
下載模型:
ollama pull deepseek-r1:7b
在 .env 文件中修改配置:
DEFAULT_MODEL=ollama
OLLAMA_MODEL=deepseek-r1:7b
4.4 數(shù)據(jù)安全說明
在線模式(DeepSeek API):郵件內(nèi)容會通過 HTTPS 發(fā)送至 API 服務器建議處理敏感數(shù)據(jù)時使用離線模式 API 提供商承諾不存儲用戶數(shù)據(jù)
離線模式(Ollama):所有數(shù)據(jù)本地處理無需網(wǎng)絡連接適合處理敏感信息
5、系統(tǒng)流程
5.1 使用方法
PST 文件解析:
python pst_parser.py
將自動解析指定路徑下的 PST 文件,生成 CSV 格式的郵件元數(shù)據(jù)。
郵件分析:
python email_analyzer.py
默認使用 DeepSeek API 進行分析。如需切換到離線模式:
python email_analyzer.py --model ollama
對解析后的郵件進行智能分析,生成審計報告。
5.2 配置說明
程序會自動在當前目錄的 output 文件夾下查找 metadata_report.csv 文件。 請確保 PST 解析后的文件被保存在正確的位置。
公司郵箱配置
在 .env 文件中設置公司郵箱域名:
COMPANY_DOMAIN=你的公司郵箱域名
此配置用于識別外部郵件,這是風險評估的重要指標。如果有多個域名,可以用逗號分隔。
6、輸出示例
6.1 時間線分析
6.2 關(guān)系網(wǎng)絡
6.3 審計報告
風險等級分布、關(guān)鍵發(fā)現(xiàn)列表、詳細分析結(jié)果、建議措施
7、后續(xù)迭代計劃
生成的報告還要經(jīng)過很多完善才可能能用,計劃后續(xù)結(jié)合前期介紹的 RAG 智能對話系統(tǒng),可以針對特定問題進行全量郵件的檢索回答。
1. 郵件向量化與存儲
基于 ChromaDB 構(gòu)建本地向量數(shù)據(jù)庫實現(xiàn)增量數(shù)據(jù)更新機制支持多維度向量索引(正文、主題、時間等)優(yōu)化向量壓縮和檢索性能
2. 智能問答系統(tǒng)
實現(xiàn)基于上下文的多輪對話支持復雜查詢和條件過濾添加時間范圍和關(guān)鍵詞篩選集成實體識別和關(guān)系提取
3. 深度分析功能
郵件線索追蹤和關(guān)聯(lián)分析人物關(guān)系圖譜構(gòu)建事件脈絡自動梳理異常行為模式識別(完)