偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="4i0sc"></blockquote>

<big id="4i0sc"><mark id="4i0sc"></mark></big>

<tt id="4i0sc"></tt>

<form id="4i0sc"></form>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

NLP：生動(dòng)理解TF-IDF算法

發(fā)布于 2025-2-8 14:17

瀏覽

0收藏

什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)，常用于挖掘文章中的關(guān)鍵詞，而且算法簡(jiǎn)單高效，常被工業(yè)用于最開始的文本數(shù)據(jù)清洗。

TF-IDF有兩層意思，一層是"詞頻"（Term Frequency，縮寫為TF），另一層是"逆文檔頻率"（Inverse Document Frequency，縮寫為IDF）。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

假設(shè)我們現(xiàn)在有一片長(zhǎng)文叫做《量化系統(tǒng)架構(gòu)設(shè)計(jì)》詞頻高在文章中往往是停用詞，“的”，“是”，“了”等，這些在文檔中最常見但對(duì)結(jié)果毫無幫助、需要過濾掉的詞，用TF可以統(tǒng)計(jì)到這些停用詞并把它們過濾。當(dāng)高頻詞過濾后就只需考慮剩下的有實(shí)際意義的詞。

但這樣又會(huì)遇到了另一個(gè)問題，我們可能發(fā)現(xiàn)"量化"、"系統(tǒng)"、"架構(gòu)"這三個(gè)詞的出現(xiàn)次數(shù)一樣多。這是不是意味著，作為關(guān)鍵詞，它們的重要性是一樣的？事實(shí)上系統(tǒng)應(yīng)該在其他文章比較常見，所以在關(guān)鍵詞排序上，“量化”和“架構(gòu)”應(yīng)該排在“系統(tǒng)”前面，這個(gè)時(shí)候就需要IDF，IDF會(huì)給常見的詞較小的權(quán)重，它的大小與一個(gè)詞的常見程度成反比。

當(dāng)有TF(詞頻)和IDF(逆文檔頻率)后，將這兩個(gè)詞相乘，就能得到一個(gè)詞的TF-IDF的值。某個(gè)詞在文章中的TF-IDF越大，那么一般而言這個(gè)詞在這篇文章的重要性會(huì)越高，所以通過計(jì)算文章中各個(gè)詞的TF-IDF，由大到小排序，排在最前面的幾個(gè)詞，就是該文章的關(guān)鍵詞。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

TF-IDF算法步驟

第一步，計(jì)算詞頻：

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

考慮到文章有長(zhǎng)短之分，為了便于不同文章的比較，進(jìn)行"詞頻"標(biāo)準(zhǔn)化。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

第二步，計(jì)算逆文檔頻率：

這時(shí)，需要一個(gè)語料庫（corpus），用來模擬語言的使用環(huán)境。

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

如果一個(gè)詞越常見，那么分母就越大，逆文檔頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文檔都不包含該詞）。log表示對(duì)得到的值取對(duì)數(shù)。

第三步，計(jì)算TF-IDF：

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

可以看到，TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比，與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。所以，自動(dòng)提取關(guān)鍵詞的算法就很清楚了，就是計(jì)算出文檔的每個(gè)詞的TF-IDF值，然后按降序排列，取排在最前面的幾個(gè)詞。

優(yōu)缺點(diǎn)

TF-IDF的優(yōu)點(diǎn)是簡(jiǎn)單快速，而且容易理解。缺點(diǎn)是有時(shí)候用詞頻來衡量文章中的一個(gè)詞的重要性不夠全面，有時(shí)候重要的詞出現(xiàn)的可能不夠多，而且這種計(jì)算無法體現(xiàn)位置信息，無法體現(xiàn)詞在上下文的重要性。如果要體現(xiàn)詞的上下文結(jié)構(gòu)，那么你可能需要使用word2vec算法來支持。

示例代碼

NLP：生動(dòng)理解TF-IDF算法-AI.x社區(qū)

本文轉(zhuǎn)載自沐白AI筆記，作者：沐白

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

超越DPO，創(chuàng)新大模型優(yōu)化算法SimPO

Aceryt ? 3868瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3957瀏覽 ? 0回復(fù)
ACL2024 | NLP-KG：一個(gè)比Google Scholar更強(qiáng)大的NLP文獻(xiàn)搜索工具

Tang_Lan ? 3994瀏覽 ? 0回復(fù)
徹底理解GPT tokenizers

ermulong ? 2860瀏覽 ? 0回復(fù)
DSARE：當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路

大語言模型論文跟蹤 ? 3514瀏覽 ? 0回復(fù)
BERT如何增強(qiáng)NLP的性能

51CTO內(nèi)容精選 ? 2468瀏覽 ? 0回復(fù)
大模型訓(xùn)練核心算法之——反向傳播算法

AI探索時(shí)代 ? 3835瀏覽 ? 0回復(fù)
一種將RAG、KG、VS、TF結(jié)合增強(qiáng)領(lǐng)域LLM性能的框架

PaperAgent ? 3134瀏覽 ? 0回復(fù)
探討 | 大模型在傳統(tǒng)NLP任務(wù)的使用姿勢(shì)

NLP工作站 ? 3325瀏覽 ? 0回復(fù)
騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

恰似驚鴻 ? 2480瀏覽 ? 0回復(fù)
掌握BERT：自然語言處理（NLP）從初級(jí)到高級(jí)的綜合指南

石映飛云 ? 2660瀏覽 ? 0回復(fù)
輕量級(jí)級(jí)表格識(shí)別算法模型-SLANet

大模型自然語言處理 ? 3164瀏覽 ? 0回復(fù)
NLP范式總結(jié) | 擁抱新范式

zhcs333 ? 2305瀏覽 ? 0回復(fù)
Meta開源BLT算法！

NLP前沿1 ? 2383瀏覽 ? 0回復(fù)
一文詳解集成學(xué)習(xí)算法原理

寶寶數(shù)模AI ? 2484瀏覽 ? 0回復(fù)
Word2vec算法原理詳解

人工智能訓(xùn)練營(yíng) ? 2498瀏覽 ? 0回復(fù)
什么是自然語言處理——NLP，其解決了什么問題？

AI探索時(shí)代 ? 2915瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)技術(shù)棧介紹——PyTorch，Transformer，NLP，CV，Embedding

AI探索時(shí)代 ? 2109瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)技術(shù)的核心之——反向傳播算法(BP算法)

AI探索時(shí)代 ? 2669瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文講透深入理解邏輯回歸 2025-06-17 06:35:55發(fā)布
如何有效降低機(jī)器學(xué)習(xí)模型過擬合？ 2025-06-04 07:02:18發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： DeepNetwork中一般Dropout原理

下一篇：如何確認(rèn)深度學(xué)習(xí)模型的loss已經(jīng)收斂好了？

社區(qū)精華內(nèi)容

目錄

<cite id="hw5qc"><dl id="hw5qc"></dl></cite>

<abbr id="hw5qc"></abbr>

<table id="hw5qc"></table>