學習人工智能,這項核心技術你必須知道!
自然語言處理(NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。涉及的領域較多,主要包括機器翻譯、機器閱讀理解和問答系統(tǒng)等。
從語音識別到智能家居,從人機大戰(zhàn)到無人駕駛,人工智能的“演化”給我們社會上的一些生活細節(jié),帶來了一次又一次的驚喜。同時,人工智能也掌握著多種核心技術。
自然語言處理:利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的語言問題的一門學科,是人工智能的主要內容。
自然語言處理是研究語言能力和語言應用的模型,建立計算機(算法)框架來實現(xiàn)這樣的語言模型,并完善、評測、最終用于設計各種實用系統(tǒng)。
🔻
信息檢索
信息檢索起源于圖書館資料查詢檢索,引入計算機技術后,從單純的文本查詢擴展到包含圖片,音視頻等多媒體信息檢索,檢索對象由數(shù)據(jù)庫擴展到互聯(lián)網(wǎng)。
常見模型:布爾模型,向量空間模型,概率模型
常用技術:倒排索引,隱語義分析(LDA等)
機器翻譯
機器翻譯技術是指利用計算機技術實現(xiàn)從一種自然語言到另外一種自然語言的翻譯過程。基于統(tǒng)計的機器翻譯方法突破了之前基于規(guī)則和實例翻譯方法的局限性,翻譯性取得了巨大提升。
文檔分類
文檔分類:其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準實現(xiàn)自動歸類。
文檔分類的方法有基于機器學習的方法(如svm,decision tree)和基于深度學習(如cnn,rnn)的方法。
流程:樣本處理 — 特征選擇 — 分類。
應用:圖書管理、內容管理、情感分析等
問答系統(tǒng)
問答系統(tǒng)分為開放領域的對話系統(tǒng)和特定領域的問答系統(tǒng)。問答系統(tǒng)技術是指讓計算機像人類一樣用自然語言與人交流的技術。人們可以向問答系統(tǒng)提交用自然語言表達的問題,系統(tǒng)會返回關聯(lián)性較高的答案。
語音識別
語音識別(Speech Recognition):將輸入計算機的語音信號轉換成書面語表示。
應用:文字錄入、人機通訊、語音翻譯等
語義理解
語義理解技術是指利用計算機技術實現(xiàn)對文本篇章的理解,并且回答與篇章相關問題的過程。語義理解更注重于對上下文的理解以及對答案精準程度的把控。語義理解技術目前在智能客服、產品自動問答等相關領域發(fā)揮著重要的作用。
文本挖掘
主要包括對文本進行聚類、分類、抽取摘要、情感分析等。同時,要對挖掘的信息和知識的進行可視化,形成交互式的表達界面。
信息抽取
信息抽取 即從自然語言文本中抽取出特定的事件或事實信息,幫助我們將海量內容自動分類、提取和重構。
這些信息通常包括實體、事件、關系。
例如從新聞中抽取時間、地點、關鍵人物,或是從技術文檔中抽取產品名稱、開發(fā)時間、性能指標等。
與自動摘要相比,信息抽取更有目的性,并能將找到的信息以一定的框架展示。
信息抽取被廣泛應用在:信息檢索、問答系統(tǒng)、情感分析、文本挖掘
社交媒體分析
社交媒體的應用,如Twitter和Facebook,都有標簽和趨勢,并使用自然語言處理來跟蹤和監(jiān)控這些標簽和趨勢,以了解世界各地正在交談的話題。此外,自然語言通過過濾負面的、攻擊性的和不恰當?shù)脑u論和帖子來幫助優(yōu)化過程。
情感分析
這也被稱為情感的人工智能,它是從書面和口頭語料庫中識別、提取和量化情感和情感狀態(tài)的過程。情感分析工具用于處理諸如客戶評論和社交媒體帖子之類的事情,以理解對特定事物的情緒反應和意見,比如新餐廳的菜品質量。
其實自然語言處理所涉獵的范圍不局限于上述幾點,自然語言處理的終極目標是用自然語言與計算機進行通信,使人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和習慣的各種計算機語言。這樣看來,自然語言處理是真的很牛!