偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

TikTok背后的AI如何運作

譯文 精選
人工智能
TikTok是一款視頻共享應用程序,可讓用戶創(chuàng)建和共享短視頻。它以個性化的“just for you”的推薦給用戶留下了深刻的印象。它在Z世代中非常受歡迎,容易讓人上癮。在它的背后,它是由人工智能技術驅動的。

從工程師的角度探索TikTok推薦系統(tǒng)架構。

TikTok是一款視頻共享應用程序,可讓用戶創(chuàng)建和共享短視頻。它以個性化的“just for you”的推薦給用戶留下了深刻的印象。它在Z世代中非常受歡迎,容易讓人上癮。在它的背后,它是由人工智能技術驅動的。

TikTok架構

TikTok推薦系統(tǒng)的架構包括三個組件:大數(shù)據(jù)框架、機器學習和微服務架構。

  1. 大數(shù)據(jù)框架是系統(tǒng)的起點。它提供實時數(shù)據(jù)流處理,數(shù)據(jù)計算和數(shù)據(jù)存儲;
  2. 機器學習是推薦系統(tǒng)的大腦。使用一系列機器學習和深度學習算法與技術用于構建模型并生成適用于個人偏好的建議;
  3. 微服務架構是底層的基礎設施,使整個系統(tǒng)快速高效地提供服務。

大數(shù)據(jù)框架

沒有數(shù)據(jù),就沒有情報。

分析的大多數(shù)數(shù)據(jù)來自用戶的智能手機。這包括操作系統(tǒng)和已安裝的應用程序等。更重要的是,TikTok特別關注用戶的活動日志,例如觀看時間,滑動,喜歡,分享和評論。

日志數(shù)據(jù)通過flume和scribe收集和匯總。它們通過管道進入Kafka 隊列。然后,Apache Storm使用Apache Hadoop生態(tài)系統(tǒng)中的其他組件實時處理數(shù)據(jù)流。

Apache Hadoop生態(tài)系統(tǒng)是一個用于數(shù)據(jù)處理和存儲的分布式系統(tǒng),這包括第一代分布式數(shù)據(jù)處理系統(tǒng)MapReduce。它與批處理并行處理數(shù)據(jù)。YARN 是用于作業(yè)調度和群集資源管理的框架。HDFS 是一個分布式文件系統(tǒng)。HBase 是一個可擴展的分布式數(shù)據(jù)庫,支持大型表的結構化數(shù)據(jù)存儲。Hive 是提供數(shù)據(jù)匯總和查詢的數(shù)據(jù)倉庫基礎結構。 Zookeeper是一項高性能的協(xié)調服務。

隨著數(shù)據(jù)量的快速增長,實時數(shù)據(jù)處理框架也隨之出現(xiàn)。Apache Spark是第三代框架,有助于對大數(shù)據(jù)工作負載進行近乎實時的分布式處理。Spark通過在內存中處理來增強MapReduce的性能。在過去的幾年里,TikTok應用了第四代框架Flink。它旨在本機執(zhí)行實時流式處理。

數(shù)據(jù)庫系統(tǒng)包括MySQL,MongoDB和許多其他系統(tǒng)。

機器學習

這是TikTok如何贏得個性化,且令人上癮的算法家喻戶曉的名字的中心。

在大量數(shù)據(jù)集涌入后,接下來是內容分析、用戶分析和上下文分析。神經網絡深度學習框架(如TensorFlow)用于執(zhí)行計算機視覺和本地語言處理(NLP)。計算機視覺將使用照片和視頻解釋圖像。NLP包括分類、標記和評估。

使用經典的機器學習算法,包括邏輯回歸(LR),卷積神經網絡(CNN),遞歸神經網絡(RNN)和梯度提升決策樹(GBDT)。它應用了常見的推薦方法,例如基于內容的過濾 (CBF)、協(xié)同過濾 (CF) 和更高級的矩陣分解 (MF)。

TikTok用來讀你心思的秘密武器是:

1.算法實驗平臺:工程師對LR和DNN等多種機器學習算法的混合進行實驗,然后運行測試(A / B測試)并進行調整。

2.廣泛的分類和標簽:這些模型基于用戶的參與度,例如觀看時間,滑動以及常用的喜歡或分享(你潛意識反映所做的事比你所說的更能說明你)。用戶特征、向量和類別的數(shù)量超過了世界上大多數(shù)推薦系統(tǒng),而且它們還在不斷增加。

3. 用戶反饋引擎:在多次迭代中檢索用戶反饋后,更新模型。體驗管理平臺基于此引擎構建,最終改進了條件和建議。

為了解決建議中的冷啟動問題,使用了召回策略。它是從數(shù)千萬個已被證明受歡迎且高質量的視頻中選擇數(shù)千名候選人。

與此同時,一些人工智能工作已經轉移到客戶端,以實現(xiàn)超快速的響應。這包括在設備上完成的實時訓練、建模和推理。TensorFlow Lite或ByteNN等機器學習框架用于客戶端。

微服務架構

TikTok已經運用了云原生基礎設施。推薦組件(如用戶分析、預測、冷啟動、召回和用戶反饋引擎)用作 API。這些服務托管在Amazon AWS和Microsoft Azure等云中。作為系統(tǒng)的結果,視頻策展將通過云推送給用戶。

TikTok采用基于Kubernetes的容器化技術。Kubernetes 被稱為容器編排器。它是自動化應用程序生命周期的工具集。Kubeflow致力于在Kubernetes上部署機器學習工作流。

作為云原生堆棧的一部分,Service mesh 是另一個處理服務到服務通信的工具。它控制應用程序的不同部分如何相互共享數(shù)據(jù)。它在平臺層插入功能或服務,而不是在應用程序層插入。

由于高并發(fā)性的要求,服務是使用 Go 語言和 gRPC 構建的。在TikTok中,Go因其良好的內置網絡和并發(fā)支持而成為服務開發(fā)中的主導語言。gRPC 是一個遠程過程控制框架,用于有效地構建和連接服務。

Tiktok的成功在于,它將加倍努力提供最佳的用戶體驗。他們構建內部工具,以最大限度地提高低級別(系統(tǒng)級別)的性能。例如,ByteMesh是Service Mesh的改進版本,KiteX是高性能的Golang gRPC框架,Sonic是增強的Golang JSON庫。其他內部工具或系統(tǒng)包括參數(shù)服務器、ByteNN 和 abase等。

正如TikTok機器學習負責人Xiang Liang所說,有時下面的基礎設施比上面的(機器學習)算法更重要。

譯者介紹

朱鋼,51CTO社區(qū)編輯,2021年IT影響力專家博主,阿里云專家博主,2019年CSDN博客之星20強,2020年騰訊云+社區(qū)優(yōu)秀作者,11年一線開發(fā)經驗,曾參與獵頭服務網站架構設計,企業(yè)智能客服以及大型電子政務系統(tǒng)開發(fā),主導某大型央企內部防泄密和電子文檔安全監(jiān)控系統(tǒng)的建設,目前在北京圖伽健康從事醫(yī)療軟件研發(fā)工作。

原文標題:??How the AI Behind TikTok Works??,作者:Vivien H.


責任編輯:華軒 來源: 51CTO
相關推薦

2022-04-26 12:45:52

TikTok機器學習人工智能

2024-04-08 14:29:45

AI工廠數(shù)據(jù)中心

2024-03-20 09:56:37

英偉達GenAIDNA

2021-12-17 22:52:44

物聯(lián)網電信技術

2021-02-15 15:36:04

采礦加密貨幣區(qū)塊鏈

2023-10-09 16:22:17

2022-06-07 14:30:40

區(qū)塊鏈比特幣以太坊

2025-03-28 00:00:00

SOCAI安全

2014-11-10 09:29:13

Google

2024-09-29 08:49:49

2020-02-12 15:08:41

KVM內部運作

2020-08-31 13:50:35

TIKTOKAI算法

2025-01-14 14:54:57

2022-05-24 17:00:41

區(qū)塊鏈IT比特幣

2010-08-30 09:05:45

2013-01-22 17:33:30

2010-08-16 14:41:49

開源社區(qū)Ubuntu

2023-03-29 07:39:38

TikTok數(shù)據(jù)安全

2025-02-17 00:00:00

2024-11-08 15:31:55

點贊
收藏

51CTO技術棧公眾號