偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)分析 | 最適合學(xué)習(xí)英語(yǔ)的Netflix電影和電視劇有哪些?

大數(shù)據(jù) 數(shù)據(jù)分析
為了找到Netflix上最好的電影和電視節(jié)目,我比較了臺(tái)本對(duì)話中使用的詞匯。讓我們找到哪些是最好的電視節(jié)目和電影。

截至2020年,Netflix上約有3712部電影和1845部電視節(jié)目。如果你正在學(xué)習(xí)英語(yǔ),可供選擇的內(nèi)容很多,但你可能沒(méi)那么多時(shí)間去看完。因此,我用數(shù)據(jù)科學(xué)技能來(lái)分析Netflix上前1500部電影和電視節(jié)目的劇本。經(jīng)過(guò)大量的處理,我找到了Netflix上最好的英語(yǔ)學(xué)習(xí)內(nèi)容。這樣做的目的是為了給你提供很多好的選擇,讓你可以找到你喜歡的電影或電視節(jié)目,同時(shí)對(duì)學(xué)習(xí)英語(yǔ)也有好處,而不是強(qiáng)迫你看不喜歡的電視節(jié)目,因?yàn)槟愕睦蠋熀团笥褕?jiān)持'它有助于大家學(xué)習(xí)英語(yǔ)'。

為了找到Netflix上最好的電影和電視節(jié)目,我比較了臺(tái)本對(duì)話中使用的詞匯。讓我們找到哪些是最好的電視節(jié)目和電影。

Netflix上詞匯最簡(jiǎn)單的電視節(jié)目

Netflix上的美國(guó)和英國(guó)電視節(jié)目都是為母語(yǔ)為英語(yǔ)的人制作的。這就是為什么如果英語(yǔ)不是你的母語(yǔ),你在理解某些場(chǎng)景中的對(duì)話時(shí)可能會(huì)遇到一些困難。我根據(jù)詞匯量的難易程度對(duì)Netflix目錄上的500個(gè)一流電視節(jié)目(223部Netflix原創(chuàng)節(jié)目)進(jìn)行了排名。

《老友記》詞匯簡(jiǎn)單,被認(rèn)為是學(xué)習(xí)英語(yǔ)最好的電視節(jié)目之一。然而,這部電視劇在Netflix目錄中只排在第78位,這意味著還有77部電視劇和《老友記》一樣好——甚至更好!-可以在Netflix上學(xué)習(xí)英語(yǔ)并享受樂(lè)趣。例如,根據(jù)我的調(diào)查結(jié)果,電視劇《去他*的世界》(排名13)或《13個(gè)原因》(排名40)在其劇集中的詞匯量甚至更簡(jiǎn)單。

你可以在下面的框中搜索電視節(jié)目名。你會(huì)發(fā)現(xiàn)他們的排名和詞匯覆蓋率。排名前十的電視節(jié)目在整個(gè)Netflix劇集列表中詞匯最簡(jiǎn)單。

如果你正在尋找適合你英語(yǔ)水平的電視節(jié)目,那么我有一個(gè)好消息要告訴你, 我對(duì)所有節(jié)目的英語(yǔ)詞匯量水平進(jìn)行了排名(初級(jí)、中級(jí)、高級(jí))。最靠右的節(jié)目在每個(gè)級(jí)別上使用的詞匯量更多。覆蓋率越高,你就越容易理解電視劇中的情節(jié)。

按詞匯覆蓋率排名的Netflix劇集

每個(gè)級(jí)別代表1000個(gè)最常見(jiàn)的英語(yǔ)單詞。所有的電影都有所有級(jí)別的排名。1級(jí)代表 "初級(jí)水平",3級(jí)代表 "中級(jí)水平"。一集的覆蓋率越高,越容易理解其詞匯量。

  • 黃色代表Lvl 1
  • 紅色代表Lvl 1+2
  • 藍(lán)色代表Lvl 1+2+3

 

[[357496]]

 

圖: Frank Andrade 來(lái)源: 用Datawrapper創(chuàng)建的電視學(xué)習(xí)語(yǔ)言。

 

這些是在Netflix目錄中發(fā)現(xiàn)的電視節(jié)目??赡苡行┠阆矚g的電視節(jié)目不在Netflix上,但不要擔(dān)心,我已經(jīng)分析了其中一些電視節(jié)目,如《權(quán)力的游戲》或《辛普森一家》。此外,Netflix目錄在你的國(guó)家可能略有不同。這就是為什么我只列出了一個(gè)最有可能在全球范圍內(nèi)提供的Netflix原著。

Learn English with Game of Thrones: The Best Episodes

以下是學(xué)習(xí)英語(yǔ)的十大Netflix原創(chuàng)節(jié)目

  1. 妖靈(Jinn)
  2. 愛(ài)情起床號(hào)(Good Morning Call)
  3. 魚(yú)妖怪談(Tidelands)
  4. Easy
  5. 黑色夏天(Black Summer)
  6. 夏日時(shí)光 (Summertime)
  7. Baby
  8. 上層男孩(Top Boy)
  9. 血統(tǒng)(Bloodline)
  10. 去他*的世界(The End Of The F*ing World)

按詞匯覆蓋率排名的Netflix電影

如果你比較喜歡看電影,那么Netflix也有很好的電影來(lái)學(xué)習(xí)英語(yǔ)。我把Netflix上最受歡迎的950部電影(173部Netflix原創(chuàng)電影)按照詞匯量的難度進(jìn)行了排名。排名前100的熱門電影有《蒙上你的眼 》(30)、《蜘蛛俠:平行宇宙》(84)和《當(dāng)幸福來(lái)敲門》(81)。

通過(guò)下面的方框播放,看看還有哪些電影排在前100名。你還可以發(fā)現(xiàn)你喜歡的電影的排名和詞匯覆蓋率。

你可以在下面找到適合你英語(yǔ)水平的電影。最右邊的電影有更多的初級(jí)、中級(jí)和高級(jí)詞匯。但這些都是在 Netflix 目錄中找到的排名靠前的電影,你不會(huì)在 Netflix 上找到像《哈利波特》、《阿凡達(dá)》、《玩具總動(dòng)員》這樣的電影,但如果你還想看這類電影,你應(yīng)該看看我的另一篇文章,我分析了3000部最受歡迎的電影。你可以在這里找到它。

Netflix 的電影排行榜(根據(jù)詞匯量)

每一級(jí)代表 1000 個(gè)最常見(jiàn)的英語(yǔ)單詞。所有的電影都按等級(jí)排列。第 1 級(jí)代表“初級(jí)水平”,第 3 級(jí)代表“中級(jí)水平”。一集節(jié)目的收視率越高,詞匯就越容易理解。

我還列出了 Netflix 在世界范圍內(nèi)最可能提供的原創(chuàng)電影列表,以防 Netflix 的目錄在你的國(guó)家不一樣。

以下是Netflix十大最適合學(xué)英語(yǔ)的原創(chuàng)電影:

  1. In The Tall Grass (2019)-在高草中
  2. A Secret Love (2020)-隱秘的愛(ài)
  3. Under The Riccione Sun (2020)
  4. Dangerous Lies (2020)-危險(xiǎn)的謊言
  5. Bird Box (2018)-蒙上你的眼
  6. Who Would You Take To A Deserted Island (2019)
  7. Earthquake Bird (2019)
  8. Love Wedding Repeat (2020)
  9. Paddleton (2019)
  10. 6 Balloons (2018)-六個(gè)氣球

在向英語(yǔ)學(xué)習(xí)者展示 Netflix 上最好的內(nèi)容之前,讓我們比較一下最好的和可能最差的內(nèi)容,僅針對(duì)詞匯量難度來(lái)說(shuō)。

Netflix 詞匯最易懂和最難懂的原創(chuàng)劇

以下圖片顯示了排名前十和后十的網(wǎng)飛原創(chuàng)電影在英語(yǔ)詞匯難度上的差別。正如你所看到的,在過(guò)去的 10 年中,使用的詞匯更加困難。例如,你只需要知道最常見(jiàn)的 1000 個(gè)英語(yǔ)單詞就能理解電影《 蒙上你的眼 》中 94,5% 的單詞,但你需要至少3000個(gè)單詞來(lái)涵蓋電影《Spelling The Dream 》中 94.5% 的對(duì)話。這額外的 2000 個(gè)單詞可能就是你不懂的原因——即使你的英語(yǔ)水平已經(jīng)很高了!

數(shù)據(jù)集

為了進(jìn)行分析,我使用了 3 個(gè)主要數(shù)據(jù)集,它們由文本、Netflix 目錄和 Netflix 原創(chuàng)列表組成。我在谷歌上搜索,直到我找到了大量用于分析的轉(zhuǎn)錄本。我用目錄來(lái)匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目錄數(shù)據(jù)集。從 2019 年開(kāi)始,Netflix 上就可以看到它的內(nèi)容,所以可能有些電影或電視節(jié)目現(xiàn)在還不能在 Netflix 上看到。最后,我在這里找到了一份截至 2020 年的 Netflix 原創(chuàng)劇集列表,這對(duì)分析很有幫助。

方法

我用 Python 做了所有這些分析,這是我準(zhǔn)備數(shù)據(jù)的方式:

Tokenization:為了分析文字記錄中的詞匯,我將字符說(shuō)的所有單詞標(biāo)記化。Python中有許多用于標(biāo)記化的工具,但是我使用 CountVectorizer,因?yàn)樗鼘⑹占霓D(zhuǎn)錄本轉(zhuǎn)換為標(biāo)記計(jì)數(shù)的數(shù)據(jù)格式,從而簡(jiǎn)化了分析。在分析了 3000 部電影的文章中,我進(jìn)一步解釋了 CountVectorizer 是如何工作的。

詞形還原(Lemmatization):在標(biāo)記化之后,我必須找到每個(gè)標(biāo)記的基本形式。您可以通過(guò)使用象 lemmizing 這樣的技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn),您可以在 NLTK 庫(kù)中找到這些技術(shù)。不過(guò),我使用了類似的單詞族列表,而且還根據(jù)單詞出現(xiàn)的頻率給出了每個(gè)單詞的難度水平。到 2020 年,有 29 個(gè)單詞家族列表,你可以在這里找到。這些列表是對(duì)與語(yǔ)言學(xué)和英語(yǔ)作為第二語(yǔ)言學(xué)習(xí)相關(guān)的研究論文進(jìn)行評(píng)估的。

數(shù)據(jù)清理:我刪除了在電影或片段中聽(tīng)不到的單詞,比如場(chǎng)景描述和講話者的名字。我還排除了對(duì)話中超過(guò) 3.5% 的單詞與單詞家族列表不匹配的抄本(它們可能是異常值或被破壞的數(shù)據(jù))。

所有的代碼都可以在 Github 上找到!

關(guān)于分析和結(jié)果

我用來(lái)對(duì)電視節(jié)目中的詞匯進(jìn)行分類的單詞表,大部分都來(lái)自語(yǔ)料庫(kù)。詞匯水平是根據(jù)一個(gè)詞在語(yǔ)料庫(kù)中被發(fā)現(xiàn)的頻率來(lái)確定的,即這些文本中最常見(jiàn)的詞被標(biāo)注為 1 級(jí)。盡管之前的研究已經(jīng)證明了該列表是可靠的,但對(duì)于具有多種含義的單詞,它并不那么準(zhǔn)確。例如,單詞 “draw” 在列表中被標(biāo)記為第 1 級(jí)。之所以會(huì)出現(xiàn)這種情況,是因?yàn)檫@個(gè)詞通常指“拍照”,但如果它的意思是“拿出武器來(lái)攻擊某人”或“得出結(jié)論”,那么它就不屬于第一級(jí)。

我花了幾個(gè)星期的時(shí)間尋找、清理、處理數(shù)據(jù),然后弄清楚得到的結(jié)果。然而,研究結(jié)果并不完美。關(guān)于電影的研究結(jié)果可能比電視節(jié)目更準(zhǔn)確。電影的文字記錄是獨(dú)一無(wú)二的,但電視節(jié)目播出的劇集不同,這增加了每部電視節(jié)目的文字記錄數(shù)量。這就是為什么我收集了每個(gè)節(jié)目 3 到 10 集的樣本,以獲得該電視節(jié)目平均每集涵蓋的詞匯。

總的來(lái)說(shuō),調(diào)查結(jié)果揭示了很多適合每個(gè)詞匯水平的內(nèi)容,但其中一些還是讓我吃驚。比如,《行尸走肉》排在第 62 位,這讓我很吃驚。我不是那個(gè)電視節(jié)目的粉絲,但我不認(rèn)為一個(gè)有僵尸的虛構(gòu)節(jié)目在對(duì)話中使用簡(jiǎn)單的詞匯。在查看了文字記錄后,我證實(shí)了《行尸走肉》中對(duì)詞匯的需求在整集都有很多起伏。也就是說(shuō),有些情節(jié)可能比其他情節(jié)更難理解。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

責(zé)任編輯:未麗燕 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2015-09-23 13:28:01

大數(shù)據(jù)分析軟件

2016-04-22 17:05:30

2016-08-10 01:00:21

2017-10-16 09:00:11

微服務(wù)架構(gòu)Netflix

2020-03-17 15:55:12

Redis數(shù)據(jù)庫(kù)命令

2009-01-19 16:54:50

數(shù)據(jù)挖掘CRM孤立點(diǎn)

2021-02-14 10:09:04

數(shù)據(jù)目錄數(shù)據(jù)元數(shù)據(jù)

2016-07-14 16:27:54

linux

2015-03-17 10:25:42

IoT物聯(lián)網(wǎng)鏈接傳感器

2017-02-15 16:24:03

2016-12-12 14:15:37

Java大數(shù)據(jù)工具

2015-06-17 09:54:08

2015-06-17 10:10:28

2019-09-01 19:19:04

TensorFlowPyTorch深度學(xué)習(xí)

2018-09-07 06:30:50

物聯(lián)網(wǎng)平臺(tái)物聯(lián)網(wǎng)IOT

2016-01-26 09:58:28

云存儲(chǔ)云服務(wù)云安全

2018-10-22 14:00:12

數(shù)據(jù)數(shù)據(jù)插補(bǔ)數(shù)據(jù)科學(xué)

2015-12-11 13:36:17

WebAPPNodeJS

2018-05-07 08:29:56

機(jī)器學(xué)習(xí)開(kāi)源適合

2017-06-09 10:20:17

數(shù)據(jù)庫(kù)表設(shè)計(jì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)