數(shù)據(jù)分析 | 最適合學(xué)習(xí)英語(yǔ)的Netflix電影和電視劇有哪些?
截至2020年,Netflix上約有3712部電影和1845部電視節(jié)目。如果你正在學(xué)習(xí)英語(yǔ),可供選擇的內(nèi)容很多,但你可能沒(méi)那么多時(shí)間去看完。因此,我用數(shù)據(jù)科學(xué)技能來(lái)分析Netflix上前1500部電影和電視節(jié)目的劇本。經(jīng)過(guò)大量的處理,我找到了Netflix上最好的英語(yǔ)學(xué)習(xí)內(nèi)容。這樣做的目的是為了給你提供很多好的選擇,讓你可以找到你喜歡的電影或電視節(jié)目,同時(shí)對(duì)學(xué)習(xí)英語(yǔ)也有好處,而不是強(qiáng)迫你看不喜歡的電視節(jié)目,因?yàn)槟愕睦蠋熀团笥褕?jiān)持'它有助于大家學(xué)習(xí)英語(yǔ)'。
為了找到Netflix上最好的電影和電視節(jié)目,我比較了臺(tái)本對(duì)話中使用的詞匯。讓我們找到哪些是最好的電視節(jié)目和電影。
Netflix上詞匯最簡(jiǎn)單的電視節(jié)目
Netflix上的美國(guó)和英國(guó)電視節(jié)目都是為母語(yǔ)為英語(yǔ)的人制作的。這就是為什么如果英語(yǔ)不是你的母語(yǔ),你在理解某些場(chǎng)景中的對(duì)話時(shí)可能會(huì)遇到一些困難。我根據(jù)詞匯量的難易程度對(duì)Netflix目錄上的500個(gè)一流電視節(jié)目(223部Netflix原創(chuàng)節(jié)目)進(jìn)行了排名。
《老友記》詞匯簡(jiǎn)單,被認(rèn)為是學(xué)習(xí)英語(yǔ)最好的電視節(jié)目之一。然而,這部電視劇在Netflix目錄中只排在第78位,這意味著還有77部電視劇和《老友記》一樣好——甚至更好!-可以在Netflix上學(xué)習(xí)英語(yǔ)并享受樂(lè)趣。例如,根據(jù)我的調(diào)查結(jié)果,電視劇《去他*的世界》(排名13)或《13個(gè)原因》(排名40)在其劇集中的詞匯量甚至更簡(jiǎn)單。
你可以在下面的框中搜索電視節(jié)目名。你會(huì)發(fā)現(xiàn)他們的排名和詞匯覆蓋率。排名前十的電視節(jié)目在整個(gè)Netflix劇集列表中詞匯最簡(jiǎn)單。
如果你正在尋找適合你英語(yǔ)水平的電視節(jié)目,那么我有一個(gè)好消息要告訴你, 我對(duì)所有節(jié)目的英語(yǔ)詞匯量水平進(jìn)行了排名(初級(jí)、中級(jí)、高級(jí))。最靠右的節(jié)目在每個(gè)級(jí)別上使用的詞匯量更多。覆蓋率越高,你就越容易理解電視劇中的情節(jié)。
按詞匯覆蓋率排名的Netflix劇集
每個(gè)級(jí)別代表1000個(gè)最常見(jiàn)的英語(yǔ)單詞。所有的電影都有所有級(jí)別的排名。1級(jí)代表 "初級(jí)水平",3級(jí)代表 "中級(jí)水平"。一集的覆蓋率越高,越容易理解其詞匯量。
- 黃色代表Lvl 1
- 紅色代表Lvl 1+2
- 藍(lán)色代表Lvl 1+2+3
這些是在Netflix目錄中發(fā)現(xiàn)的電視節(jié)目??赡苡行┠阆矚g的電視節(jié)目不在Netflix上,但不要擔(dān)心,我已經(jīng)分析了其中一些電視節(jié)目,如《權(quán)力的游戲》或《辛普森一家》。此外,Netflix目錄在你的國(guó)家可能略有不同。這就是為什么我只列出了一個(gè)最有可能在全球范圍內(nèi)提供的Netflix原著。
Learn English with Game of Thrones: The Best Episodes
以下是學(xué)習(xí)英語(yǔ)的十大Netflix原創(chuàng)節(jié)目
- 妖靈(Jinn)
- 愛(ài)情起床號(hào)(Good Morning Call)
- 魚(yú)妖怪談(Tidelands)
- Easy
- 黑色夏天(Black Summer)
- 夏日時(shí)光 (Summertime)
- Baby
- 上層男孩(Top Boy)
- 血統(tǒng)(Bloodline)
- 去他*的世界(The End Of The F*ing World)
按詞匯覆蓋率排名的Netflix電影
如果你比較喜歡看電影,那么Netflix也有很好的電影來(lái)學(xué)習(xí)英語(yǔ)。我把Netflix上最受歡迎的950部電影(173部Netflix原創(chuàng)電影)按照詞匯量的難度進(jìn)行了排名。排名前100的熱門電影有《蒙上你的眼 》(30)、《蜘蛛俠:平行宇宙》(84)和《當(dāng)幸福來(lái)敲門》(81)。
通過(guò)下面的方框播放,看看還有哪些電影排在前100名。你還可以發(fā)現(xiàn)你喜歡的電影的排名和詞匯覆蓋率。
你可以在下面找到適合你英語(yǔ)水平的電影。最右邊的電影有更多的初級(jí)、中級(jí)和高級(jí)詞匯。但這些都是在 Netflix 目錄中找到的排名靠前的電影,你不會(huì)在 Netflix 上找到像《哈利波特》、《阿凡達(dá)》、《玩具總動(dòng)員》這樣的電影,但如果你還想看這類電影,你應(yīng)該看看我的另一篇文章,我分析了3000部最受歡迎的電影。你可以在這里找到它。
Netflix 的電影排行榜(根據(jù)詞匯量)
每一級(jí)代表 1000 個(gè)最常見(jiàn)的英語(yǔ)單詞。所有的電影都按等級(jí)排列。第 1 級(jí)代表“初級(jí)水平”,第 3 級(jí)代表“中級(jí)水平”。一集節(jié)目的收視率越高,詞匯就越容易理解。
我還列出了 Netflix 在世界范圍內(nèi)最可能提供的原創(chuàng)電影列表,以防 Netflix 的目錄在你的國(guó)家不一樣。
以下是Netflix十大最適合學(xué)英語(yǔ)的原創(chuàng)電影:
- In The Tall Grass (2019)-在高草中
- A Secret Love (2020)-隱秘的愛(ài)
- Under The Riccione Sun (2020)
- Dangerous Lies (2020)-危險(xiǎn)的謊言
- Bird Box (2018)-蒙上你的眼
- Who Would You Take To A Deserted Island (2019)
- Earthquake Bird (2019)
- Love Wedding Repeat (2020)
- Paddleton (2019)
- 6 Balloons (2018)-六個(gè)氣球
在向英語(yǔ)學(xué)習(xí)者展示 Netflix 上最好的內(nèi)容之前,讓我們比較一下最好的和可能最差的內(nèi)容,僅針對(duì)詞匯量難度來(lái)說(shuō)。
Netflix 詞匯最易懂和最難懂的原創(chuàng)劇
以下圖片顯示了排名前十和后十的網(wǎng)飛原創(chuàng)電影在英語(yǔ)詞匯難度上的差別。正如你所看到的,在過(guò)去的 10 年中,使用的詞匯更加困難。例如,你只需要知道最常見(jiàn)的 1000 個(gè)英語(yǔ)單詞就能理解電影《 蒙上你的眼 》中 94,5% 的單詞,但你需要至少3000個(gè)單詞來(lái)涵蓋電影《Spelling The Dream 》中 94.5% 的對(duì)話。這額外的 2000 個(gè)單詞可能就是你不懂的原因——即使你的英語(yǔ)水平已經(jīng)很高了!
數(shù)據(jù)集
為了進(jìn)行分析,我使用了 3 個(gè)主要數(shù)據(jù)集,它們由文本、Netflix 目錄和 Netflix 原創(chuàng)列表組成。我在谷歌上搜索,直到我找到了大量用于分析的轉(zhuǎn)錄本。我用目錄來(lái)匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目錄數(shù)據(jù)集。從 2019 年開(kāi)始,Netflix 上就可以看到它的內(nèi)容,所以可能有些電影或電視節(jié)目現(xiàn)在還不能在 Netflix 上看到。最后,我在這里找到了一份截至 2020 年的 Netflix 原創(chuàng)劇集列表,這對(duì)分析很有幫助。
方法
我用 Python 做了所有這些分析,這是我準(zhǔn)備數(shù)據(jù)的方式:
Tokenization:為了分析文字記錄中的詞匯,我將字符說(shuō)的所有單詞標(biāo)記化。Python中有許多用于標(biāo)記化的工具,但是我使用 CountVectorizer,因?yàn)樗鼘⑹占霓D(zhuǎn)錄本轉(zhuǎn)換為標(biāo)記計(jì)數(shù)的數(shù)據(jù)格式,從而簡(jiǎn)化了分析。在分析了 3000 部電影的文章中,我進(jìn)一步解釋了 CountVectorizer 是如何工作的。
詞形還原(Lemmatization):在標(biāo)記化之后,我必須找到每個(gè)標(biāo)記的基本形式。您可以通過(guò)使用象 lemmizing 這樣的技術(shù)來(lái)實(shí)現(xiàn)這一點(diǎn),您可以在 NLTK 庫(kù)中找到這些技術(shù)。不過(guò),我使用了類似的單詞族列表,而且還根據(jù)單詞出現(xiàn)的頻率給出了每個(gè)單詞的難度水平。到 2020 年,有 29 個(gè)單詞家族列表,你可以在這里找到。這些列表是對(duì)與語(yǔ)言學(xué)和英語(yǔ)作為第二語(yǔ)言學(xué)習(xí)相關(guān)的研究論文進(jìn)行評(píng)估的。
數(shù)據(jù)清理:我刪除了在電影或片段中聽(tīng)不到的單詞,比如場(chǎng)景描述和講話者的名字。我還排除了對(duì)話中超過(guò) 3.5% 的單詞與單詞家族列表不匹配的抄本(它們可能是異常值或被破壞的數(shù)據(jù))。
所有的代碼都可以在 Github 上找到!
關(guān)于分析和結(jié)果
我用來(lái)對(duì)電視節(jié)目中的詞匯進(jìn)行分類的單詞表,大部分都來(lái)自語(yǔ)料庫(kù)。詞匯水平是根據(jù)一個(gè)詞在語(yǔ)料庫(kù)中被發(fā)現(xiàn)的頻率來(lái)確定的,即這些文本中最常見(jiàn)的詞被標(biāo)注為 1 級(jí)。盡管之前的研究已經(jīng)證明了該列表是可靠的,但對(duì)于具有多種含義的單詞,它并不那么準(zhǔn)確。例如,單詞 “draw” 在列表中被標(biāo)記為第 1 級(jí)。之所以會(huì)出現(xiàn)這種情況,是因?yàn)檫@個(gè)詞通常指“拍照”,但如果它的意思是“拿出武器來(lái)攻擊某人”或“得出結(jié)論”,那么它就不屬于第一級(jí)。
我花了幾個(gè)星期的時(shí)間尋找、清理、處理數(shù)據(jù),然后弄清楚得到的結(jié)果。然而,研究結(jié)果并不完美。關(guān)于電影的研究結(jié)果可能比電視節(jié)目更準(zhǔn)確。電影的文字記錄是獨(dú)一無(wú)二的,但電視節(jié)目播出的劇集不同,這增加了每部電視節(jié)目的文字記錄數(shù)量。這就是為什么我收集了每個(gè)節(jié)目 3 到 10 集的樣本,以獲得該電視節(jié)目平均每集涵蓋的詞匯。
總的來(lái)說(shuō),調(diào)查結(jié)果揭示了很多適合每個(gè)詞匯水平的內(nèi)容,但其中一些還是讓我吃驚。比如,《行尸走肉》排在第 62 位,這讓我很吃驚。我不是那個(gè)電視節(jié)目的粉絲,但我不認(rèn)為一個(gè)有僵尸的虛構(gòu)節(jié)目在對(duì)話中使用簡(jiǎn)單的詞匯。在查看了文字記錄后,我證實(shí)了《行尸走肉》中對(duì)詞匯的需求在整集都有很多起伏。也就是說(shuō),有些情節(jié)可能比其他情節(jié)更難理解。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。