偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Node.js 結(jié)合 AI 輕松總結(jié)音視頻內(nèi)容

開發(fā) 前端
AssemblyAI 是一家專注于語音 AI 模型的公司,用于識別、理解和處理人類語音服務(wù)。2023 年第還融到了 5000 萬美元,將重點打造超人語音 AI 模型。

大模型預(yù)言(LLM)可以幫我們做很多事情,有很多有趣的玩法值得探索。本期筆者將帶領(lǐng)大家使用 Node.js + AssemblyAI + ChatGPT 總結(jié)視頻內(nèi)容。

步驟 1 - 轉(zhuǎn)錄音視頻為文本

AssemblyAI 是一家專注于語音 AI 模型的公司,用于識別、理解和處理人類語音服務(wù)。2023 年第還融到了 5000 萬美元,將重點打造超人語音 AI 模型。

它們提供了 Node.js 版本的 SDK assemblyai,使用 TS 編寫的,用于與 AssemblyAI API 交互,使用起來超級簡單,該 API 支持異步和實時轉(zhuǎn)錄以及最新的 LeMUR 模型。下圖為 NPM 中的截圖,可看到周下載量在逐漸上升。

圖片圖片

安裝 Node.js、創(chuàng)建一個項目并安裝 assemblyai 依賴

mkdir ai-video-summarization
cd ai-video-summarization
npm init -y
npm i assemblyai -S

我們將使用 ES Modules 語法而不是 CommonJS,注意 package.json 中的 type 應(yīng)設(shè)為 module。

// package.json
{
  ...
  "type": "module",
  ...
}

因為需要調(diào)用大模型 API 接口,需要提前在 https://www.assemblyai.com/app/account 頁面中準(zhǔn)備好 API Key 信息,提供了免費使用額度。

圖片圖片

使用方法很簡單,可以傳輸本地的視頻,也可以指定遠(yuǎn)程 URL 地址。

import { AssemblyAI } from 'assemblyai'
import fsPromises from 'fs/promises'

const client = new AssemblyAI({
  apiKey: process.env.ASSEMBLYAI_API_KEY,
})

const run = async () => {
  try {
    const config = {
      audio: await fsPromises.readFile('/*這里替換為你的視頻地址*/videos/ai-ipad.mp4'),
      // audio_url: 'https://storage.googleapis.com/aai-web-samples/5_common_sports_injuries.mp3'
      // language_code: 'zh',
    }
    const transcript = await client.transcripts.transcribe(config)
    console.log(transcript.text)
  } catch (err) {
    console.error('error ', err)
  }
}

run()

示例中用的這個視頻為 “AI 加持的 iPad,通過手寫數(shù)學(xué)表達(dá)式即可解出答案”

運行 ASSEMBLYAI_API_KEY="你的 API Key 信息" node script.js 命令,生成的文本信息如下所示,準(zhǔn)確性還可以,因為這個視頻相對短些,長一點的還沒有試過!

圖片圖片

生成文本信息時是支持多語言翻譯的,有個 language_code 參數(shù)設(shè)置為 'zh' 即可,但是返回的結(jié)果看起來為繁體。

圖片圖片

第一步提取視頻中的文本信息到這里就完成了。

步驟 2 - 總結(jié)視頻內(nèi)容

第二步為總結(jié)提出的文本信息。一種方法是使用 AssemblyAI 提供的 LeMUR(LLM 提示音視頻框架)自動對其進(jìn)行總結(jié)。

以下是 copy 的官方文檔的一個 Demo,你可以告訴 LeMUR 你期望的格式是什么,還有一些上下文信息。

const { response } = await client.lemur.task({
  transcript_ids: [transcript.id],
  prompt: `Summarize the episode using the following format:
  **<topic header>**
  <topic summary>
  `,
  context: "An episode of the Lex Fridman podcast, in which he speaks with Guido van Rossum, the creator of the Python programming language"
});

console.log("LeMUR response", response);

但是這個 API 是收費的,沒有提供免費的嘗試額度。

ChatGPT 的 GPT4o 模型現(xiàn)在也很好用啊,并且還是免費的,如果想做一些總結(jié)了,可以借助 ChatGPT 在做一個總結(jié)。如下所示:

第一次總結(jié):

圖片圖片

第二次更簡短的總結(jié):

圖片圖片

關(guān)于 AssemblyAI 的更多用法可參考 API 文檔 https://www.assemblyai.com/docs,歡迎關(guān)注編程界,探索更多 AI 使用技巧!

責(zé)任編輯:武曉燕 來源: 編程界
相關(guān)推薦

2022-05-05 08:02:44

MongoDBNode.js加密

2023-11-08 08:23:28

Node版本

2013-11-01 09:34:56

Node.js技術(shù)

2015-03-10 10:59:18

Node.js開發(fā)指南基礎(chǔ)介紹

2014-09-12 10:35:09

Node.jsHTTP 206

2021-09-07 07:53:43

工具

2024-10-15 13:30:03

2011-09-02 14:47:48

Node

2011-09-09 14:23:13

Node.js

2011-09-08 13:46:14

node.js

2011-11-01 10:30:36

Node.js

2012-10-24 14:56:30

IBMdw

2011-11-10 08:55:00

Node.js

2021-12-25 22:29:57

Node.js 微任務(wù)處理事件循環(huán)

2020-08-12 11:35:00

Node.js前端緩存

2023-03-03 15:40:43

抖音視頻編碼器

2020-05-29 15:33:28

Node.js框架JavaScript

2012-02-03 09:25:39

Node.js

2015-06-23 15:27:53

HproseNode.js

2025-06-03 00:00:01

Node.jsAI 項目GitHub
點贊
收藏

51CTO技術(shù)棧公眾號