偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

從視頻到音頻：使用VIT進(jìn)行音頻分類

作者：Alessandro Lamberti 2023-01-05 16:51:04

人工智能機(jī)器學(xué)習(xí)

就機(jī)器學(xué)習(xí)而言，音頻本身是一個有廣泛應(yīng)用的完整的領(lǐng)域，包括語音識別、音樂分類和聲音事件檢測等等。

就機(jī)器學(xué)習(xí)而言，音頻本身是一個有廣泛應(yīng)用的完整的領(lǐng)域，包括語音識別、音樂分類和聲音事件檢測等等。傳統(tǒng)上音頻分類一直使用譜圖分析和隱馬爾可夫模型等方法，這些方法已被證明是有效的，但也有其局限性。近期VIT已經(jīng)成為音頻任務(wù)的一個有前途的替代品，OpenAI的Whisper就是一個很好的例子。

在本文中，我們將利用ViT - Vision Transformer的是一個Pytorch實現(xiàn)在音頻分類數(shù)據(jù)集GTZAN數(shù)據(jù)集-音樂類型分類上訓(xùn)練它。

數(shù)據(jù)集介紹

GTZAN 數(shù)據(jù)集是在音樂流派識別 (MGR) 研究中最常用的公共數(shù)據(jù)集。這些文件是在 2000-2001 年從各種來源收集的，包括個人 CD、收音機(jī)、麥克風(fēng)錄音，代表各種錄音條件下的聲音。

這個數(shù)據(jù)集由子文件夾組成，每個子文件夾是一種類型。

加載數(shù)據(jù)集

我們將加載每個.wav文件，并通過librosa庫生成相應(yīng)的Mel譜圖。

mel譜圖是聲音信號的頻譜內(nèi)容的一種可視化表示，它的垂直軸表示mel尺度上的頻率，水平軸表示時間。它是音頻信號處理中常用的一種表示形式，特別是在音樂信息檢索領(lǐng)域。

梅爾音階(Mel scale，英語：mel scale)是一個考慮到人類音高感知的音階。因為人類不會感知線性范圍的頻率，也就是說我們在檢測低頻差異方面要勝于高頻。例如，我們可以輕松分辨出500 Hz和1000 Hz之間的差異，但是即使之間的距離相同，我們也很難分辨出10,000 Hz和10,500 Hz之間的差異。所以梅爾音階解決了這個問題，如果梅爾音階的差異相同，則意指人類感覺到的音高差異將相同。

def wav2melspec(fp):
     y, sr = librosa.load(fp)
     S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
     log_S = librosa.amplitude_to_db(S, ref=np.max)
     img = librosa.display.specshow(log_S, sr=sr, x_axis='time', y_axis='mel')
     # get current figure without white border
     img = plt.gcf()
     img.gca().xaxis.set_major_locator(plt.NullLocator())
     img.gca().yaxis.set_major_locator(plt.NullLocator())
     img.subplots_adjust(top = 1, bottom = 0, right = 1, left = 0,
             hspace = 0, wspace = 0)
     img.gca().xaxis.set_major_locator(plt.NullLocator())
     img.gca().yaxis.set_major_locator(plt.NullLocator())
     # to pil image
     img.canvas.draw()
     img = Image.frombytes('RGB', img.canvas.get_width_height(), img.canvas.tostring_rgb())
     return img

上述函數(shù)將產(chǎn)生一個簡單的mel譜圖:

現(xiàn)在我們從文件夾中加載數(shù)據(jù)集，并對圖像應(yīng)用轉(zhuǎn)換。

class AudioDataset(Dataset):
     def __init__(self, root, transform=None):
         self.root = root
         self.transform = transform
         self.classes = sorted(os.listdir(root))
         self.class_to_idx = {c: i for i, c in enumerate(self.classes)}
         self.samples = []
         for c in self.classes:
             for fp in os.listdir(os.path.join(root, c)):
                 self.samples.append((os.path.join(root, c, fp), self.class_to_idx[c]))
  
     def __len__(self):
         return len(self.samples)
  
     def __getitem__(self, idx):
         fp, target = self.samples[idx]
         img = Image.open(fp)
         if self.transform:
             img = self.transform(img)
         return img, target
 
 train_dataset = AudioDataset(root, transform=transforms.Compose([
     transforms.Resize((480, 480)),
     transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
 ]))

ViT模型

我們將利用ViT來作為我們的模型：Vision Transformer在論文中首次介紹了一幅圖像等于16x16個單詞，并成功地展示了這種方式不依賴任何的cnn，直接應(yīng)用于圖像Patches序列的純Transformer可以很好地執(zhí)行圖像分類任務(wù)。

將圖像分割成Patches，并將這些Patches的線性嵌入序列作為Transformer的輸入。Patches的處理方式與NLP應(yīng)用程序中的標(biāo)記(單詞)是相同的。

由于缺乏CNN固有的歸納偏差(如局部性)，Transformer在訓(xùn)練數(shù)據(jù)量不足時不能很好地泛化。但是當(dāng)在大型數(shù)據(jù)集上訓(xùn)練時，它確實在多個圖像識別基準(zhǔn)上達(dá)到或擊敗了最先進(jìn)的水平。

實現(xiàn)的結(jié)構(gòu)如下所示:

class ViT(nn.Sequential):
     def __init__(self,    
                 in_channels: int = 3,
                 patch_size: int = 16,
                 emb_size: int = 768,
                 img_size: int = 356,
                 depth: int = 12,
                 n_classes: int = 1000,
                 **kwargs):
         super().__init__(
             PatchEmbedding(in_channels, patch_size, emb_size, img_size),
             TransformerEncoder(depth, emb_size=emb_size, **kwargs),
             ClassificationHead(emb_size, n_classes)

訓(xùn)練

訓(xùn)練循環(huán)也是傳統(tǒng)的訓(xùn)練過程:

vit = ViT(
     n_classes = len(train_dataset.classes)
 )
 
 vit.to(device)
 
 # train
 train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
 optimizer = optim.Adam(vit.parameters(), lr=1e-3)
 scheduler = ReduceLROnPlateau(optimizer, 'max', factor=0.3, patience=3, verbose=True)
 criterion = nn.CrossEntropyLoss()
 num_epochs = 30
 
 for epoch in range(num_epochs):
     print('Epoch {}/{}'.format(epoch, num_epochs - 1))
     print('-' * 10)
 
     vit.train()
 
     running_loss = 0.0
     running_corrects = 0
 
     for inputs, labels in tqdm.tqdm(train_loader):
         inputs = inputs.to(device)
         labels = labels.to(device)
 
         optimizer.zero_grad()
 
         with torch.set_grad_enabled(True):
             outputs = vit(inputs)
             loss = criterion(outputs, labels)
 
             _, preds = torch.max(outputs, 1)
             loss.backward()
             optimizer.step()
 
         running_loss += loss.item() * inputs.size(0)
         running_corrects += torch.sum(preds == labels.data)
 
     epoch_loss = running_loss / len(train_dataset)
     epoch_acc = running_corrects.double() / len(train_dataset)
     scheduler.step(epoch_acc)
 
     print('Loss: {:.4f} Acc: {:.4f}'.format(epoch_loss, epoch_acc))

總結(jié)

使用PyTorch從頭開始訓(xùn)練了這個Vision Transformer架構(gòu)的自定義實現(xiàn)。因為數(shù)據(jù)集非常小(每個類只有100個樣本)，這影響了模型的性能，只獲得了0.71的準(zhǔn)確率。

這只是一個簡單的演示，如果需要提高模型表現(xiàn)，可以使用更大的數(shù)據(jù)集，或者稍微調(diào)整架構(gòu)的各種超參數(shù)!

這里使用的vit代碼來自：

https://medium.com/artificialis/vit-visiontransformer-a-pytorch-implementation-8d6a1033bdc5

責(zé)任編輯：華軒來源： DeepHub IMBA

機(jī)器學(xué)習(xí)人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="57m81"></ruby>