譯者 | 布加迪
審校 | 重樓
機器學(xué)習(xí)主要使用Python來完成。Python之所以大受歡迎,是由于它易于學(xué)習(xí),并且有許多機器學(xué)習(xí)庫。而現(xiàn)在,Rust正成為一種強有力的替代語言。Rust速度快,使用內(nèi)存安全機制,并擅長同時處理多個任務(wù)。這些功能特性使Rust非常適合高性能機器學(xué)習(xí)。

Linfa是Rust中的一個庫,可以幫助你構(gòu)建機器學(xué)習(xí)模型。它使你更容易用Rust創(chuàng)建和使用機器學(xué)習(xí)模型。我們在本文中將向你介紹如何使用Linfa完成兩種機器學(xué)習(xí)任務(wù):線性回歸和k-means聚類。
為什么Rust適合機器學(xué)習(xí)?
由于以下幾個優(yōu)勢,Rust越來越多地被考慮用于機器學(xué)習(xí):
1. 性能:Rust是一種編譯語言,這使得它的性能特征接近C和C++。它可以從底層控制系統(tǒng)資源,又沒有垃圾收集器,因而非常適合機器學(xué)習(xí)之類注重性能的應(yīng)用。
2. 內(nèi)存安全:Rust的突出特性之一是它的所有權(quán)模式,這保證了內(nèi)存安全,不需要垃圾收集器。它消除了許多常見的編程錯誤,比如空指針解引用或數(shù)據(jù)競爭。
3. 并發(fā):Rust的并發(fā)模式確保了安全并行處理。機器學(xué)習(xí)常常涉及大型數(shù)據(jù)集和大量計算。Rust可以高效地處理多線程操作。其所有權(quán)系統(tǒng)防止了數(shù)據(jù)競爭和內(nèi)存問題。
Linfa簡介
Linfa是一個面向Rust的機器學(xué)習(xí)庫。它提供各種機器學(xué)習(xí)算法,酷似Python的scikit-learn。該庫與Rust的生態(tài)系統(tǒng)很好地集成。它支持高性能數(shù)據(jù)操作、統(tǒng)計和優(yōu)化。Linfa包括線性回歸、k-means聚類和支持向量機等算法。這些實現(xiàn)高效且易于使用。開發(fā)人員可以利用Rust的速度和安全來構(gòu)建強大的機器學(xué)習(xí)模型。
不妨通過兩個簡單但重要的例子來探索如何使用Linfa以構(gòu)建機器學(xué)習(xí)模型:線性回歸和k-means聚類。
搭建環(huán)境
首先確保已安裝了Rust。如果沒有,使用以下命令通過rustup來安裝它:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh接下來,將Linfa和相關(guān)依賴項添加到你的項目中。打開你的Cargo.toml文件,添加以下內(nèi)容:
[dependencies]
linfa = "0.5.0"
linfa-linear = "0.5.0" # For linear regression
linfa-clustering = "0.5.0" # For k-means clustering
ndarray = "0.15.4" # For numerical operations
ndarray-rand = "0.14.0" # For random number generation完成這一步后,你就可以使用Linfa實現(xiàn)機器學(xué)習(xí)模型了。
Rust的線性回歸
線性回歸是最簡單、最常用的監(jiān)督學(xué)習(xí)算法之一。它通過將線性方程擬合到觀測的數(shù)據(jù)中,為因變量y與一個或多個自變量x之間的關(guān)系建立模型。在本節(jié)中,我們將探究如何使用Rust的Linfa庫實現(xiàn)線性回歸。
- 準備數(shù)據(jù)
 
為了理解和測試線性回歸,我們需要從一個數(shù)據(jù)集入手。
use ndarray::{Array2, Axis};
fn generate_data() -> Array2 {
 let x = Array2::::from_shape_vec((10, 1), vec![1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0]).unwrap();
 let y = x.mapv(|v| 2.0 * v + 1.0);
 let data = ndarray::stack(ndarray::Axis(1), &[x.view(), y.view()]).unwrap();
 data
}在這里,我們模擬了一個簡單的數(shù)據(jù)集,其中x與y的關(guān)系遵循公式:y=2x+1。
- 訓(xùn)練模型
 
在準備好數(shù)據(jù)集之后,我們使用Linfa的LinearRegression(線性回歸)模塊來訓(xùn)練模型。訓(xùn)練需要通過最小化預(yù)測值與實際值之間的誤差來確定線性方程(y=mx+c)的系數(shù)。使用Linfa的LinearRegression模塊,我們在這個數(shù)據(jù)集上訓(xùn)練了回歸模型。
use linfa::prelude::*;
use linfa_linear::LinearRegression;
fn train_model(data: Array2) -> LinearRegression {
 let (x, y) = (data.slice(s![.., 0..1]), data.slice(s![.., 1..2]));
 LinearRegression::default().fit(&x, &y).unwrap()
}重點:
- fit方法學(xué)習(xí)最適合數(shù)據(jù)的直線的斜率和截距。
 - unwrap處理訓(xùn)練期間可能發(fā)生的任何錯誤。
 
- 進行預(yù)測
 
在訓(xùn)練模型之后,我們可以用它來預(yù)測新數(shù)據(jù)的結(jié)果。
fn make_predictions(model: &LinearRegression, input: Array2) -> Array2 {
 model.predict(&input)
}
fn main() {
 let data = generate_data();
 let model = train_model(data);
 let input = Array2::from_shape_vec((5, 1), vec![11.0, 12.0, 13.0, 14.0, 15.0]).unwrap();
 let predictions = make_predictions(&model, input);
 println!("Predictions: {:?}", predictions);
}對于輸入值[11.0,12.0,13.0,14.0,15.0],預(yù)測結(jié)果如下:
Predictions: [[23.0], [25.0], [27.0], [29.0], [31.0]]這個輸出對應(yīng)于y=2x+1。
Rust的K-means聚類
K -means聚類是一種無監(jiān)督學(xué)習(xí)算法,它根據(jù)相似性將數(shù)據(jù)劃分為k個聚類。
- 準備數(shù)據(jù)
 
為了演示K-means聚類,我們使用ndarray-rand crate生成一個隨機數(shù)據(jù)集。
use ndarray::Array2;
use ndarray_rand::RandomExt;
use rand_distr::Uniform;
fn generate_random_data() -> Array2 {
 let dist = Uniform::new(0.0, 10.0);
 Array2::random((100, 2), dist)
}這將創(chuàng)建隨機點的100x2矩陣,模擬二維數(shù)據(jù)。
- 訓(xùn)練模型
 
train_kmeans_model函數(shù)使用Linfa的KMeans模塊將數(shù)據(jù)分組到k=3個聚類中。
use linfa_clustering::KMeans;
use linfa::traits::Fit;
fn train_kmeans_model(data: Array2) -> KMeans {
 KMeans::params(3).fit(&data).unwrap()
}重點:
- KMeans::params(3)表示3個聚類。
 - fit方法基于數(shù)據(jù)學(xué)習(xí)聚類質(zhì)心。
 
- 指定聚類
 
在訓(xùn)練之后,我們可以將每個數(shù)據(jù)點分配給其中一個聚類。
fn assign_clusters(model: &KMeans, data: Array2) {
 let labels = model.predict(&data);
 println!("Cluster Labels: {:?}", labels);
}
fn main() {
 let data = generate_random_data();
 let model = train_kmeans_model(data);
 assign_clusters(&model, data);
}輸出將顯示分配給每個數(shù)據(jù)點的聚類標簽。每個標簽將對應(yīng)于三個聚類中的一個。
結(jié)論
Rust是創(chuàng)建快速機器學(xué)習(xí)模型的上佳選擇。它通過內(nèi)存安全機制確保處理數(shù)據(jù)時沒有錯誤。Rust還可以同時使用多個線程,這在處理機器學(xué)習(xí)中的大型數(shù)據(jù)集時非常重要。
Linfa庫使得你用Rust實現(xiàn)機器學(xué)習(xí)變得更容易。它可以幫助你輕松使用線性回歸和K-means聚類等算法。Rust的所有權(quán)系統(tǒng)確保內(nèi)存安全,又不需要垃圾收集。處理多線程的功能可以防止在處理大量數(shù)據(jù)時出現(xiàn)錯誤。
原文標題:Building High-Performance Machine Learning Models in Rust,作者:Jayita Gulati















 
 
 















 
 
 
 