偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用Python和GNU Octave繪制數(shù)據(jù)

開發(fā) 后端
數(shù)據(jù)科學是跨越編程語言的知識領(lǐng)域。有些語言以解決這一領(lǐng)域的問題而聞名,而另一些則鮮為人知。這篇文章將幫助你熟悉用一些流行的語言完成數(shù)據(jù)科學的工作。

[[317009]]

了解如何使用 Python 和 GNU Octave 完成一項常見的數(shù)據(jù)科學任務。

數(shù)據(jù)科學是跨越編程語言的知識領(lǐng)域。有些語言以解決這一領(lǐng)域的問題而聞名,而另一些則鮮為人知。這篇文章將幫助你熟悉用一些流行的語言完成數(shù)據(jù)科學的工作。

選擇 Python 和 GNU Octave 做數(shù)據(jù)科學工作

我經(jīng)常嘗試學習一種新的編程語言。為什么?這既有對舊方式的厭倦,也有對新方式的好奇。當我開始學習編程時,我唯一知道的語言是 C 語言。那些年的編程生涯既艱難又危險,因為我必須手動分配內(nèi)存、管理指針、并記得釋放內(nèi)存。

后來一個朋友建議我試試 Python,現(xiàn)在我的編程生活變得輕松多了。雖然程序運行變得慢多了,但我不必通過編寫分析軟件來受苦了。然而,我很快就意識到每種語言都有比其它語言更適合自己的應用場景。后來我學習了一些其它語言,每種語言都給我?guī)砹艘恍┬碌膯l(fā)。發(fā)現(xiàn)新的編程風格讓我可以將一些解決方案移植到其他語言中,這樣一切都變得有趣多了。

為了對一種新的編程語言(及其文檔)有所了解,我總是從編寫一些執(zhí)行我熟悉的任務的示例程序開始。為此,我將解釋如何用 Python 和 GNU Octave 編寫一個程序來完成一個你可以歸類為數(shù)據(jù)科學的特殊任務。如果你已經(jīng)熟悉其中一種語言,從它開始,然后通過其他語言尋找相似之處和不同之處。這篇文章并不是對編程語言的詳盡比較,只是一個小小的展示。

所有的程序都應該在命令行上運行,而不是用圖形用戶界面(GUI)。完整的例子可以在 polyglot_fit 存儲庫中找到。

編程任務

你將在本系列中編寫的程序:

  • CSV 文件中讀取數(shù)據(jù)
  • 用直線插入數(shù)據(jù)(例如 f(x)=m ⋅ x + q
  • 將結(jié)果生成圖像文件

這是許多數(shù)據(jù)科學家遇到的常見情況。示例數(shù)據(jù)是 Anscombe 的四重奏的第一組,如下表所示。這是一組人工構(gòu)建的數(shù)據(jù),當用直線擬合時會給出相同的結(jié)果,但是它們的曲線非常不同。數(shù)據(jù)文件是一個文本文件,以制表符作為列分隔符,開頭幾行作為標題。此任務將僅使用第一組(即前兩列)。

 

Python 方式

Python 是一種通用編程語言,是當今最流行的語言之一(依據(jù) TIOBE 指數(shù)、RedMonk 編程語言排名、編程語言流行指數(shù)、GitHub Octoverse 狀態(tài)和其他來源的調(diào)查結(jié)果)。它是一種解釋型語言;因此,源代碼由執(zhí)行該指令的程序讀取和評估。它有一個全面的標準庫并且總體上非常好用(我對這最后一句話沒有證據(jù);這只是我的拙見)。

安裝

要使用 Python 開發(fā),你需要解釋器和一些庫。最低要求是:

  • NumPy 用于簡化數(shù)組和矩陣的操作
  • SciPy 用于數(shù)據(jù)科學
  • Matplotlib 用于繪圖

Fedora 安裝它們是很容易的:

  1. sudo dnf install python3 python3-numpy python3-scipy python3-matplotlib

代碼注釋

在 Python中,注釋是通過在行首添加一個 # 來實現(xiàn)的,該行的其余部分將被解釋器丟棄:

  1. # 這是被解釋器忽略的注釋。

fitting_python.py 示例使用注釋在源代碼中插入許可證信息,第一行是特殊注釋,它允許該腳本在命令行上執(zhí)行:

  1. #!/usr/bin/env python3

這一行通知命令行解釋器,該腳本需要由程序 python3 執(zhí)行。

需要的庫

在 Python 中,庫和模塊可以作為一個對象導入(如示例中的第一行),其中包含庫的所有函數(shù)和成員??梢酝ㄟ^使用 as 方式用自定義標簽重命名它們:

  1. import numpy as np
  2. from scipy import stats
  3. import matplotlib.pyplot as plt

你也可以決定只導入一個子模塊(如第二行和第三行)。語法有兩個(基本上)等效的方式:import module.submodulefrom module import submodule。

定義變量

Python 的變量是在第一次賦值時被聲明的:

  1. input_file_name = "anscombe.csv"
  2. delimiter = "\t"
  3. skip_header = 3
  4. column_x = 0
  5. column_y = 1

變量類型由分配給變量的值推斷。沒有具有常量值的變量,除非它們在模塊中聲明并且只能被讀取。習慣上,不應被修改的變量應該用大寫字母命名。

打印輸出

通過命令行運行程序意味著輸出只能打印在終端上。Python 有 print() 函數(shù),默認情況下,該函數(shù)打印其參數(shù),并在輸出的末尾添加一個換行符:

  1. print("#### Anscombe's first set with Python ####")

在 Python 中,可以將 print() 函數(shù)與字符串類格式化能力相結(jié)合。字符串具有format 方法,可用于向字符串本身添加一些格式化文本。例如,可以添加格式化的浮點數(shù),例如:

  1. print("Slope: {:f}".format(slope))

讀取數(shù)據(jù)

使用 NumPy 和函數(shù) genfromtxt() 讀取 CSV 文件非常容易,該函數(shù)生成 NumPy 數(shù)組

  1. data = np.genfromtxt(input_file_name, delimiter = delimiter, skip_header = skip_header)

在 Python 中,一個函數(shù)可以有數(shù)量可變的參數(shù),你可以通過指定所需的參數(shù)來傳遞一個參數(shù)的子集。數(shù)組是非常強大的矩陣狀對象,可以很容易地分割成更小的數(shù)組:

  1. x = data[:, column_x]
  2. y = data[:, column_y]

冒號選擇整個范圍,也可以用來選擇子范圍。例如,要選擇數(shù)組的前兩行,可以使用:

  1. first_two_rows = data[0:1, :]

擬合數(shù)據(jù)

SciPy 提供了方便的數(shù)據(jù)擬合功能,例如 linregress() 功能。該函數(shù)提供了一些與擬合相關(guān)的重要值,如斜率、截距和兩個數(shù)據(jù)集的相關(guān)系數(shù):

  1. slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
  2.  
  3. print("Slope: {:f}".format(slope))
  4. print("Intercept: {:f}".format(intercept))
  5. print("Correlation coefficient: {:f}".format(r_value))

因為 linregress() 提供了幾條信息,所以結(jié)果可以同時保存到幾個變量中。

繪圖

Matplotlib 庫僅僅繪制數(shù)據(jù)點,因此,你應該定義要繪制的點的坐標。已經(jīng)定義了 xy 數(shù)組,所以你可以直接繪制它們,但是你還需要代表直線的數(shù)據(jù)點。

  1. fit_x = np.linspace(x.min() - 1, x.max() + 1, 100)

linspace() 函數(shù)可以方便地在兩個值之間生成一組等距值。利用強大的 NumPy 數(shù)組可以輕松計算縱坐標,該數(shù)組可以像普通數(shù)值變量一樣在公式中使用:

  1. fit_y = slope * fit_x + intercept

該公式在數(shù)組中逐元素應用;因此,結(jié)果在初始數(shù)組中具有相同數(shù)量的條目。

要繪圖,首先,定義一個包含所有圖形的圖形對象

  1. fig_width = 7 #inch
  2. fig_height = fig_width / 16 * 9 #inch
  3. fig_dpi = 100
  4.  
  5. fig = plt.figure(figsize = (fig_width, fig_height), dpi = fig_dpi)

一個圖形可以畫幾個圖;在 Matplotlib 中,這些圖被稱為。本示例定義一個單軸對象來繪制數(shù)據(jù)點:

  1. ax = fig.add_subplot(111)
  2.  
  3. ax.plot(fit_x, fit_y, label = "Fit", linestyle = '-')
  4. ax.plot(x, y, label = "Data", marker = '.', linestyle = '')
  5.  
  6. ax.legend()
  7. ax.set_xlim(min(x) - 1, max(x) + 1)
  8. ax.set_ylim(min(y) - 1, max(y) + 1)
  9. ax.set_xlabel('x')
  10. ax.set_ylabel('y')

將該圖保存到 PNG 圖形文件中,有:

  1. fig.savefig('fit_python.png')

如果要顯示(而不是保存)該繪圖,請調(diào)用:

  1. plt.show()

此示例引用了繪圖部分中使用的所有對象:它定義了對象 fig 和對象 ax。這在技術(shù)上是不必要的,因為 plt 對象可以直接用于繪制數(shù)據(jù)集?!?a class="ext" rel="external nofollow" target="_blank">Matplotlib 教程》展示了這樣一個接口:

  1. plt.plot(fit_x, fit_y)

坦率地說,我不喜歡這種方法,因為它隱藏了各種對象之間發(fā)生的重要交互。不幸的是,有時官方的例子有點令人困惑,因為他們傾向于使用不同的方法。在這個簡單的例子中,引用圖形對象是不必要的,但是在更復雜的例子中(例如在圖形用戶界面中嵌入圖形時),引用圖形對象就變得很重要了。

結(jié)果

命令行輸入:

  1. #### Anscombe's first set with Python ####
  2. Slope: 0.500091
  3. Intercept: 3.000091
  4. Correlation coefficient: 0.816421

這是 Matplotlib 產(chǎn)生的圖像:

 

Plot and fit of the dataset obtained with Python

GNU Octave 方式

GNU Octave 語言主要用于數(shù)值計算。它提供了一個簡單的操作向量和矩陣的語法,并且有一些強大的繪圖工具。這是一種像 Python 一樣的解釋語言。由于 Octave 的語法幾乎兼容 MATLAB,它經(jīng)常被描述為一個替代 MATLAB 的免費方案。Octave 沒有被列為最流行的編程語言,而 MATLAB 則是,所以 Octave 在某種意義上是相當流行的。MATLAB 早于 NumPy,我覺得它是受到了前者的啟發(fā)。當你看這個例子時,你會看到相似之處。

安裝

fitting_octave.m 的例子只需要基本的 Octave 包,在 Fedora 中安裝相當簡單:

  1. sudo dnf install octave

代碼注釋

在 Octave 中,你可以用百分比符號(%)為代碼添加注釋,如果不需要與 MATLAB 兼容,你也可以使用 #。使用 # 的選項允許你編寫像 Python 示例一樣的特殊注釋行,以便直接在命令行上執(zhí)行腳本。

必要的庫

本例中使用的所有內(nèi)容都包含在基本包中,因此你不需要加載任何新的庫。如果你需要一個庫,語法pkg load module。該命令將模塊的功能添加到可用功能列表中。在這方面,Python 具有更大的靈活性。

定義變量

變量的定義與 Python 的語法基本相同:

  1. input_file_name = "anscombe.csv";
  2. delimiter = "\t";
  3. skip_header = 3;
  4. column_x = 1;
  5. column_y = 2;

請注意,行尾有一個分號;這不是必需的,但是它會抑制該行結(jié)果的輸出。如果沒有分號,解釋器將打印表達式的結(jié)果:

  1. octave:1> input_file_name = "anscombe.csv"
  2. input_file_name = anscombe.csv
  3. octave:2> sqrt(2)
  4. ans = 1.4142

打印輸出結(jié)果

強大的函數(shù) printf() 是用來在終端上打印的。與 Python 不同,printf() 函數(shù)不會自動在打印字符串的末尾添加換行,因此你必須添加它。第一個參數(shù)是一個字符串,可以包含要傳遞給函數(shù)的其他參數(shù)的格式信息,例如:

  1. printf("Slope: %f\n", slope);

在 Python 中,格式是內(nèi)置在字符串本身中的,但是在 Octave 中,它是特定于 printf() 函數(shù)。

讀取數(shù)據(jù)

dlmread() 函數(shù)可以讀取類似 CSV 文件的文本內(nèi)容:

  1. data = dlmread(input_file_name, delimiter, skip_header, 0);

結(jié)果是一個矩陣對象,這是 Octave 中的基本數(shù)據(jù)類型之一。矩陣可以用類似于 Python 的語法進行切片:

  1. x = data(:, column_x);
  2. y = data(:, column_y);

根本的區(qū)別是索引從 1 開始,而不是從 0 開始。因此,在該示例中,x 列是第一列。

擬合數(shù)據(jù)

要用直線擬合數(shù)據(jù),可以使用 polyfit() 函數(shù)。它用一個多項式擬合輸入數(shù)據(jù),所以你只需要使用一階多項式:

  1. p = polyfit(x, y, 1);
  2.  
  3. slope = p(1);
  4. intercept = p(2);

結(jié)果是具有多項式系數(shù)的矩陣;因此,它選擇前兩個索引。要確定相關(guān)系數(shù),請使用 corr() 函數(shù):

  1. r_value = corr(x, y);

最后,使用 printf() 函數(shù)打印結(jié)果:

  1. printf("Slope: %f\n", slope);
  2. printf("Intercept: %f\n", intercept);
  3. printf("Correlation coefficient: %f\n", r_value);

繪圖

與 Matplotlib 示例一樣,首先需要創(chuàng)建一個表示擬合直線的數(shù)據(jù)集:

  1. fit_x = linspace(min(x) - 1, max(x) + 1, 100);
  2. fit_y = slope * fit_x + intercept;

與 NumPy 的相似性也很明顯,因為它使用了 linspace() 函數(shù),其行為就像 Python 的等效版本一樣。

同樣,與 Matplotlib 一樣,首先創(chuàng)建一個對象,然后創(chuàng)建一個對象來保存這些圖:

  1. fig_width = 7; %inch
  2. fig_height = fig_width / 16 * 9; %inch
  3. fig_dpi = 100;
  4.  
  5. fig = figure("units", "inches",
  6.              "position", [1, 1, fig_width, fig_height]);
  7.  
  8. ax = axes("parent", fig);
  9.  
  10. set(ax, "fontsize", 14);
  11. set(ax, "linewidth", 2);

要設置軸對象的屬性,請使用 set() 函數(shù)。然而,該接口相當混亂,因為該函數(shù)需要一個逗號分隔的屬性和值對列表。這些對只是代表屬性名的一個字符串和代表該屬性值的第二個對象的連續(xù)。還有其他設置各種屬性的函數(shù):

  1. xlim(ax, [min(x) - 1, max(x) + 1]);
  2. ylim(ax, [min(y) - 1, max(y) + 1]);
  3. xlabel(ax, 'x');
  4. ylabel(ax, 'y');

繪圖是用 plot() 功能實現(xiàn)的。默認行為是每次調(diào)用都會重置坐標軸,因此需要使用函數(shù) hold()。

  1. hold(ax, "on");
  2.  
  3. plot(ax, fit_x, fit_y,
  4.      "marker", "none",
  5.      "linestyle", "-",
  6.      "linewidth", 2);
  7. plot(ax, x, y,
  8.      "marker", ".",
  9.      "markersize", 20,
  10.      "linestyle", "none");
  11.  
  12. hold(ax, "off");

此外,還可以在 plot() 函數(shù)中添加屬性和值對。legend 必須單獨創(chuàng)建,標簽應手動聲明:

  1. lg = legend(ax, "Fit", "Data");
  2. set(lg, "location", "northwest");

最后,將輸出保存到 PNG 圖像:

  1. image_size = sprintf("-S%f,%f", fig_width * fig_dpi, fig_height * fig_dpi);
  2. image_resolution = sprintf("-r%f,%f", fig_dpi);
  3.  
  4. print(fig, 'fit_octave.png',
  5.       '-dpng',
  6.       image_size,
  7.       image_resolution);

令人困惑的是,在這種情況下,選項被作為一個字符串傳遞,帶有屬性名和值。因為在 Octave 字符串中沒有 Python 的格式化工具,所以必須使用 sprintf() 函數(shù)。它的行為就像 printf() 函數(shù),但是它的結(jié)果不是打印出來的,而是作為字符串返回的。

在這個例子中,就像在 Python 中一樣,圖形對象很明顯被引用以保持它們之間的交互。如果說 Python 在這方面的文檔有點混亂,那么 Octave 的文檔就更糟糕了。我發(fā)現(xiàn)的大多數(shù)例子都不關(guān)心引用對象;相反,它們依賴于繪圖命令作用于當前活動圖形。全局根圖形對象跟蹤現(xiàn)有的圖形和軸。

結(jié)果

命令行上的結(jié)果輸出是:

  1. #### Anscombe's first set with Octave ####
  2. Slope: 0.500091
  3. Intercept: 3.000091
  4. Correlation coefficient: 0.816421

它顯示了用 Octave 生成的結(jié)果圖像。

 

Plot and fit of the dataset obtained with Octave

接下來

Python 和 GNU Octave 都可以繪制出相同的信息,盡管它們的實現(xiàn)方式不同。如果你想探索其他語言來完成類似的任務,我強烈建議你看看 Rosetta Code。這是一個了不起的資源,可以看到如何用多種語言解決同樣的問題。 

責任編輯:龐桂玉 來源: Linux中國
相關(guān)推薦

2010-01-22 11:06:03

GNUkFreeBSDLinux

2022-10-18 23:53:20

Python數(shù)據(jù)Matplotlib

2020-08-25 19:56:43

MinGWWindowsGNU

2021-05-13 12:46:54

GNU ScreenLinux

2013-06-14 11:18:41

Fedora Gnu PG 代理

2016-09-28 21:50:29

GNUAutotoolLinux

2023-05-26 00:31:13

數(shù)據(jù)維度5D散點圖

2011-06-07 10:15:38

GNULinux

2010-12-12 11:27:00

PGP使用指南

2021-04-26 07:53:04

繪制流程任務

2022-07-22 12:45:39

GNU

2020-06-12 14:20:34

編程語言PythonJava

2009-12-10 16:26:49

GNULinux

2009-12-15 13:42:22

GNU計劃

2022-04-12 17:39:14

Linux磁盤分區(qū)

2016-09-12 14:42:24

LinuxOctave音頻文件

2009-06-29 09:44:39

LinuxDebianGNU

2009-12-14 13:31:56

GNULinuxvmware

2014-05-09 10:42:38

GNULinux

2020-10-26 21:07:49

GDBGNUC語言
點贊
收藏

51CTO技術(shù)棧公眾號