更多課程 選擇中心

Python培訓
美國上市教育機構

400-111-8989

Python培訓

盤點|數據科學領域常用的Python庫

  • 發布:Python培訓
  • 來源:知識
  • 時間:2018-01-19 14:59

圖片源于:https://dsla1.com/data-science-python-course/

近年來,Python已成為數據科學家的主要工具之一。本文概述了數據科學家及工程師們最常用的Python庫。

1. 核心庫(Core Libraries)

1.1 Numpy


Numerical Python的簡稱,包含Python多維數組及矩陣操作方面的大量實用功能,用于矢量化數組運算,顯著提高了執行速度,改善了性能。

1.2 Scipy


科學及工程軟件庫,包含線性代數、優化、集成、統計等功能。它的主要功能基于Numpy庫,因此其中數組操作大量應用了Numpy庫。

1.3 Pandas


包含Series及DataFrame兩種特殊的數據結構,用于快捷的數據處理、聚合和可視化,尤其可以靈活處理缺失數據及數據分組。

2. 繪圖及可視化

2.1 Matplotlib


Python中最常用的可視化庫,由此可與MatLab、Mathematica等科學工具相提并論。它可以進行多種基本圖形的可視化操作,并且包含標簽、網格、圖例等多種進行實體格式化的工具。

2.2 Seaborn


Seaborn主要用于統計模型的可視化,比如熱力圖等,可以對數據進行概述的同時描繪整體分布。Seaborn基于Matplotlib實現,并高度依賴于后者。

2.3 Bokeh


Bokeh庫旨在進行交互式可視化,并且不依賴于Matplotlib,主要通過瀏覽器以“數據驅動文檔”(Data-Driven Documents,d3.js)的形式演示。

2.4 Basemap


Basemap庫通過使用Matplotlib中的坐標,為Matplotlib提供了簡易地圖的支持。Folium庫在Basemap的基礎上構建,可以制作交互式的Web地圖,這類似于使用Bokeh創建的JavaScript小部件。

2.5 Plotly


Poltly庫是一個基于Web、用于數據可視化的工具集,通過一系列API接口用于Python等編程語言的實現。plot.ly網站上展示了許多強大的圖形。

2.6 NetworkX


NetworkX庫用于復雜社會網絡的分析。它可以處理標準數據格式及非標準數據格式,這使其具備高效性和可擴展性。

3. 機器學習

3.1 SciKit-Learn


SciKit-Learn為常見的機器學習算法提供了簡潔而一致的界面,使得機器學習更容易應用于生產系統。它結合了高質量的代碼和應用文檔,具備易用性和高性能,事實上已成為使用Python進行機器學習的行業標準。

3.2 TensorFlow


TensorFlow庫由谷歌工作人員開發,是一個數據流圖計算的開源庫,在機器學習方面的應用表現優越。主要特點是多層節點系統,可以在大型數據集上快速訓練人工神經網絡。這使得谷歌的語音識別和圖像識別成為可能。

3.3 Theano


Theano庫主要用于機器學習的需要,它定義了類似于Numpy的多維數組,以及數據操作和表達,在低級別操作上與Numpy結合緊密。Theano庫經過了編譯,優化了GPU和CPU的使用,在數據密集型計算方面性能更高,結果也更精確。

3.4 Keras


Keras庫是用Python編寫、用于高級界面中神經網絡構建的開源庫,具有可擴展性和高度模塊化。它使用Theano或TensorFlow作為后端,目前微軟正努力將CNTK(微軟的認知工具包)作為新的后端。它設計簡約,旨在通過構建緊湊型系統進行快速簡單的實驗。它的基本思想是基于層次的,其他一切都是圍繞它們建立的。數據準備為張量形式,第一層負責張量輸入,最后一層負責輸出,模型置于兩者之間。

4. 自然語言處理、數據挖掘及統計分析

4.1 NLTK


Natural Language Toolkit的簡稱,用于符號和統計自然語言處理等一般任務。NLTK包括許多功能,比如文本標記、分類、名稱實體標識、建立顯示句子間及句子間依賴性的語料樹、詞干、語義推理等。所有的構建塊允許為不同的任務構建復雜的研究系統,比如情感分析、自動匯總等。

4.2 Gensim


Gensim是一個Python的開源庫,為更高效地處理大文本數據而設計,實現了向量空間建模和主題建模。Gensim主要用于原始的、非結構化的數字文本處理,實現了層次Dirichlet過程(HDP)、潛在語義分析(LSA)、隱含Dirichlet分布(LDA)以及tf-idf、隨機投影、word2vec、document2vec等算法,以分析語料集中重復文本出現的模式。所有算法都是無監督的,只需要輸入語料庫。

4.3 Scrapy


Scrapy是用于制作抓取程序的庫,也被稱為蜘蛛機器人,可用于網絡中檢索結構化數據,比如關聯信息或URL。它的界面設計遵循著名的“不要重復自己”原則——它提示用戶編寫可重用的通用代碼,以便構建和擴展大型爬蟲。Scrapy的結構圍繞Spider類構建,其內部封裝了爬蟲所遵循的指令集。

4.4 Pattern


Pattern庫將Scrapy庫和NLTK庫的功能結合在一個大型庫中,被設計為用于Web挖掘、自然語言處理、機器學習和網絡分析的解決方案。其內部工具有網絡爬蟲;用于谷歌、推特和維基百科的API;解析樹、情感分析等文本分析算法。

4.5 Statsmodels


Statsmodels庫主要用于統計分析,通過應用統計模型估計方法進行數據探索,并進行推斷分析。它使用的模型包括線性回歸模型、廣義線性模型、離散選擇模型、時間序列分析模型等,還提供了大量統計分析方面的繪圖功能。

END

參考文獻:

https://activewizards.com/blog/top-15-libraries-for-data-science-in-python/

https://www.datasciencelearner.com/machine-learning-library-python/

https://www.business2community.com/brandviews/upwork/15-python-libraries-data-science-01584664

注:圖片源于網絡。

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

上一篇:python的基本數據類型學習
下一篇:Python|字符串的簡單運算

哪些崗位學了Python更有優勢?

Python中字符串的處理技巧有哪些

零基礎學Python要掌握的小技巧

Python編程中常見的錯誤有哪些?

選擇城市和中心
黑龍江省

吉林省

河北省

湖南省

貴州省

云南省

廣西省

海南省

4438全国大成网人网站