<wbr id="juant"></wbr>
  • <wbr id="juant"></wbr>
    更多課程 選擇中心


    Python培訓

    400-111-8989

    如何使用 Python 開始建立你的數據分析項目

    • 發布:Python培訓
    • 來源:Python練習題庫
    • 時間:2017-07-20 16:44

    現在有很多博文對復雜的機器學習算法和前沿的技術進行了展示,而這也促使數據科學家們慢慢變成了“社交控”FOMO。但數據分析的基本內容究竟是什么樣的?你應當怎樣安排項目結構?你需要使用什么樣的工具?等等諸如此類的問題卻鮮有人問津。本文將會對如何建立項目提供一些啟發思路,以幫助你快速達到在數據科學領域能有所產出的境界。

    項目結構

    項目的結構總是為了契合人們的需求而得到不斷完善,這會導致在一個團隊中出現不同的項目構架。如果你或者團隊中的其他人能夠及時發現項目結構的重要性,并且這個概念在團隊中得到推廣,那么,你無疑是幸運的。

    多年前作者偶然發現了R 語言的項目模板網站。從那之后,作者便一直提倡身邊的人使用規范的項目結構。最近,DrivenData發布了更為普適的Cookiecutter Data Science來構建項目結構。

    而這些網站在項目構建方面的思路大致如下:

    一個連貫且組織良好的結構,以便于人們協作

    你的分析應當可復現,而你的項目結構可以滿足這個需求

    不應該從原始數據作為出發點開始你的項目,而應當假設原始數據不變,創建其他派生的文件

    作者簡略的項目結構如下所示:


    你可以在這里看到相關實例。

    項目通常遵循另一種結構:

    原始數據不變,存儲在 data/中;

    數據處理和相關輸出圖分別存儲在不同的文件夾下,例如:figures/和output/;

    筆記文件存儲在notebooks/;

    項目信息撰寫在README.md中;

    項目代碼放置在獨立的文件夾下。

    實際上,你選擇什么樣的項目結構并不重要,只要它能符合你的工作流程,你也能堅持使用它。你應該嘗試去理解何為項目,從而選擇滿足要求的項目結構。

    虛擬環境

    項目之間應當相互獨立,你肯定不希望新的項目打亂了之前的工作成果。我們可以通過把不同項目的文件存儲在不同的文件夾下實現獨立性,但是不同項目之間也應當使用不同的 Python 環境。

    虛擬環境依賴于不同的項目而相互獨立,避免了包的沖突問題。每個虛擬環境都安裝了特定版本的不同包。虛擬環境一中安裝了版本為 1.11 的numpy庫和版本為 0.18 的pandas庫,而虛擬環境二中則僅僅安裝了版本為 0.17 的pandas庫。作者選取適用于數據科學的 conda 管理虛擬環境(可在 這里 看到選擇它的原因)。

    下列命令可以創建一個使用 Python 3.5 的新的 conda 虛擬環境,命名為 example_project:

    激活虛擬環境( Windows 系統下將 source 省去):

    之后便可以安裝所需的包了:

    當你在不同的項目間跳轉時,可以運行source deactivate命令取消激活,并激活新的項目虛擬環境。

    一旦你熟練使用activate和deactivate命令,就會發現虛擬環境是一個很輕巧的工具來保證 Python 環境的獨立。通過導出環境定義文件(例如,所有安裝的包名和版本號),你的項目就很容易得到復現了。如果你想查看更多細節,可在 Tim Hopper 的博文中看到。

    Git

    每個項目都應該有自己的 Git 資源庫。在每個項目創建一個資源庫可以幫助你追蹤每個項目的歷史和解決在不同的項目間復雜的版本依賴問題。

    又或者,你可以選擇在一個資源庫中包含多個項目,將所有內容存儲在一個位置。這樣做的缺點在于往往會因為合并沖突問題而告終(數據科學家通常并不能熟練使用 Git )。除了很多使用 Git 時出現的問題,這也會導致你的項目之間缺乏獨立性。

    創建 Git 資源庫最簡單的方法就是在你的 Git 遠程主機托管服務(例如,Github 和 GitLab )上創建一個新的 Git 資源庫,然后把它復制到本地:

    你可以在這個空文件夾下構建你的項目結構。

    如果你按照這個步驟執行,并準備在一個新文件夾下創建一些文件了。那么,你首先還需要在電腦上對 git 資源庫進行初始化:

    然后在你的遠程主機上創建一個新的 git 資源庫,得到它的鏈接,并運行下列命令:

    該命令會添加鏈接為 https://github.com/hgrif/example-project.git 的遠程資源庫,并命令為 origin 。你可能需要把現有的 master分支推送到origin上:

    在你的項目目錄下創建.gitignore文件可以避免將圖或數據誤填加進資源庫中。作者一般使用 針對 Python 的.gitignore文件,并且在文件中加入 data/、figures/ 和 output/ 文件夾,以便 Git 可以忽略它們。

    既然 Git 已經設置好了,你就可以對核心內容使用git add和git commit命令了!

    使用工具

    使用一些工具可以幫助你擺脫那些重復性工作。

    Python 中的cookiecutter包可根據模板自動創建項目文件夾。你可以使用現有的模板,例如,Cookiecutter Data Science或者作者的項目結構模板,或是創建你自己新的模板。

    使用虛擬環境最好的方法就是選用支持它們的編輯器,比如:PyCharm 。你也可以使用 autoenv 或者 direnv 去激活虛擬環境,并設置環境的變量,如果你cd定位到一個工作目錄下的話

    結論

    對你的數據科學項目有一個良好的設置將會有助于同其他人協作,并且項目本身也會更容易復現。一個好的項目結構,一個虛擬環境和一個 git 資源庫是每個數據科學項目的基石。

    預約申請免費試聽課

    填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

    上一篇:Python代碼書寫規范,Python代碼規范要求
    下一篇:被誤解的Python,Python語言經常被誤解的6個點

    2021年Python面試題及答案匯總詳解

    python數據分析,你需要這些工具

    Python培訓講解二叉樹的三種深度

    Python培訓:如何實現窮舉搜索?

    • 掃碼領取資料

      回復關鍵字:視頻資料

      免費領取 達內課程視頻學習資料

    • 視頻學習QQ群

      添加QQ群:1143617948

      免費領取達內課程視頻學習資料

    Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

    選擇城市和中心
    黑龍江省

    吉林省

    河北省

    湖南省

    貴州省

    云南省

    廣西省

    海南省

    天天日天天射天天干天天伊|奇米电影|奇米网_奇米首页|奇米首页 百度 好搜 搜狗
    <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>