2020 年數據科學就業市場必備的五項技能
雷鋒網AI開發者按,數據科學是一個競爭激烈的領域,人們正在迅速學習越來越多的技能和經驗。這導致了機器學習工程師的從業要求的直線上升,所有的數據科學家也需要成為開發人員。
為了保持競爭力,一定要為新工具帶來的新工作方式做好準備!以下就是2020 年數據科學就業市場必備的五項技能。
為 2020 年數據就業市場更新你的技能!
1.敏捷開發
敏捷開發是一種組織工作的方法,已經被開發團隊大量使用。越來越多的人扮演着數據科學家的角色,他們最初的技能是純軟件開發,這就產生了機器學習工程師這一角色。
Post-its 和敏捷開發似乎是並駕齊驅的
越來越多的數據科學家/機器學習工程師被劃分為開發人員:他們的工作是不斷改進現有的代碼庫中的機器學習相關的內容。
對於這類角色,數據科學家必須了解基於 Scrum 方法的敏捷工作方式。它為不同的人定義了不同的角色,這種角色定義保證了工作的順利實施和持續改進。
2.Github
Git 和 Github 是面向開發人員的軟件,在管理不同版本的軟件時有很大幫助。它們跟蹤對代碼庫所做的所有更改,此外,當多個開發人員同時對同一個項目進行更改時,它們能夠真正讓協作變得便利。
GitHub 是個不錯的選擇
隨着數據科學家的角色變得越來越重要,能夠熟練使用這些開發工具也是必備的技能之一。Git 正成為找工作時必備的一項技能,要熟練使用 Git 需要時間。當你一個人或者你的同事都是新手的時候,開始研究 Git 是很容易的,但是當你加入一個 Git 專家團隊,只有你一個人是新手的時候,你可能會經歷比你想象的多得多的努力才能跟上。
Git 是必須要掌握的技能
3.工業化
在數據科學領域,我們思考項目的方式也在發生變化。沒有變的是,數據科學家仍然是用機器學習來回答商業問題的。但是,隨着時間的發展,數據科學項目越來越多地是為生產系統開發的,例如作為大型軟件中的微服務。
AWS 是最大的雲供應商
與此同時,高級模型的 CPU 和 RAM 消耗也越來越大,尤其是在使用神經網絡和深度學習時。
就數據科學家的工作而言,不僅要考慮模型的準確性,還要考慮項目的執行時間或其他工業化的方面,後者正變得越來越重要。
Google也有云服務,就像 Microsoft (Azure)一樣
4.雲與大數據
在機器學習產業化對數據科學家的約束越來越嚴重,同時,它也成為了數據工程師乃至整個 it 行業的嚴重約束。
一幅著名的漫畫(來源:https://www.cyberciti.biz/humor/dad-what-are-clouds-made-of-in-it/ )
在數據科學家可以致力於減少模型所需時間的情況下,it 人員可以通過更改計算服務來做出貢獻,這些服務通常通過以下一種或兩種方式獲得:
PySpark 正在為並行(大數據)系統編寫 Python 代碼
5.NLP、神經網絡與深度學習
目前,數據科學家仍然認為 NLP 和圖像識別僅僅是數據科學的專業知識,並非所有人都必須掌握。
你需要理解深度學習:基於人腦思想的機器學習
但是,圖像分類和 NLP 的用例越來越頻繁,甚至在「常規」業務中也是如此。在目前的情況下,對這類技術沒有基本的了解已經沒辦法適應當前的技術環境了。
即使你的工作中沒有此類模型的直接應用程序,在實際操作的項目也很容易找到。這些項目可以讓你理解圖像和文本項目的基本步驟。
via:https://towardsdatascience.com/top-5-must-have-data-science-skills-for-2020-a5a53226b168
雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:skura
為了保持競爭力,一定要為新工具帶來的新工作方式做好準備!以下就是2020 年數據科學就業市場必備的五項技能。
為 2020 年數據就業市場更新你的技能!
1.敏捷開發
敏捷開發是一種組織工作的方法,已經被開發團隊大量使用。越來越多的人扮演着數據科學家的角色,他們最初的技能是純軟件開發,這就產生了機器學習工程師這一角色。
Post-its 和敏捷開發似乎是並駕齊驅的
越來越多的數據科學家/機器學習工程師被劃分為開發人員:他們的工作是不斷改進現有的代碼庫中的機器學習相關的內容。
對於這類角色,數據科學家必須了解基於 Scrum 方法的敏捷工作方式。它為不同的人定義了不同的角色,這種角色定義保證了工作的順利實施和持續改進。
2.Github
Git 和 Github 是面向開發人員的軟件,在管理不同版本的軟件時有很大幫助。它們跟蹤對代碼庫所做的所有更改,此外,當多個開發人員同時對同一個項目進行更改時,它們能夠真正讓協作變得便利。
GitHub 是個不錯的選擇
隨着數據科學家的角色變得越來越重要,能夠熟練使用這些開發工具也是必備的技能之一。Git 正成為找工作時必備的一項技能,要熟練使用 Git 需要時間。當你一個人或者你的同事都是新手的時候,開始研究 Git 是很容易的,但是當你加入一個 Git 專家團隊,只有你一個人是新手的時候,你可能會經歷比你想象的多得多的努力才能跟上。
Git 是必須要掌握的技能
3.工業化
在數據科學領域,我們思考項目的方式也在發生變化。沒有變的是,數據科學家仍然是用機器學習來回答商業問題的。但是,隨着時間的發展,數據科學項目越來越多地是為生產系統開發的,例如作為大型軟件中的微服務。
AWS 是最大的雲供應商
與此同時,高級模型的 CPU 和 RAM 消耗也越來越大,尤其是在使用神經網絡和深度學習時。
就數據科學家的工作而言,不僅要考慮模型的準確性,還要考慮項目的執行時間或其他工業化的方面,後者正變得越來越重要。
Google也有云服務,就像 Microsoft (Azure)一樣
4.雲與大數據
在機器學習產業化對數據科學家的約束越來越嚴重,同時,它也成為了數據工程師乃至整個 it 行業的嚴重約束。
一幅著名的漫畫(來源:https://www.cyberciti.biz/humor/dad-what-are-clouds-made-of-in-it/ )
在數據科學家可以致力於減少模型所需時間的情況下,it 人員可以通過更改計算服務來做出貢獻,這些服務通常通過以下一種或兩種方式獲得:
- 雲:將計算資源轉移到外部供應商,如 AWS、Microsoft Azure 或 Google Cloud,可以很容易地建立一個可以快速從遠程訪問的機器學習環境。這就要求數據科學家對雲功能有一個基本的了解,例如:使用遠程服務器而不是自己的計算機,或者使用 Linux 而不是 Windows/Mac。
PySpark 正在為並行(大數據)系統編寫 Python 代碼
- 大數據:它使用 Hadoop 和 Spark,這兩個工具允許同時在許多計算機上並行處理任務(工作節點)。這要求數據科學家使用不同的方法來實現模型,因為代碼必須允許並行執行。
5.NLP、神經網絡與深度學習
目前,數據科學家仍然認為 NLP 和圖像識別僅僅是數據科學的專業知識,並非所有人都必須掌握。
你需要理解深度學習:基於人腦思想的機器學習
但是,圖像分類和 NLP 的用例越來越頻繁,甚至在「常規」業務中也是如此。在目前的情況下,對這類技術沒有基本的了解已經沒辦法適應當前的技術環境了。
即使你的工作中沒有此類模型的直接應用程序,在實際操作的項目也很容易找到。這些項目可以讓你理解圖像和文本項目的基本步驟。
via:https://towardsdatascience.com/top-5-must-have-data-science-skills-for-2020-a5a53226b168
雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:skura