2023年,大數據是不是涼了,做大數據有前途嗎

程序員果汁兒 發佈 2022-12-02T07:14:09.366684+00:00

2013年,大數據剛剛興起,大量程式設計師在那個時間點通過學習大數據,踏上了升職加薪的日子。那時候只要懂一點Hadoop,就能寫一點HQL,工資翻倍是分分鐘的事。但現在是2302年,哦不,是2022年。僅憑一項技能是沒有機會向大數據轉型的。有幾個原因。1、數據開發的平台化比較成熟。

2013年,大數據剛剛興起,大量程式設計師在那個時間點通過學習大數據,踏上了升職加薪的日子。那時候只要懂一點Hadoop,就能寫一點HQL,工資翻倍是分分鐘的事。

但現在是2302年,哦不,是2022年。僅憑一項技能是沒有機會向大數據轉型的。


有幾個原因。

1、數據開發的平台化比較成熟。普通開發者已經可以在沒有專業數據開發者介入的情況下完成大部分的大數據開發,因此依靠單一的簡單技能已經不再流行。

2、市場已經趨於飽和,紅利期已經過去,對數據開發者的要求也變得更高。

3、各種培訓機構批量產生了大量的大數據人才,一個個體拼不過這批包裝好的職業培訓人。

4、市場不會對大數據反應過度,也不會給與幾年前一樣高的待遇。只是一個普通的工程師。

當然,這並不意味著我們不能入行大數據。相反,我們應該把大數據技能納入日常技能樹,就像MySQL和Oracle一樣。但是我們可能要改變我們的觀念。不要把大數據當成單一技能或者救命稻草。大數據應該是一種態度,一種常態。我們應該能夠用有用的數據來看待問題,使用數據分析工具,洞察數據背後的商業潛力。這是我們接下來要發力的點。只靠努力學習大數據工程師的技能已經不行了。

但以防萬一,我想介紹一下目前大數據中端人才在做什麼,低端人才基本不需要。


轉型大數據有多少種?

很多朋友在談到數據挖掘和大數據的時候,都會不由自主的想到機器學習算法。其實大部分數據崗位都不需要這麼高深的知識。但是如果你掌握了技能樹更多的內容,或許就能更強的控制你的數據上下游,或許就能晉級下一階段。

數據挖掘的技能樹無論是橫向還是縱向都很深,並不適合普通人,因為深度學習真的很難,需要機器學習、深度學習、概率論、線性代數、智能優化方法、各種分布式和一致性算法、各種資源調度理論等很深的數學知識。

很多人覺得自己要掌握所有的技能才能開始這份工作。,那可不一定。總之,每個崗位各有側重,每個崗位每個技能的權重都不一樣。

從數據的產生到使用,最基本的環節就是。採集-清洗-加工-分析-決策。在這個環節上,前後需要的技能是不一樣的。一般來說,後端門檻越高,複雜度越高。當然,我不是說前面不重要。每個環節都很重要,只是門檻。每個階段都可以牛逼。

所以數據開發的崗位縱向可以分為數據採集工程師-ETL工程師-數據倉庫工程師-算法工程師-數據分析師。橫向上還可以有大數據運維工程師、大數據平台開發工程師、數據治理架構師、數據服務架構師、大數據系統架構師、大數據框架開發工程師等崗位,支持更早的流程更方便快捷的開發和落地,更好的維護。


如果我想轉型,需要什麼技能?

職業發展方面,大數據發展一般有三條線。

1.主線:服務支持線(新手基本不受歡迎)

大數據運維工程師-大數據平台開發工程師-大數據系統架構師-大數據框架開發工程師

必備:Linux,Hadoop、Spark、Flink集群,Hive,Zookeeper,HBase,kafka,Flume

可選:各種框架原始碼

語言:Java、Scala、shell、Python

建議:1。先學習基本的大數據集群維護技巧,寫一些shell腳本,使用定時調度功能。2.學會使用平台工具進行監控和維護,參與平台開發和工具開發。3.重組或改進現有的系統架構和框架。


2.主線:數據倉庫線(新手比較友好)

數據採集工程師-ETL工程師-數據治理架構師-數據服務架構師

必選:HiveSQL,SparkSQL,FlinkSQL,Kafka,數倉建模

可選項:分布式一致性算法、JVM調優、MapReduce

語言:Scala,SQL,Java

  

3.主線:數據挖掘線(分析能力強的還是很吃香的)

數據工程師-數據算法工程師-數據分析師

必修:可視化技術、SQL、統計學、概率論、智能優化、機器學習工具(Tensorflow、scikit-learn)

可選:caffee、pytorch、OpenCV

語言:Python

如果我學Scala是轉型嗎?

最後說說數據從業者的語言問題。朋友總問我該不該學R,Scala,Python,Java。我的觀點是,每種語言都只是它自己的工具。不要拘泥於一種語言。每種語言都有自己的專業領域。在每一個領域,你都要儘量用它擅長的語言去處理。當然,如果你已經工作了五六年,仍然受到語言的限制,你可能要考慮一下。

2019年8月程式語言排名:


Scala:Spark的實現語言是Scala,現在也有一些大神用PySpark來實現一些數據處理的東西,為了兼容機器學習框架。

Python:數據抓取和機器學習是必須的,其他語言基本都是分支。不要覺得Python跑的慢。其實那些框架都是用C和C實現的,只設置了一個Python shell,做了很多優化,比自己寫的C快。

R:R語言有很多數據探索和數據可視化的場景。

Java:Hadoop套件基本都是用Java實現的。熟悉Java可以讓你更清楚自己占用的資源分配。瓶頸是cpu還是內存,磁碟IO還是網絡IO。

結論:

大數據還是值得轉型的,值得,但是僅憑一技之長翻身的機會已經沒有了,想靠轉型大數據漲工資的日子一去不復返了。

但是大數據高端人才對行業發展的推動作用越來越大,你還是有機會的。


關鍵字: