做過數據分析的程序員都知道:Excel、Tableau等這些親民工具都是數據分析的得力助手。
但用Excel做分析,繁瑣的每一步都是來自鼠標點擊,中間如果一步有誤,很多步驟都需要重新調整,浪費大量時間。
這不,前天臨近下班時間,老板突然Q我:算一下近一年銷售額總額TOP5的品牌以及對應的銷售額。
接收完文檔我傻眼了, 公司旗下有20個品牌,這些品牌涉及到128個類目,業務部門總共發來了128張表,每一份表格對應著一個細分行業的數據,像什么各類戶外服裝、垂釣裝備、救生裝備應有盡有。
每張表,以月的維度記錄著每個品牌的日期、訪客、客單、轉化、所屬類目(細分行業)等數據:
習慣性的打開Excel,我開始盤算:最終需求是要篩選出近一年銷售額總和排名前5的品牌,這一攤子數據,對單獨的一張表進行分類匯總,能夠得到該細分行業各品牌的銷售額, 想要得到所有行業的銷售額總和,得分類匯總128次,最后對128次結果再次合并。
“這個任務看上去很艱巨,不過,考驗的主要是體力?!蔽乙谎劬汀翱创绷耸虑榈谋举|,右手食指在鼠標上飛速跳動,以90秒一張表格的速度瘋狂推進。按照這個速度,不考慮疲勞值對速度的拖累,大概 3.2個小時就能夠完成任務。
然而,剛開始還 沒3分鐘,老板找到我:剛交你的任務暫時不用做了, 新來的已經得出結論了,看著還挺專業。
多年來的職業敏感性驅使我立馬跟新同事聊了一下,“剛剛那些表分分鐘就搞定了,很簡單!”他演示給我看,“ 我就使用了幾行Python代碼......”
首先,導入模塊,打開單個表格:
接著,匯總不同品牌在這個細分行業下的銷售額,沒有銷售額的字段,可以通過訪客數*轉化率*客單價三者的乘積來計算:
按品牌來匯總銷售額,得到近一年各品牌銷售額合計:
對于單獨行業的銷售額,應該加一個區分的標簽以防覆蓋,而打開時候的文件名,具有天然的區分和防覆蓋優勢,但要注意去掉文件的后綴。
OK,單個表格處理完成,我們把這一系列操作推而廣之即可。用os.listdir方法來遍歷文件名,批量循環訪問并處理文件,同時引入time計時,打算看一看,面對128張表,Python完成這些操作到底能夠比手動快多少:
WOC,整個過程一氣呵成,不到3秒,平均一張表格0.02秒!真香!
為了確保數據正常,來預覽一下:
這一串看起來很奇怪的銷售額,是pandas自作主張把實際銷售額變成了科學記數法形式來展示,要還原數值,需要更改一下原始的設置:
我本以為學會Excel走遍天下,沒想到Python效率這么高!
20年前,學英語不是為了成為翻譯員;10年前,學電腦不是為了成為打字員;今天,學Python數據分析與挖掘不是要都成為數據分析師。
而越來越多的互聯網人利用Python完成自動化辦公、表格處理、信息搜集、數據分析、數據可視化等工作,至少釋放了80%的勞動力!
我們知道什么樣的程序員最受歡迎?
肯定不是只會寫代碼的碼農,而是技術過硬又懂業務的,可以 通過數據分析,優化代碼解決實際業務問題的人才!
其實無論是做研發、系統架構,還是產品、運營,在數不清的場景下, 用Python做數據分析與挖掘其實是基本功,它不是一個職位,而是一個技能。
這里整理了一些Python數據分析視頻教程,想著有用得上的伙伴,回復:數據分析,領??!
Python最新數據分析入門教程https://pan.baidu.com/s/1So1X4-uNgXcNurJDJFPPAA ?。?!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。