EP2:資料分析已死?數據技能樹該怎麼點?
📰 Data + AI = ∞ 每週分享我在資料科學與人工智慧領域上觀察的趨勢發展與所見所聞
嗨,你好,我是維元 👋 我將在 📰 Data + AI = ∞ 分享我在資料科學與人工智慧領域上觀察的趨勢發展與所見所聞 💥
本期內容搶先看
資料分析已死?數據技能樹該怎麼點?
Data/AI 趨勢熱點
Claude 3 Opus 輾壓 GPT-4,LLM 排名大洗牌
100 萬個 tokens 的 Gemini 1.5 pro 全面開放使用
開源、輕量級 LLM 的新秀 - Mistral 7B 基礎模型
用 Suno AI 生成音樂,你聽得出來嗎?
AI 開發者:Devin 的開源替代品 Devika
資料科學領域的你問我答
由資料科學驅動的人工智慧
全新 Podcast 節目 🎧 資料工作者的下班幹話群 將於每週一同步發布。
這一集想聊「資料分析已死?數據技能樹該怎麼點?」的主題,相關的論述可以追溯回去年 AI 浪潮興起,開啟了我一連串的焦慮思辨:當 AI 變強的同時,還需要學習程式嗎?還需要會分析資料嗎?還需要懂機器學習背後的理論嗎?以往我們對於「數據分析師」的工作任務,會先根據問題收集、產出各種量化數字,近一步需要深入挖掘;而對於初階分析師來說,初期會把技能點在工具的使用,例如視覺化、資料收集、資料庫,但當人人都會這些分析工具(甚或是 AI 都能自動產出)的時候,那數據分析師該如何證明自己的能力呢?
我當時有提出一個小結論:只會利用工具但無法「解讀分析結果」的資料分析師,將會更容易變成所謂的 高風險的資料工作者。
⮑ 點擊收聽:🎧 資料工作者的下班幹話群
Data/AI 趨勢熱點
接下來的段落會回顧這一週看到的 Data/AI 趨勢與熱點觀察(會搭配下週的 Podcast 內內容),本週整理以下幾個主題我都覺得不可錯過 🫣:
Claude 3 Opus 輾壓 GPT-4,LLM 排名大洗牌
用 Suno 生成音樂,你聽得出來嗎?
100 萬個 tokens 的 Gemini 1.5 pro 全面開放使用
開源、輕量級 LLM 的新秀 - Mistral 7B 基礎模型
用 Suno AI 生成音樂,你聽得出來嗎?
AI 開發者:Devin 的開源替代品 Devika
Claude 3 Opus 輾壓 GPT-4,LLM 排名大洗牌
由 Anthropic 發布的語言模型推出 Claude 3 的新版本:Haiku、Sonnet、Opus,由輕量級到性能強排序。Claude 3 系列針對「過度拒絕」問題進行了大幅修正,改善因理解不足而拒絕回答的情況。新系列在這方面取得了顯著進展,能夠更細緻地理解用戶的請求,在辨別風險的前提下減少了變懶變保守的情況。
Claude 3 Opus 在所有測評項目中表現都優於 GPT-4 和 Gemini Ultra,也刷新登上Chatbot Arena Leaderboard。甚至連輕量級的 Haiku 都能在用戶的票選中達到 GPT-4-0314 的水平,可見 OpenAI 正在被全面超趕中。
100 萬個 tokens 的 Gemini 1.5 pro 全面開放使用
Google 繼在年初推出後,在上週宣布 Gemini 1.5 Pro 正式開放使用(不用在排隊)。Gemini 1.5 Pro 可以支援一百萬個 Tokens 的上下文,刷新當時的新紀錄,目前 Claude 3 能客製化制定、而 GPT-4 僅提供 128K。
另外 Google 推出 Gemini API Cookbook 提供 API 的使用手冊,包含如何串接、撰寫 Prompt 與 API 的不同特性。
Gemini API Cookbook: https://github.com/google-gemini/gemini-api-cookbook
開源、輕量級 LLM 的新秀 - Mistral 7B 基礎模型
Mistral 在 Cerebral Valley 的黑客松活動宣布開源 Mistral 7B v0.2 基礎模型,該版本是 Mistral-7B-Instruct-v0.2 的原始預訓練模型,屬於 Mistral AI 的「Mistral Tiny」系列。更新後包括提升至 32K 上下文、Rope Theta = 1e6,以及取消滑動窗口等三個主要方面。
與同樣是開源的 Llama 2 相比,Mistral 7B v0.2 在所有評估任務優於 Llama 2 13B 模型相比,可被視為是開源、輕量級 LLM 的新秀。
用 Suno AI 生成音樂,你聽得出來嗎?
Suno AI 推出了第一款能夠製作「廣播級」音樂的生成模型,僅需透過幾秒鐘的時間即可完成創作出長達 2 分鐘完整歌曲。Suno V3 能根據自訂義歌詞讓 AI 產生旋律後演唱,同時新增了更豐富的音樂風格和流派選項,包括古典音樂、爵士樂、嘻哈、電子等時尚曲風。
目前 Suno 提供免費的版本可以玩,但存在使用上限與禁止商用。
AI 開發者:Devin 的開源替代品 Devika
上週提到的第一個 AI 軟體工程師 Devin 讓各位工程師都為之興奮(或焦慮),本週剛好看到一個開源替代品 Devika 目前處於項目的早期階段。
Devika 是一名代理 AI 軟體工程師,能夠理解高級人類指令,將其分解為步驟,研究相關信息,並編寫代碼以實現給定的目標。Devika 的目標是成為 Cognition AI 的 Devin 的有競爭力的開源替代品。
👇 如果你有發現什麼有趣的題目,也歡迎在底下留言跟我們分享 👇
資料科學領域的你問我答
最後一段搭配近期發起的社群挑戰「 #資料科學領域的你問我答 」,每週會在臉書粉專開啟話題,邀請你在這則貼文留言關於數據領域的各種好奇或疑問,我將在收單整理後分享我的觀點與經驗 😎
想進入資料科學領域,還需要學 R 語言嗎?
➟ 目前看起來 Python 是首選、有些比較專業的統計方法可以考慮 R ,至於 Julia 還要觀望一下。可以參考我之前寫過的 身為資料科學家,R、Python 與 Julia 該怎麼選? 一文。
如果分析結果跟人類假設的結果不一樣,該怎麼解釋?
➟ 我覺得這是一個「數據分析團隊的兩難」,分析結果跟人類假設的一樣會感覺已知用火、若不一樣又會引起對模型結果的不信任。
📰 Data + AI = ∞
📰 Data + AI = ∞ 會用兩個全新的渠道持續輸出我對資料科學 x 人工智慧領域的觀察與見解,邀請對該主題有興趣的朋友一起加入訂閱、關注 ✌️
⮑ 📰 Data + AI = ∞ 電子報 + 🎧 資料工作者的下班幹話群 Podcast






