Datawhale学习
开源贡献:Datawhale团队
本月组队学习,是目前学习系列最多的一次。不仅包含吃瓜教程(西瓜书+南瓜书)、李宏毅深度学习、动手学数据分析、NLP入门、还包括数据采集、数据化运营、SQL、R语言等多个模块。
文末有报名方式
关于开源
Datawhale作为开源组织,更多是希望营造互促的学习氛围和纯粹的学习环境,所有学习内容和学习规划都将开源在Datawhale Github上,方便大家有监督和无监督学习,从而帮助到更多学习者成长。
开源内容
截止今日,Datawhale已经近开源50多门学习内容,涉及编程、数据科学、cv、nlp、强化学习和推荐系统6大模块,这来自每一个开源贡献者的参与。
开源地址
https://github.com/datawhalechina/team-learning
什么是组队学习?
顾名思义,就是一群志同道合的小伙伴,一起学习讨论,一起克服拖延症,一起组队打boss。没有老师,没有教学,有的是一群热爱学习和渴望改变的人,交流学习,互促共进。或许你可以从这些文章进一步了解:《闻韶:我的组队学习经历》、《罗如意:从学习者到加入组织》、《黄元帅:组队学习的大航海模型》
开源学习
机器学习
1 /机器学习:吃瓜教程
开源贡献:谢文睿、秦州、薛皖中
内容说明:周志华老师的“西瓜书”是机器学习经典入门教材,值得反复阅读,配合“南瓜书”从本科数学基础的视角进行讲解,一起打好基础!
任务路线:以《机器学习》西瓜书为主线,配合南瓜书攻克疑难点。
学习周期:18天
定位人群:有本科数学基础(高等数学、线性代数、概率论与数理统计)的同学
任务预览
Task02:概览西瓜书、南瓜书第3章(6天)
- 《机器学习》第3章
- 涉及的线性回归等数学难点
2 /集成学习
开源贡献:李祖贤、薛传雨、六一、杨毅远、陈琰钰、陈玉立、解婷婷
内容说明:详细介绍了机器学习领域中最经典的算法并给出了相应的数学推导和代码,对于每个算法都进行了细致的分析以及必要的代码的演示,便于学习者深刻理解本质。在案例的代码中也给出了详细的代码注释。
任务路线:掌握基本的回归模型、偏差与方差理论、回归模型的评估及超参数调优等
学习周期:20天
定位人群:具备本科数学基础,会使用常见的数据分析工具,既想系统学习sklearn工具库解决机器学习问题,又想系统学习机器学习算法理论的数学推导的学习者。
任务预览
Task02:回归问题(2天)
- 数据科学永恒不变的主题也许就是调参吧,从偏差与方差理论中得到启发,从数学理论和代码上掌握回归模型的评估及超参数调优
数据科学
3 / 数据采集从入门到精通
开源贡献:牧小熊、姜萌、叶前坤
内容说明:学会使用八爪鱼进行数据采集,核心亮点是数据采集的简单化、可视化以及无代码化。提示:不过多讲解爬虫的相关知识
任务路线:掌握数据采集工具八爪鱼的学习方法,能够采集相关数据
组队学习周期:14天
定位人群:不用敲代码,对数据采集有兴趣的同学都可
任务预览
Task02 自动识别初体验 (3天)
- 微博数据抓取
- 豆瓣图书输出抓取
- 采集逻辑与流程*
4 / SQL编程语言
开源贡献:王复振、杨煜、闫钟峰、杨梦迪、苏鹏、红星、张晋、汪健麟、勇跃、王嘉鹏、陈锴、牧小熊、葛爽
内容说明:Follow me,从 0 到 1 掌握 SQL,决胜秋招。
任务路线:完成SQL使用环境搭建,了解关系型数据库的基本特点,熟悉SQL增删改查基本操作,进一步掌握视图、子查询、函数、窗口函数等高阶用法,最后试一试秋招秘籍,检验下自己学习的效果。
组队学习周期:15天
定位人群:0基础学员,希望掌握SQL基础查询的同学
任务预览
Task04 集合运算(3天)
- 表的加减法
- 连结(JOIN)
5 / R语言数据科学
开源贡献:张晋、杨佳达、牧小熊、杨杨卓然、姚昱君、刘娜
内容说明:学会使用R语言,并应用其完成统计分析、可视化、建模等操作。说明:本课程适用于R语言入门,不会过多讲解统计、模型方面底层原理。
任务路线:掌握R语言基本操作,利用R语言进行数据清洗,了解R语言中的统计分析、可视化分析、模型分析。
组队学习周期:16天
定位人群:对数据科学有基本了解,希望学习R语言的同学
任务预览
Task02 数据清洗与准备 (3天)
- 重复值处理
- 缺失值识别与处理
- 异常值识别与处理
- 特征处理
- 规范化与偏态数据
6 / 动手学数据分析
开源贡献:陈安东、金娟娟、杨佳达、老表、李玲、张文涛、高立业、李婉桦、范佳慧、July、叶前坤
内容说明:以项目为主线,通过边学,边做以及边被引导的方式,既掌握知识点又能掌握数据分析的大致思路和流程。
任务路线:了解数据分析中基本库的操作;熟悉数据分析的操作流程,建立数据分析思维,入门数据建模。
组队学习周期:11天
定位人群:懂一些python,希望入门数据分析的学习者。
任务预览
Task01:数据加载及探索性数据分析(2天)
- 了解数据加载以及数据观察
- 掌握pandas基础
- 完成探索性数据分析
7 / 基于Python的会员数据化运营
开源贡献:红星、曹志宾、孙健坤、刘雯静、李晴晴
内容说明:了解企业数据化运营中,运用数据工具对会员进行运营的思路和方法,了解RFM模型的运用,掌握Python处理数据的技巧,掌握Excel表的可视化图表及透视工具。
任务路线:第一周学习和体会业务场景中数据化运营的重要性和方法论,第二周对数据化运营中用户分析模型RFM模型进行实操和练习
组队学习周期:14天
定位人群:对业务类数据分析感兴趣者、希望深入了解业务知识的应届生或在校生等
任务预览
Task01:数据化运营知识板块的学习(7天)
- 数据化运营概述
- 会员运营与用户运营概述
- 会员数据指标及分析模型介绍
深度学习
8 /李宏毅深度学习
开源贡献:王茂霖、陈安东、刘峥嵘、李玲、牛志康
内容说明:辅助大家更好学习李宏毅老师深度学习视频,并加入相关补充资料,相信你会对机器学习有更加深刻的理解。
任务路线:李宏毅视频+解读辅助
学习周期:14天
定位人群:深度学习初学者,有微积分,线性代数基础
任务预览
Task:深度学习介绍
- 整体介绍深度学习的发展,现状和分类
- 了解深度学习的基础知识
9 /基于transformers的自然语言处理(NLP)入门
开源贡献:多多、erenup、张帆、张贤、李泺秋、蔡杰、hlzhang、段秋阳
内容说明:希望结合形象生动的原理讲解和多个动手实践项目,帮助初学者快速入门深度学习时代的NLP
任务路线:以NLP经典任务和Transformer为主线,配合经典模型讲解和7个经典的代码实践
组队学习周期:16天
定位人群:NLP初学者,有一定的python、pytorch编程基础,了解和知道简单的深度学习模型
任务预览
Task03:编写一个Transformer模型:BERT(2天)
- 3.1-如何实现一个BERT
- 3.2-如何应用一个BERT
- 3.3-篇章小测
数理基础
9 /机器学习数学基础【第一期】
开源贡献:李祖贤、张智涵、戴治旭、黄浩霖、邱广坤
内容说明:本课程主要针对考研的同学,另外如果想系统学习大学数学,或者是想为深造机器学习补充数学基础的的同学也是可以进来的,前提是必须要跟上节奏,不能掉队。
任务路线:以张宇考研数学为主线,进行讲解。第一期为从极限理论到一元函数积分学的计算
学习周期:8月份第一期24天,截至12月共5期
定位人群:2022考研学生
⚠️ 特别提示:本课程跟随组队学习进度开展,可在当月组队学习开始时加入正在进行的学习内容
任务预览
Task01:函数极限与连续性(3天)
青少年编程
11 /Scratch 一级
开源贡献:王思齐、马燕鹏
内容说明:抽取电子学会青少年编程能力等级测试图形化一级的真题来组成试卷,在做题目的过程中掌握图形化编程的基本知识。
任务路线:由于测试题目为往年电子学会Scratch一级考试的真题,所以通过做题来掌握Scratch一级考试的知识点,为通过考试做准备。
组队学习周期:12天
定位人群:对图形化编程感兴趣的小朋友(小学3年级及以上)
任务预览
Task04:测试四(2天)
- 判断题、选择题测试
- 编程题测试
参与学习
快速通道
1. 机器学习:吃瓜教程⭐
开源内容:https://github.com/datawhalechina/pumpkin-book
2. 集成学习⭐⭐⭐
开源内容:https://github.com/datawhalechina/ensemble-learning
3. 数据采集从入门到精通⭐
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/CollectData
4. SQL编程语言⭐
开源内容:https://github.com/datawhalechina/wonderful-sql
5. R语言 数据科学⭐
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/RLanguage
6. 动手学数据分析⭐⭐
开源内容:https://github.com/datawhalechina/hands-on-data-analysis
7. 基于Python的会员数据化运营⭐⭐
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/MemberOperations
8. 李宏毅深度学习⭐⭐
开源内容:https://github.com/datawhalechina/leeml-notes
9. 基于transformers的NLP入门⭐⭐
开源内容:https://github.com/datawhalechina/Learn-NLP-with-Transformers
10. 机器学习数学基础⭐⭐
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/Mathematics
11. 青少年编程(Turtle)⭐
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/Scratch
学习规则
为了我们更好的学习效果,请关注以下规则:
1. 需交督促金3块(1块学习,1块分享,1块成长),按时完成所有任务返还;
2. 需要有Github或博客等公共账号,记录学习笔记打卡;
3. 未按时打卡的同学会被抱出群