Business School
商学院
手机:13521943680
电话:010-62904558
数据科学基础培训课程
数据科学基础培训课程,《数据科学基础》对数据科学的许多基本概念和工具进行了全面的概述,包括数据质量和数据预处理、监督和无监督学习技术(包括它们的评估)、频繁项集和关联规则、序列挖掘、过程挖掘、文本挖掘和负责任的数据科学。
关于本课程
“数据科学基础”旨在为参与者提供数据科学基本挑战、概念和工具的全面概述。内容可以组织在数据科学的三个主要领域:
首先,简要概述了与数量和速度有关的数据科学基础设施。主题包括仪器仪表、大数据基础设施和分布式系统、数据库和数据管理。主要挑战是使事物可扩展和即时。
本课程的主要重点是与从数据中提取知识有关的数据分析。涵盖的关键主题是数据探索和可视化、数据预处理、数据质量问题和转换、各种监督学习技术及其评估、无监督学习、聚类、模式挖掘、过程挖掘和文本挖掘。数据分析的主要挑战是为已知和未知的未知提供答案。
最后,数据科学影响人们、组织和社会。课程结束时讨论了挑战,并提供了负责任地应用数据科学技术的指导方针和技术,重点是保密和公平。主题包括道德和隐私、信息技术法、人与技术的互动、运营管理、商业模式、企业家精神,主要挑战是以负责任的方式完成上述所有工作。
在整个课程中,视频中传达的想法和概念得到了使用Python(Jupyter笔记本)的实践练习的补充。参与者将被引导将所介绍的技术应用于人工和现实生活中的数据集,以获得宝贵的实践经验。
课程结束后,参与者应该对更广泛的数据科学领域的最佳实践、挑战、目标和概念有一个很好的概述,为在这个快速发展的领域进一步学习或专业发展提供坚实的基础。通过与常用Python库的实践经验相结合,参与者将能够在自己的项目中概念化和实施各种基本数据分析技术,并准确评估和解释分析结果。
•
•
• 科目: 计算机科学
• 级别:中级
• 先决条件:
对数据科学感兴趣的任何学科的每个人都可以开始这门课程。我们希望这门课程对每个人都有用。数学的先验知识是有优势的(即数学符号、线性代数、随机和统计),但不是强制性的。
• 语言:英语
• 视频成绩单:英文
你会学到什么
参加本课程后,参与者将获得:
• 了解数据科学在当今社会和企业中的作用,包括挑战和机遇
• 对广泛的数据科学技术有很好的总体概述
• 能够概念化和基本数据分析,并准确评估和解释结果
• 了解负责任数据科学的挑战(公平、准确、保密、透明)和可能的解决方案
• 了解机器学习、数据挖掘和人工智能技术的局限性
• 能够编写简短的Python程序并使用主流Python库
• 特别是理解和应用以下数据分析概念和技术的能力:
• 数据可视化和探索技术
• 决策树
• 线性和逻辑回归(基本概述)
• 支持向量机(基本概述)
• 神经网络(基本概述)
• 朴素贝叶斯分类(基本概述)
• 评价和解释监督学习的结果
• 聚类技术
• 常用项集
• 关联规则
• 序列挖掘
• 过程挖掘
• 文本挖掘
• 数据预处理、数据转换、数据质量问题的发现和处理
• 在不违反机密性和公平性的情况下应用数据分析技术
教学大纲
第1周:介绍、数据探索和可视化
在本周的前半周,我们将提供课程概述,并说明应用数据科学技术时的优势和挑战。学生将获得数据科学管道、数据源和数据类型、数据分析技术及其应用相关挑战的概述。
下半周重点关注基础数据探索、可视化和转化技术。
第2周:监督学习技巧
在本周的前半部分,学生将深入研究使用决策树进行数据分析。我们介绍了基本的ID3算法及其对不同信息增益概念的扩展,以及剪枝技术、随机森林和决策树对连续数据的适用性。
下半周致力于简要概述其他监督学习技术(对细节感兴趣的学生可以参考“机器学习基础”课程,该课程也是BridgingAI课程系列的一部分)。这些技术包括线性回归、逻辑回归、支持向量机(SVM)、神经网络和朴素贝叶斯分类。
第3周:监督学习、数据质量和预处理的评估
本周前半部分致力于监督学习技术及其产生的模型的评估。我们介绍了混淆矩阵、ROC曲线、R2系数和交叉验证,包括它们对特定目标或背景的扩展和适应。此外,还强调了关于监督学习技术评估和解释的挑战和陷阱。
在下半周,学生将学习数据质量问题、原因和避免策略,以及处理异常值或缺失值的可能方法。此外,还概述了数据转换、数据缩减和归一化技术。
第4周:聚类、常见项集
在本周的前半部分,聚类作为第一个无监督学习技术被介绍。特别是,我们介绍了各种相似度度量、k-means和k-medoid算法、基于密度的聚类(DBSCAN),并概述了凝聚聚类技术和自组织映射(SOM)。
下半周重点介绍频繁项集。解释了计算此类项集的两种算法:直接的Apriori方法和更有效的FP-生长算法。
第5周:关联规则挖掘、序列挖掘
本周,我们基于频繁项集的概念来生成和评估关联规则。此外,我们还使用关联规则来说明辛普森悖论。
下半周围绕序列挖掘展开,特别是A