CS5488
大数据算法与技术
📘 简介
本课程旨在使学生掌握通过普通计算机集群管理大规模数据集(大数据)的能力,重点介绍 Hadoop 生态系统的使用。课程涵盖分布式数据并行程序的实现、大规模数据分析系统的内部机制,以及实际大数据解决方案的案例研究。
🔗 相关链接
🎯 学习目标
完成课程后,学生将能够:
✔️ 识别并解释大规模数据处理问题中的数据并行性;
✔️ 使用课程中介绍的技术实现数据并行算法;
✔️ 描述并解释 Hadoop 框架的内部机制;
✔️ 设计可扩展的解决方案用于解决实际问题,并为设计决策提供合理化说明;
✔️ 通过案例研究分析现实世界中已部署的大数据解决方案。
📊 评估方式
| 评估项目 | 权重 | 具体描述 |
|---|---|---|
| 📝 Class Project | 40% | 分析 Hadoop 系统中的实际用例,设计并实现大数据解决方案。 |
| 📄 Lab Sheets | 10% | 熟悉大数据工具并实现数据并行算法。 |
| 🖥️ Final Examination | 50% | 综合评估学生对大数据算法和技术的理解,考试时间为 2 小时,最低通过分数需达到考试总分的 30%。 |
注意:必须在考试中取得至少 30% 的分数才能通过课程。