跳到主要内容

CS5488

大数据算法与技术

📘 简介

本课程旨在使学生掌握通过普通计算机集群管理大规模数据集(大数据)的能力,重点介绍 Hadoop 生态系统的使用。课程涵盖分布式数据并行程序的实现、大规模数据分析系统的内部机制,以及实际大数据解决方案的案例研究。

🔗 相关链接


🎯 学习目标

完成课程后,学生将能够:

✔️ 识别并解释大规模数据处理问题中的数据并行性;

✔️ 使用课程中介绍的技术实现数据并行算法;

✔️ 描述并解释 Hadoop 框架的内部机制;

✔️ 设计可扩展的解决方案用于解决实际问题,并为设计决策提供合理化说明;

✔️ 通过案例研究分析现实世界中已部署的大数据解决方案。


📊 评估方式

评估项目权重具体描述
📝 Class Project40%分析 Hadoop 系统中的实际用例,设计并实现大数据解决方案。
📄 Lab Sheets10%熟悉大数据工具并实现数据并行算法。
🖥️ Final Examination50%综合评估学生对大数据算法和技术的理解,考试时间为 2 小时,最低通过分数需达到考试总分的 30%。

注意:必须在考试中取得至少 30% 的分数才能通过课程。