大数据分析基础

—— Bin FANG @ Xiamen University

通知

周次理论课内容实验课内容
1大数据分析简介
2Python基础1演示代码Python基础1
3Python基础2Python基础2
4Python数据获取演示代码Python基础3
5数据库基础及应用SQL演示代码网络数据爬取练习
6数据库基础及应用Python演示代码数据库练习
7数据整理与可视化演示代码相关文件Python数据整理
8小组作业展示统计分析

webdriver for Chrome:官方下载地址实验室适配版本下载 (MacOS中的Safari不需要下载webdriver,Edge不需要下载webdriver)

Python教材推荐:《A Byte of Python》,中译本:《简明Python教程》(在线阅读)。

可视化参考资料:《用数据讲故事》(作者:Cole Nussbaumer Knaflic);《ggplot2:数据分析与图形艺术》(作者:哈德利·威克曼),适合入门;《R语言数据可视化之美——专业图表绘制指南》(作者:张杰),适合进阶。

数据库参考资料:《数据库系统概论》(作者:王珊、萨师煊);《实战Hadoop——开启通向云计算的捷径》(作者:刘鹏、黄宜华、陈卫卫)

统计分析参考资料:《Introductory Econometrics: A Modern Approach》(作者:Jeffrey Wooldridge)

小组作业

抓取某个网站数据并进行分析,最后一次课进行课堂展示。要求:
1)可自由选择网站
2)总数据条数不得少于5万
3)对所抓取数据进行合理的可视化展示并给出具有管理意义的结论
4)自由组队,最多5个人
5)每组展示时间8-10分钟,课前打印一份ppt上交或者课前一小时发送电子版给我(打印尽量节约用纸,可在一页纸上放多页ppt、双面打印)
6)数据抓取、清理、可视化需要使用Python,关键代码截图展示在ppt中