大数据应用开发–概述
1. 大数据应用开发简介
1.1 数据分析的概念
数据分析就是利用数学、统计学理论相结合科学统计分析方法对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。
数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后,将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。
1.2 数据可视化的概念
数据可视化旨在借助图形化的手段,将一组数据以图形的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。
2. 常用模块
2.1 Numpy
Numpy模块是一个用于实现科学计算的库,尤其是在实现数据分析时,该模块是一个必不可少的基础库。
Numpy模块不仅支持大量的维度数组与矩阵运算,还针对数组运算提供大量的数学函数库。
2.2 Pandas
Pandas是一个开源库,主要为Python提供高性能、易于使用的数据结构和数据分析工具。
Pandas的数据结构中有两个核心,分别是Series与DataFrame。
2.3 matplotlib
Matplotlib是一个Python绘图库,它不仅可以绘制2D图表,还可以绘制3D图表。
中间的“plot”表示绘图,而结尾的“lib”表示它是一个集合。
2.4 scikit-learn
scikit-learn模块是一个简单有效的数据挖掘和数据分析工具
scikit-learn模块是基于numpy、scipy基础上的模块。
3. 开发工具与环境
3.1 什么是jupyter?
Jupyter(全称Jupyter Notebook)是一个交互式编辑器,它支持运行40多种编程语言,便于创建和共享文档。Jupyter本质上是一个Web应用程序,与其他编辑器相比,它具有小巧灵活、支持实时代码、方便图表展示等优点。
3.2 安装与使用Jupyter
3.2.1 安装jupyter工具
使用pip工具可以方便地安装Jupyter。pip工具是Python的包管理工具,Python 3.4以上的解释器自带了pip管理工具。
安装命令如下:
pip install jupyter notebook
下面是已经安装好的
输出如下信息表明jupyter工具安装成功
Installing collected packages: jupyter
Successfully installed jupyter-1.0.0
3.2.2 使用jupyter
以E:\python目录为例,在该目录下打开命令行窗口,输入Jupyter的启动命令。
执行Jupyter的启动命令后,会在默认的浏览器中呈现Jupyter主界面。
单击文件列表右上方的“New”,在弹出的下拉列表中选择“Python 3”,直接创建一个Python文件。
创建Python文件后,Jupyter会在浏览器中打开一个新的页面。
在Jupyter文件页面的“In [ ]:”后的文本框中输入如下代码:
print('hello world!')
单击文本框上方的“运行(shift+enter)”按钮,程序执行结果将会在文本框下方直接输出,具体如下图所示。
使用快捷键Ctrl+S(或修改文件页面的文件名)可以将当前页面中编辑的代码和代码的运行结果都保存在以“.ipynb”为后缀名的文件中,保存后的文件将会出现在Jupyter主界面的文件列表中,单击列表中的文件,可在浏览器中打开并继续使用文件。
3.2.3 安装数据库处理库
利用Python内置的pip工具可以非常方便地安装Python第三方库,安装命令的格式如下:
pip install 模块/库名
pip install numpy pandas
在Jupyter中导入numpy、pandas库,若运行后没有出现任何报错信息,说明库安装成功。如下:
Installing collected packages: numpy, pandas
Successfully installed numpy-1.19.0 pandas-1.1.0