【数据挖掘】Matplotlib
- IT业界
- 2025-09-17 17:57:01

Matplotlib 是 Python 最常用的 数据可视化 库之一,在数据挖掘过程中,主要用于 数据探索 (EDA)、趋势分析、模式识别 和 结果展示。
📌 1. Matplotlib 基础 1.1 安装 & 导入 # 如果未安装 Matplotlib,请先安装 # pip install matplotlib import matplotlib.pyplot as plt import numpy as np 1.2 基本绘图 x = np.linspace(0, 10, 100) # 生成 100 个 0-10 之间的等距点 y = np.sin(x) plt.plot(x, y) # 画图 plt.xlabel("X 轴") # X 轴标签 plt.ylabel("Y 轴") # Y 轴标签 plt.title("Sine Wave") # 图标题 plt.grid(True) # 添加网格 plt.show() # 显示图像
📌 输出: 绘制 正弦曲线 📈
📌 2. 常见图表类型 2.1 折线图 (Line Plot) x = np.arange(1, 11) y = np.random.randint(10, 100, size=10) plt.plot(x, y, marker="o", linestyle="-", color="b", label="数据趋势") plt.legend() plt.show()
📌 适用场景: 用于 趋势分析 和 时间序列数据
2.2 散点图 (Scatter Plot) x = np.random.rand(50) y = np.random.rand(50) plt.scatter(x, y, color="g", alpha=0.7) # 透明度 alpha 控制点的透明度 plt.title("Scatter Plot") plt.show()
📌 适用场景: 适合用于 关系分析、聚类分析
2.3 柱状图 (Bar Chart) categories = ["A", "B", "C", "D", "E"] values = [10, 25, 15, 30, 20] plt.bar(categories, values, color="orange") plt.title("Bar Chart Example") plt.show()
📌 适用场景: 适用于 类别数据分析
2.4 直方图 (Histogram) data = np.random.randn(1000) # 生成 1000 个随机数 plt.hist(data, bins=30, color="purple", alpha=0.75) plt.title("Histogram Example") plt.show()
📌 适用场景: 适合 分布分析,如 正态分布检验
2.5 盒须图 (Box Plot) data = [np.random.rand(100) * i for i in range(1, 5)] plt.boxplot(data, patch_artist=True) plt.title("Box Plot Example") plt.show()
📌 适用场景: 适合 异常值分析、数据分布分析
📌 3. 进阶绘图技巧 3.1 子图 (Subplot) fig, axes = plt.subplots(2, 2, figsize=(10, 8)) x = np.linspace(0, 10, 100) axes[0, 0].plot(x, np.sin(x)) axes[0, 0].set_title("Sine Wave") axes[0, 1].scatter(np.random.rand(50), np.random.rand(50)) axes[0, 1].set_title("Scatter Plot") axes[1, 0].bar(["A", "B", "C"], [10, 20, 30]) axes[1, 0].set_title("Bar Chart") axes[1, 1].hist(np.random.randn(1000), bins=30) axes[1, 1].set_title("Histogram") plt.tight_layout() # 自动调整子图间距 plt.show()
📌 适用场景: 在 一个画布上同时绘制多个图表
3.2 统计相关性分析 import seaborn as sns import pandas as pd # 生成随机数据 df = pd.DataFrame(np.random.rand(10, 4), columns=["A", "B", "C", "D"]) # 计算相关性 correlation_matrix = df.corr() # 相关性热图 plt.figure(figsize=(8, 6)) sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", linewidths=0.5) plt.title("Correlation Matrix Heatmap") plt.show()
📌 适用场景: 特征工程、变量相关性分析
3.3 动态更新数据 import time plt.ion() # 开启交互模式 fig, ax = plt.subplots() x = [] y = [] for i in range(10): x.append(i) y.append(np.random.randint(1, 10)) ax.clear() ax.plot(x, y, marker="o", linestyle="-", color="b") plt.pause(0.5) plt.ioff() # 关闭交互模式 plt.show()
📌 适用场景: 实时数据可视化,如股市走势
📌 4. Matplotlib 在数据挖掘中的应用 数据挖掘任务适用图表数据探索 (EDA)直方图、盒须图、散点图趋势分析折线图相关性分析热图、散点图异常值检测盒须图分类数据分析柱状图数据分布分析直方图
📌 5. 总结
Matplotlib 在数据挖掘中的核心作用: ✅ 数据可视化:帮助理解数据的分布、趋势、相关性 ✅ 异常值检测:通过箱线图、散点图检测异常点 ✅ 模式识别:发现数据中的模式或聚类结构 ✅ 结果展示:清晰直观地展示数据分析和挖掘结果
【数据挖掘】Matplotlib由讯客互联IT业界栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“【数据挖掘】Matplotlib”
上一篇
绪论(3)