通过IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建鸢尾花决策树分类预测模型，这是一个分类模型案例，通过该案例，可以快速了解Spark MLlib分类预测模型的使用方法。

依赖

ThisBuild / version := "0.1.0-SNAPSHOT"  
  
ThisBuild / scalaVersion := "2.13.11"  
  
lazy val root = (project in file("."))  
  .settings(  
    name := "SparkLearning",  
    idePackagePrefix := Some("cn.lh.spark"),  
    libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.4.1",  
    libraryDependencies += "org.apache.spark" %% "spark-core" % "3.4.1",  
    libraryDependencies += "org.apache.hadoop" % "hadoop-auth" % "3.3.6",     libraryDependencies += "org.apache.spark" %% "spark-streaming" % "3.4.1",  
    libraryDependencies += "org.apache.spark" %% "spark-streaming-kafka-0-10" % "3.4.1",  
    libraryDependencies += "org.apache.spark" %% "spark-mllib" % "3.4.1",  
    libraryDependencies += "mysql" % "mysql-connector-java" % "8.0.30"  
)

完整代码

package cn.lh.spark  
  
import org.apache.spark.ml.{Pipeline, PipelineModel}  
import org.apache.spark.ml.classification.{DecisionTreeClassificationModel, DecisionTreeClassifier}  
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator  
import org.apache.spark.ml.feature.{IndexToString, StringIndexer, StringIndexerModel, VectorIndexer, VectorIndexerModel}  
import org.apache.spark.ml.linalg.Vectors  
import org.apache.spark.rdd.RDD  
import org.apache.spark.sql.{DataFrame, SparkSession}  
  
  
/**  
 * 决策树分类器,实现鸢尾花分类  
 */  
  
//case class Iris(features: org.apache.spark.ml.linalg.Vector, label: String)  // MLlibLogisticRegression 中存在该样例类，这里不用写,一个包里不存在这个样例类时需要写
  
object MLlibDecisionTreeClassifier {  
  
  def main(args: Array[String]): Unit = {  
  
    val spark: SparkSession = SparkSession.builder().master("local[2]")  
      .appName("Spark MLlib DecisionTreeClassifier").getOrCreate()  
  
    val irisRDD: RDD[Iris] = spark.sparkContext.textFile("F:\\niit\\2023\\2023_2\\Spark\\codes\\data\\iris.txt")  
      .map(_.split(",")).map(p =>  
      Iris(Vectors.dense(p(0).toDouble, p(1).toDouble, p(2).toDouble, p(3).toDouble), p(4).toString()))  
  
    import spark.implicits._  
    val data: DataFrame = irisRDD.toDF()  
    data.show()  
  
    data.createOrReplaceTempView("iris")  
    val df: DataFrame = spark.sql("select * from iris")  
  
    println("鸢尾花原始数据如下：")  
    df.map(t => t(1)+":"+t(0)).collect().foreach(println)  
  
    //    处理特征和标签，以及数据分组  
    val labelIndexer: StringIndexerModel = new StringIndexer().setInputCol("label").setOutputCol(  
      "indexedLabel").fit(df)  
  
    val featureIndexer: VectorIndexerModel = new VectorIndexer().setInputCol("features")  
      .setOutputCol("indexedFeatures").setMaxCategories(4).fit(df)  
    //这里我们设置一个labelConverter，目的是把预测的类别重新转化成字符型的  
    val labelConverter: IndexToString = new IndexToString().setInputCol("prediction")  
      .setOutputCol("predictedLabel").setLabels(labelIndexer.labels)  
  
    //接下来，我们把数据集随机分成训练集和测试集，其中训练集占70%。  
    val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3))  
  
    val dtClassifier: DecisionTreeClassifier = new DecisionTreeClassifier()  
      .setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures")  
  
    //在pipeline中进行设置  
    val pipelinedClassifier: Pipeline = new Pipeline()  
      .setStages(Array(labelIndexer, featureIndexer, dtClassifier, labelConverter))  
    //训练决策树模型  
    val modelClassifier: PipelineModel = pipelinedClassifier.fit(trainingData)  
    //进行预测  
    val predictionsClassifier: DataFrame = modelClassifier.transform(testData)  
    predictionsClassifier.select("predictedLabel", "label", "features").show(5)  
  
    //    评估决策树分类模型  
    val evaluatorClassifier: MulticlassClassificationEvaluator = new MulticlassClassificationEvaluator()  
      .setLabelCol("indexedLabel")  
      .setPredictionCol("prediction").setMetricName("accuracy")  
    val accuracy: Double = evaluatorClassifier.evaluate(predictionsClassifier)  
    println("Test Error = " + (1.0 - accuracy))  
  
    val treeModelClassifier: DecisionTreeClassificationModel = modelClassifier.stages(2)  
      .asInstanceOf[DecisionTreeClassificationModel]  
  
    println("Learned classification tree model:\n" + treeModelClassifier.toDebugString)  
  
  
    spark.stop()  
  }  
  
}

国内人工智能/算法比赛平台汇总

阿里天池：https://tianchi.aliyun.com/ DataFountain：https://www.datafountain.cn/ 背后由政府支持的人工智能算法平台京东JDATA：https://jdata.jd.com/ DC竞赛：ht

matlab 0-1稀疏矩阵,matlab计算基础——矩阵与稀疏矩阵（1）

本人刚开始学习matlab的一些基础知识，记录下来以便日后查阅。若有错误，请批评指正 1、矩阵的赋值将A的第一行第二列赋给矩阵C >>C=A(1,2) C= 2 将矩阵B的第二列赋值

Red Hat Inc 安装Oracle

昨天整理了一下在安装Oracle的过程中遇到的问题，写个小笔记。 1、修改IP地址，关闭selinux以及关闭防火墙修改IP的方法在这里

Linux服务器维护常用命令

　　系统信息　　arch 显示机器的处理器架构(1) 　　uname -m 显示机器的处理器架构(2) 　　uname -r 显示正在使用的内核版本　　　　关机 (系统的关机、重启以及登出 )

计蒜客之字符乘积

给定两个数字组成的字符串，计算他们的乘积。乘积依然是字符串注意：数字可以是任意大小，而且非负数。一定要注意溢出哦~亲格式

Docker部署配置nginx反向代理、负载均衡（权重轮询）

Docker部署配置nginx反向代理、负载均衡（权重轮询）一、Nginx配置文件解读

数据仓库系列之ETL过程和ETL工具

上周因为在处理很多数据源集成的事情一直没有更新系列文章，在这周后开始规律更新。在维度建模中我们已经了解数据仓库中的维度建模方法以及基本要素，在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ETL工具。一、什么是ETL？构建数据仓库

自动驾驶【路径规划/决策规划】初探

自定义类 SpringBeanUtil 管理 Spring 容器中的 Bean

@Component public class SpringBeanUtil implements ApplicationContextAware { private static ApplicationContext

计算机中减法英语,计算机中的减法运算

学习过计算机组成原理的同学可能知道，虽然我们可以让计算机做减法运算，但是计算机内部实际上是在做加法运算。因为加、减、乘、除四则运算都可以分解成加法运算和位移运算，而且计算机也只会处理这两种简单的运算，所以计算机内部会通过一个叫作加法器的电子元件来处理减法运算。将减

淘先锋技术网

【IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 构建鸢尾花决策树分类预测模型】

决策树进行鸢尾花分类的案例

背景说明：

依赖

完整代码