首頁  >  文章  >  Java  >  Java基礎入門到實戰應用:大數據實戰分析

Java基礎入門到實戰應用:大數據實戰分析

WBOY
WBOY原創
2024-05-07 16:33:01484瀏覽

本教學從 Java 基礎到實戰,帶你掌握大數據分析技能。包括 Java 基礎(變數、控制流、類別等),大數據工具(Hadoop 生態系統、Spark、Hive),以及實戰案例:從 OpenFlights 取得航班資料。使用 Hadoop 讀取和處理數據,分析航班目的地最頻繁的機場。使用 Spark 深入分析,找出到達目的地最晚的航班。使用 Hive 互動式分析數據,統計每個機場的航班數量。

Java基礎入門到實戰應用:大數據實戰分析

Java 基礎入門到實戰應用:大數據實戰分析

引言

隨著大數據時代的到來,掌握大數據分析技能變得至關重要。本教學將帶領你從 Java 基礎入門到使用 Java 進行大數據實戰分析。

Java 基礎

  • 變數、資料型別與運算子
  • 控制流(if-else、for、while)
  • 類別、物件和方法
  • 陣列和集合(列表、映射、集合)

大資料分析工具

  • Hadoop 生態系統(Hadoop、MapReduce、HDFS)
  • Spark
  • #Hive

實戰案例:使用Java 分析航班資料

步驟1:取得資料

從OpenFlights 資料集下載航班資料。

步驟 2:使用 Hadoop 讀寫資料

使用 Hadoop 和 MapReduce 讀取和處理資料。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlightStats {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Flight Stats");
        job.setJarByClass(FlightStats.class);

        job.setMapperClass(FlightStatsMapper.class);
        job.setReducerClass(FlightStatsReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);
    }

    public static class FlightStatsMapper extends Mapper<Object, Text, Text, IntWritable> {
        @Override
        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String[] line = value.toString().split(",");
            context.write(new Text(line[1]), new IntWritable(1));
        }
    }

    public static class FlightStatsReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        @Override
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            context.write(key, new IntWritable(sum));
        }
    }
}

步驟 3:使用 Spark 進一步分析

使用 Spark DataFrame 和 SQL 查詢分析資料。

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class FlightStatsSpark {

    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder().appName("Flight Stats Spark").getOrCreate();

        Dataset<Row> flights = spark.read().csv("hdfs:///path/to/flights.csv");

        flights.createOrReplaceTempView("flights");

        Dataset<Row> top10Airports = spark.sql("SELECT origin, COUNT(*) AS count FROM flights GROUP BY origin ORDER BY count DESC LIMIT 10");

        top10Airports.show(10);
    }
}

步驟 4:使用 Hive 互動式查詢

使用 Hive 互動式查詢分析資料。

CREATE TABLE flights (origin STRING, dest STRING, carrier STRING, dep_date STRING, dep_time STRING, arr_date STRING, arr_time STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA INPATH 'hdfs:///path/to/flights.csv' OVERWRITE INTO TABLE flights;

SELECT origin, COUNT(*) AS count FROM flights GROUP BY origin ORDER BY count DESC LIMIT 10;

結論

透過本教程,你已經掌握了 Java 基礎和使用 Java 進行大數據實戰分析的技能。透過了解 Hadoop、Spark 和 Hive,你能夠有效率地分析大數據集,從中提取有價值的見解。

以上是Java基礎入門到實戰應用:大數據實戰分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn