2021年大数据Flink（十五）：流批一体API Connectors Kafka

2021-04-29 18:03 514人阅读评论(0)

Kafka

pom依赖

Kafka

pom依赖

Flink 里已经提供了一些绑定的 Connector，例如 kafka source 和 sink，Es sink 等。读写 kafka、es、rabbitMQ 时可以直接使用相应 connector 的 api 即可，虽然该部分是 Flink 项目源代码里的一部分，但是真正意义上不算作 Flink 引擎相关逻辑，并且该部分没有打包在二进制的发布包里面。所以在提交 Job 时候需要注意， job 代码 jar 包中一定要将相应的 connetor 相关类打包进去，否则在提交作业时就会失败，提示找不到相应的类，或初始化某些类异常。

https://ci.apache.org/projects/flink/flink-docs-stable/dev/connectors/kafka.html

参数设置

以下参数都必须/建议设置上

1.订阅的主题

2.反序列化规则

3.消费者属性-集群地址

4.消费者属性-消费者组id(如果不设置,会有默认的,但是默认的不方便管理)

5.消费者属性-offset重置规则,如earliest/latest...

6.动态分区检测(当kafka的分区数变化/增加时,Flink能够检测到!)

7.如果没有设置Checkpoint,那么可以设置自动提交offset,后续学习了Checkpoint会把offset随着做Checkpoint的时候提交到Checkpoint和默认主题中

参数说明

实际的生产环境中可能有这样一些需求，比如：

l场景一：有一个 Flink 作业需要将五份数据聚合到一起，五份数据对应五个 kafka topic，随着业务增长，新增一类数据，同时新增了一个 kafka topic，如何在不重启作业的情况下作业自动感知新的 topic。

l场景二：作业从一个固定的 kafka topic 读数据，开始该 topic 有 10 个 partition，但随着业务的增长数据量变大，需要对 kafka partition 个数进行扩容，由 10 个扩容到 20。该情况下如何在不重启作业情况下动态感知新扩容的 partition？

针对上面的两种场景，首先需要在构建 FlinkKafkaConsumer 时的 properties 中设置 flink.partition-discovery.interval-millis 参数为非负值，表示开启动态发现的开关，以及设置的时间间隔。此时 FlinkKafkaConsumer 内部会启动一个单独的线程定期去 kafka 获取最新的 meta 信息。

l针对场景一，还需在构建 FlinkKafkaConsumer 时，topic 的描述可以传一个正则表达式描述的 pattern。每次获取最新 kafka meta 时获取正则匹配的最新 topic 列表。

l针对场景二，设置前面的动态发现参数，在定期获取 kafka 最新 meta 信息时会匹配新的 partition。为了保证数据的正确性，新发现的 partition 从最早的位置开始读取。

注意:

开启 checkpoint 时 offset 是 Flink 通过状态 state 管理和恢复的，并不是从 kafka 的 offset 位置恢复。在 checkpoint 机制下，作业从最近一次checkpoint 恢复，本身是会回放部分历史数据，导致部分数据重复消费，Flink 引擎仅保证计算状态的精准一次，要想做到端到端精准一次需要依赖一些幂等的存储系统或者事务操作。

Kafka命令

● 查看当前服务器中的所有topic

/export/server/kafka/bin/kafka-topics.sh --list --zookeeper  node1:2181

● 创建topic

/export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 2 --partitions 3 --topic flink_kafka

● 查看某个Topic的详情

/export/server/kafka/bin/kafka-topics.sh --topic flink_kafka --describe --zookeeper node1:2181

● 删除topic

/export/server/kafka/bin/kafka-topics.sh --delete --zookeeper node1:2181 --topic flink_kafka

● 通过shell命令发送消息

/export/server/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic flink_kafka

● 通过shell消费消息

/export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic flink_kafka --from-beginning

● 修改分区

 /export/server/kafka/bin/kafka-topics.sh --alter --partitions 4 --topic flink_kafka --zookeeper node1:2181

代码实现-Kafka Consumer


  
   
    
     
    
    
     
      package cn.itcast.connectors;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.functions.FlatMapFunction;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.serialization.SimpleStringSchema;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.java.tuple.Tuple;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.java.tuple.Tuple2;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.DataStreamSource;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.KeyedStream;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
     
    
   
    
     
    
    
     
      import org.apache.flink.util.Collector;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import java.util.Properties;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      /**
     
    
   
    
     
    
    
     
       * Author itcast
     
    
   
    
     
    
    
     
       * Desc
     
    
   
    
     
    
    
     
       * 需求:使用flink-connector-kafka_2.12中的FlinkKafkaConsumer消费Kafka中的数据做WordCount
     
    
   
    
     
    
    
     
       * 需要设置如下参数:
     
    
   
    
     
    
    
     
       * 1.订阅的主题
     
    
   
    
     
    
    
     
       * 2.反序列化规则
     
    
   
    
     
    
    
     
       * 3.消费者属性-集群地址
     
    
   
    
     
    
    
     
       * 4.消费者属性-消费者组id(如果不设置,会有默认的,但是默认的不方便管理)
     
    
   
    
     
    
    
     
       * 5.消费者属性-offset重置规则,如earliest/latest...
     
    
   
    
     
    
    
     
       * 6.动态分区检测(当kafka的分区数变化/增加时,Flink能够检测到!)
     
    
   
    
     
    
    
     
       * 7.如果没有设置Checkpoint,那么可以设置自动提交offset,后续学习了Checkpoint会把offset随着做Checkpoint的时候提交到Checkpoint和默认主题中
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     
      public 
      class ConnectorsDemo_KafkaConsumer {
     
    
   
    
     
    
    
     
          
      public 
      static 
      void main(
      String[] args) throws Exception {
     
    
   
    
     
    
    
     
              
      //1.env
     
    
   
    
     
    
    
     
              StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
     
    
   
    
     
    
    
     
              
      //2.Source
     
    
   
    
     
    
    
     
              Properties props  = 
      new Properties();
     
    
   
    
     
    
    
     
              props.setProperty(
      "bootstrap.servers", 
      "node1:9092");
     
    
   
    
     
    
    
     
              props.setProperty(
      "group.id", 
      "flink");
     
    
   
    
     
    
    
     
              props.setProperty(
      "auto.offset.reset",
      "latest");
     
    
   
    
     
    
    
     
              props.setProperty(
      "flink.partition-discovery.interval-millis",
      "5000");
      //会开启一个后台线程每隔5s检测一下Kafka的分区情况
     
    
   
    
     
    
    
     
              props.setProperty(
      "enable.auto.commit", 
      "true");
     
    
   
    
     
    
    
     
              props.setProperty(
      "auto.commit.interval.ms", 
      "2000");
     
    
   
    
     
    
    
     
              
      //kafkaSource就是KafkaConsumer
     
    
   
    
     
    
    
     
              FlinkKafkaConsumer<
      String> kafkaSource = 
      new FlinkKafkaConsumer<>(
      "flink_kafka", 
      new SimpleStringSchema(), props);
     
    
   
    
     
    
    
     
              kafkaSource.setStartFromGroupOffsets();
      //设置从记录的offset开始消费,如果没有记录从auto.offset.reset配置开始消费
     
    
   
    
     
    
    
     
              
      //kafkaSource.setStartFromEarliest();//设置直接从Earliest消费,和auto.offset.reset配置无关
     
    
   
    
     
    
    
     
              DataStreamSource<
      String> kafkaDS = env.addSource(kafkaSource);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //3.Transformation
     
    
   
    
     
    
    
     
              
      //3.1切割并记为1
     
    
   
    
     
    
    
     
              SingleOutputStreamOperator<Tuple2<
      String, Integer>> wordAndOneDS = kafkaDS.flatMap(
      new FlatMapFunction<
      String, Tuple2<
      String, Integer>>() {
     
    
   
    
     
    
    
     
                  
      @Override
     
    
   
    
     
    
    
     
                  
      public 
      void flatMap(
      String value, Collector<Tuple2<
      String, Integer>> out) throws Exception {
     
    
   
    
     
    
    
     
                      
      String[] words = value.split(
      " ");
     
    
   
    
     
    
    
     
                      
      for (
      String word : words) {
     
    
   
    
     
    
    
     
                          out.collect(Tuple2.of(word, 
      1));
     
    
   
    
     
    
    
     
                      }
     
    
   
    
     
    
    
     
                  }
     
    
   
    
     
    
    
     
              });
     
    
   
    
     
    
    
     
              
      //3.2分组
     
    
   
    
     
    
    
     
              KeyedStream<Tuple2<
      String, Integer>, Tuple> groupedDS = wordAndOneDS.keyBy(
      0);
     
    
   
    
     
    
    
     
              
      //3.3聚合
     
    
   
    
     
    
    
     
              SingleOutputStreamOperator<Tuple2<
      String, Integer>> result = groupedDS.sum(
      1);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //4.Sink
     
    
   
    
     
    
    
     
              result.print();
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //5.execute
     
    
   
    
     
    
    
     
              env.execute();
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
     
      }

代码实现-Kafka Producer

需求:

将Flink集合中的数据通过自定义Sink保存到Kafka

代码实现


  
   
    
     
    
    
     
      package cn.itcast.connectors;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import com.alibaba.fastjson.JSON;
     
    
   
    
     
    
    
     
      import lombok.AllArgsConstructor;
     
    
   
    
     
    
    
     
      import lombok.Data;
     
    
   
    
     
    
    
     
      import lombok.NoArgsConstructor;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.functions.MapFunction;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.serialization.SimpleStringSchema;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.DataStreamSource;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import java.util.Properties;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      /**
     
    
   
    
     
    
    
     
       * Author itcast
     
    
   
    
     
    
    
     
       * Desc
     
    
   
    
     
    
    
     
       * 使用自定义sink-官方提供的flink-connector-kafka_2.12-将数据保存到Kafka
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     
      public 
      class ConnectorsDemo_KafkaProducer {
     
    
   
    
     
    
    
     
          
      public 
      static 
      void main(
      String[] args) throws Exception {
     
    
   
    
     
    
    
     
              
      //1.env
     
    
   
    
     
    
    
     
              StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
     
    
   
    
     
    
    
     
              
      //2.Source
     
    
   
    
     
    
    
     
              DataStreamSource<Student> studentDS = env.fromElements(
      new Student(
      1, 
      "tonyma", 
      18));
     
    
   
    
     
    
    
     
              
      //3.Transformation
     
    
   
    
     
    
    
     
              
      //注意:目前来说我们使用Kafka使用的序列化和反序列化都是直接使用最简单的字符串,所以先将Student转为字符串
     
    
   
    
     
    
    
     
              
      //可以直接调用Student的toString,也可以转为JSON
     
    
   
    
     
    
    
     
              SingleOutputStreamOperator<
      String> jsonDS = studentDS.map(
      new MapFunction<Student, 
      String>() {
     
    
   
    
     
    
    
     
                  
      @Override
     
    
   
    
     
    
    
     
                  
      public 
      String map(Student value) throws Exception {
     
    
   
    
     
    
    
     
                      
      //String str = value.toString();
     
    
   
    
     
    
    
     
                      
      String jsonStr = 
      JSON.toJSONString(value);
     
    
   
    
     
    
    
     
                      
      return jsonStr;
     
    
   
    
     
    
    
     
                  }
     
    
   
    
     
    
    
     
              });
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //4.Sink
     
    
   
    
     
    
    
     
              jsonDS.print();
     
    
   
    
     
    
    
     
              
      //根据参数创建KafkaProducer/KafkaSink
     
    
   
    
     
    
    
     
              Properties props = 
      new Properties();
     
    
   
    
     
    
    
     
              props.setProperty(
      "bootstrap.servers", 
      "node1:9092");
     
    
   
    
     
    
    
     
              FlinkKafkaProducer<
      String> kafkaSink = 
      new FlinkKafkaProducer<>(
      "flink_kafka",  
      new SimpleStringSchema(),  props);
     
    
   
    
     
    
    
     
              jsonDS.addSink(kafkaSink);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //5.execute
     
    
   
    
     
    
    
     
              env.execute();
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      // /export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic flink_kafka
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
     
          
      @Data
     
    
   
    
     
    
    
     
          
      @NoArgsConstructor
     
    
   
    
     
    
    
     
          
      @AllArgsConstructor
     
    
   
    
     
    
    
     
          
      public 
      static 
      class Student {
     
    
   
    
     
    
    
     
              
      private Integer id;
     
    
   
    
     
    
    
     
              
      private 
      String name;
     
    
   
    
     
    
    
     
              
      private Integer age;
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
     
      }

代码实现-实时ETL


  
   
    
     
    
    
     
      package cn.itcast.connectors;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.RuntimeExecutionMode;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.functions.FilterFunction;
     
    
   
    
     
    
    
     
      import org.apache.flink.api.common.serialization.SimpleStringSchema;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.DataStream;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
     
    
   
    
     
    
    
     
      import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import java.util.Properties;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      /**
     
    
   
    
     
    
    
     
       * Author itcast
     
    
   
    
     
    
    
     
       * Desc 演示Flink-Connectors-KafkaComsumer/Source + KafkaProducer/Sink
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     
      public 
      class KafkaETLDemo {
     
    
   
    
     
    
    
     
          
      public 
      static 
      void main(
      String[] args) throws Exception {
     
    
   
    
     
    
    
     
              
      //TODO 0.env
     
    
   
    
     
    
    
     
              StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
     
    
   
    
     
    
    
     
              env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //TODO 1.source
     
    
   
    
     
    
    
     
              
      //准备kafka连接参数
     
    
   
    
     
    
    
     
              Properties props  = 
      new Properties();
     
    
   
    
     
    
    
     
              props.setProperty(
      "bootstrap.servers", 
      "node1:9092");
      //集群地址
     
    
   
    
     
    
    
     
              props.setProperty(
      "group.id", 
      "flink");
      //消费者组id
     
    
   
    
     
    
    
     
              props.setProperty(
      "auto.offset.reset",
      "latest");
      //latest有offset记录从记录位置开始消费,没有记录从最新的/最后的消息开始消费 /earliest有offset记录从记录位置开始消费,没有记录从最早的/最开始的消息开始消费
     
    
   
    
     
    
    
     
              props.setProperty(
      "flink.partition-discovery.interval-millis",
      "5000");
      //会开启一个后台线程每隔5s检测一下Kafka的分区情况,实现动态分区检测
     
    
   
    
     
    
    
     
              props.setProperty(
      "enable.auto.commit", 
      "true");
      //自动提交(提交到默认主题,后续学习了Checkpoint后随着Checkpoint存储在Checkpoint和默认主题中)
     
    
   
    
     
    
    
     
              props.setProperty(
      "auto.commit.interval.ms", 
      "2000");
      //自动提交的时间间隔
     
    
   
    
     
    
    
     
              
      //使用连接参数创建FlinkKafkaConsumer/kafkaSource
     
    
   
    
     
    
    
     
              FlinkKafkaConsumer<
      String> kafkaSource = 
      new FlinkKafkaConsumer<
      String>(
      "flink_kafka", 
      new SimpleStringSchema(), props);
     
    
   
    
     
    
    
     
              
      //使用kafkaSource
     
    
   
    
     
    
    
     
              DataStream<
      String> kafkaDS = env.addSource(kafkaSource);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //TODO 2.transformation
     
    
   
    
     
    
    
     
              SingleOutputStreamOperator<
      String> etlDS = kafkaDS.filter(
      new FilterFunction<
      String>() {
     
    
   
    
     
    
    
     
                  
      @Override
     
    
   
    
     
    
    
     
                  
      public 
      boolean filter(
      String value) throws Exception {
     
    
   
    
     
    
    
     
                      
      return value.contains(
      "success");
     
    
   
    
     
    
    
     
                  }
     
    
   
    
     
    
    
     
              });
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //TODO 3.sink
     
    
   
    
     
    
    
     
              etlDS.print();
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              Properties props2 = 
      new Properties();
     
    
   
    
     
    
    
     
              props2.setProperty(
      "bootstrap.servers", 
      "node1:9092");
     
    
   
    
     
    
    
     
              FlinkKafkaProducer<
      String> kafkaSink = 
      new FlinkKafkaProducer<>(
      "flink_kafka2", 
      new SimpleStringSchema(), props2);
     
    
   
    
     
    
    
     
              etlDS.addSink(kafkaSink);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
              
      //TODO 4.execute
     
    
   
    
     
    
    
     
              env.execute();
     
    
   
    
     
    
    
     
          }
     
    
   
    
     
    
    
     
      }
     
    
   
    
     
    
    
     
      //控制台生成者 ---> flink_kafka主题 --> Flink -->etl ---> flink_kafka2主题--->控制台消费者
     
    
   
    
     
    
    
     
      //准备主题 /export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 2 --partitions 3 --topic flink_kafka
     
    
   
    
     
    
    
     
      //准备主题 /export/server/kafka/bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 2 --partitions 3 --topic flink_kafka2
     
    
   
    
     
    
    
     
      //启动控制台生产者发送数据 /export/server/kafka/bin/kafka-console-producer.sh --broker-list node1:9092 --topic flink_kafka
     
    
   
    
     
    
    
     
      //log:2020-10-10 success xxx
     
    
   
    
     
    
    
     
      //log:2020-10-10 success xxx
     
    
   
    
     
    
    
     
      //log:2020-10-10 success xxx
     
    
   
    
     
    
    
     
      //log:2020-10-10 fail xxx
     
    
   
    
     
    
    
     
      //启动控制台消费者消费数据 /export/server/kafka/bin/kafka-console-consumer.sh --bootstrap-server node1:9092 --topic flink_kafka2 --from-beginning
     
    
   
    
     
    
    
     
      //启动程序FlinkKafkaConsumer
     
    
   
    
     
    
    
     
      //观察控制台输出结果

转载：https://blog.csdn.net/xiaoweite1/article/details/116245568

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

2021年大数据Flink（十五）：流批一体API Connectors Kafka

Kafka

pom依赖

参数设置

参数说明

Kafka命令

代码实现-Kafka Consumer

代码实现-Kafka Producer

代码实现-实时ETL

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

2021年大数据Flink（十五）：流批一体API Connectors Kafka

​​​​​​​Kafka

pom依赖

参数设置

​​​​​​​参数说明

​​​​​​​Kafka命令

​​​​​​​代码实现-Kafka Consumer

​​​​​​​代码实现-Kafka Producer

​​​​​​​代码实现-实时ETL

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场

Kafka

参数说明

Kafka命令

代码实现-Kafka Consumer

代码实现-Kafka Producer

代码实现-实时ETL