flink关联mysql

转载

编程梦想实现家 2024-10-01 10:58:50

文章标签 flink关联mysql flink kafka mysql bc 文章分类 MySQL 数据库

今日需求

kafakasource -> flinkcep -> kafkasink mysqlsink

模拟数据设计

表设计

cep事件匹配逻辑设计

json转javabean

json格式：如果javabean中字段为字符串，则一定要用“字段”：“数据”格式，不能“字段”：数据，否则JSON…parseObject识别不出

mysqlsink

//数据写入MySQL策略
        JdbcExecutionOptions executionOptions = JdbcExecutionOptions.builder()
                .withBatchSize(100) // 每1000条记录批处理一次
                .withBatchIntervalMs(200) // 或者每200毫秒批处理一次
                .withMaxRetries(5) // 如果遇到错误，重试最多5次
                .build();
        // 数据写入MySQL
        select.addSink(JdbcSink.sink(
                "INSERT INTO diseasewarning (patientid,symptom1,checktime1,symptom2,checktime2,warningname) VALUES (?,?,?,?,?,?)",
                (ps, value) -> {
                    // 设置参数
                    ps.setInt(1, value.getPatientId());
                    ps.setString(2, value.getSymptom1());
                    ps.setString(3, value.getSymptom2());
                    ps.setString(4, value.getCheckTime1());
                    ps.setString(5, value.getCheckTime2());
                    ps.setString(6, value.getWarningName());
                },
                executionOptions,
                new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
//                        .withUrl("jdbc:mysql://ip:3306/test?allowPublicKeyRetrieval=true&useSSL=false&useUnicode=true&characterEncoding=UTF8&serverTimezone=GMT")
                        .withUrl("jdbc:mysql://ip:3306/scott?allowPublicKeyRetrieval=true&useSSL=false&useUnicode=true&characterEncoding=UTF8&serverTimezone=GMT")
                        .withDriverName("com.mysql.cj.jdbc.Driver")
                        .withUsername("root")
                        .withPassword("123456")
                        .build()
        ));

kafkasink

//Kafka输出配置
KafkaSink<DiseaseWarning> kafkaSink = KafkaSink.<DiseaseWarning>builder()
        .setBootstrapServers("ip:19092")
        .setRecordSerializer(new DiseaseWarningSerializationSchema())
        .setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
        .build();

select.sinkTo(kafkaSink);

javabean序列化数据写入kafka

select.addSink(kafkaSink); 报错

从你提供的错误来看，你在尝试将 KafkaSink 添加到流 select 上时遇到了 ClassCastException。

在 Flink 1.13 及更高版本中，KafkaSink 的构造方式和使用方法发生了变化，与之前的 FlinkKafkaProducer 不同。

让我们根据你提供的代码解决这个问题。

首先，你的 select 流的类型是 DiseaseWarning，但你为 KafkaSink 设置的序列化器是用于字符串的 SimpleStringSchema。你需要确保你为 KafkaSink 提供了正确的序列化器。

为此，你可以创建一个自定义的序列化器，将 DiseaseWarning 对象转换为字符串，或者更好地转换为字节数组，这取决于你想在 Kafka 中以什么格式存储数据。

下面是一个简单的示例，展示了如何为 DiseaseWarning 创建一个自定义的序列化器，并使用它来设置 KafkaSink：

public class DiseaseWarningSerializationSchema implements KafkaRecordSerializationSchema<DiseaseWarning> {
    @Override
    public ProducerRecord<byte[], byte[]> serialize(DiseaseWarning element, @Nullable Long timestamp) {
        String jsonString = JSON.toJSONString(element); // Convert to JSON string using FastJSON
        return new ProducerRecord<>("gsl_DiseaseWarning", jsonString.getBytes(StandardCharsets.UTF_8));
    }
}

然后，在设置 KafkaSink 时使用这个序列化器：

KafkaSink<DiseaseWarning> kafkaSink = KafkaSink.<DiseaseWarning>builder()
    .setBootstrapServers("ip:19092")
    .setRecordSerializer(new DiseaseWarningSerializationSchema())
    .setDeliverGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
    .build();

现在，你应该能够将 KafkaSink 添加到 select 流上，而不会遇到任何类型转换错误：

select.sinkTo(kafkaSink);

请注意，我使用了 sinkTo 方法代替了 addSink，因为在 Flink 的新版本中，sinkTo 是推荐的方式来连接一个 Sink 到流上。

这样应该可以解决你的问题。如果还有其他问题，请随时告诉我。

实现用户症状预警严重程度

思路：为每一个用户维护一个状态，来标记他的预警严重程度，keystate形式，匹配到预警用户后对用户预警值+1，

实现：用户分组，分组后

Apache Flink 是一个流处理和批处理的框架，它非常适合用来处理实时数据流。如果你想要使用 Flink 来统计每个病人的病情预警次数，以下是一种简化的思路和步骤：

数据输入：首先，你需要一个数据源来获取病人的病情信息。这可以是一个实时的数据流，如 Kafka、Pulsar 等。
定义事件：确定什么样的病情会触发预警。例如，心率超过某个阈值可能被视为一个预警事件。
数据处理：
a. 使用 Flink 的 KeyedStream 对病人ID进行分组。这样，Flink 可以独立地处理每个病人的数据。
b. 使用 process 或 flatMap 函数来处理每个病人的数据流。在这个函数内，你可以检查病情是否满足预警条件。
c. 如果满足预警条件，为该病人的预警计数加1。
状态管理：你可以使用 Flink 的状态管理功能来存储每个病人的预警计数。这样，即使在系统故障后重启，你也不会丢失计数。
输出：将每个病人的预警计数输出到所需的目标位置，如数据库、日志文件或其他系统。

以下是一个简化的 Flink 代码片段来说明上述步骤：

import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class HealthAlertJob {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 假设从Kafka中读取数据
        DataStream<PatientData> patientDataStream = env.addSource(...); // 你的数据源

        DataStream<PatientAlertCount> result = patientDataStream
                .keyBy(PatientData::getPatientId)  // 根据病人ID进行分组
                .process(new AlertCountProcessFunction()); // 检查预警条件并计数

        result.addSink(...); // 输出到所需的目标位置

        env.execute("Health Alert Job");
    }
}

// 这里只是一个简化的例子，你可能需要根据实际的业务逻辑来编写
class AlertCountProcessFunction extends KeyedProcessFunction<String, PatientData, PatientAlertCount> {
    private ValueState<Integer> countState;

    @Override
    public void open(Configuration config) {
        ValueStateDescriptor<Integer> countDescriptor = new ValueStateDescriptor<>("alertCount", Types.INT);
        countState = getRuntimeContext().getState(countDescriptor);
    }

    @Override
    public void processElement(PatientData value, Context ctx, Collector<PatientAlertCount> out) {
        if (value.getConditionValue() > THRESHOLD) {  // 判断是否满足预警条件
            int currentCount = countState.value() == null ? 0 : countState.value();
            currentCount++;
            countState.update(currentCount);

            out.collect(new PatientAlertCount(value.getPatientId(), currentCount));
        }
    }
}

class PatientData {
    // ... 你的病人数据结构
}

class PatientAlertCount {
    // ... 你的输出数据结构
}

这只是一个简化的例子。你的实际业务需求和数据结构可能会更复杂，但这可以为你提供一个基本的框架和思路来开始。

有待优化，flinkcep规则实现动态修改

Apache Flink 的 CEP (Complex Event Processing) 库是用于定义模式匹配在数据流上的，以便识别复杂的事件模式。

在 Flink CEP 中，你通常会定义一个模式，然后将这个模式应用于数据流。这些模式定义通常是静态的。但是，有时，根据实际应用的需求，你可能希望能够在运行时动态地更改或更新这些模式。

动态修改 Flink CEP 的规则并不是框架直接支持的功能。但你可以使用一些策略和方法实现这一需求：

使用广播状态 (Broadcast State): 你可以使用广播流来将规则发送到所有并行任务，并使用广播状态来存储和更新规则。
动态规则存储: 将规则存储在外部数据库或配置管理系统，如 Apache ZooKeeper 中。定期检查或监听规则更改，并动态地在应用程序中更新规则。
有状态的重新部署: 当规则更改时，你可以停止当前的 Flink 作业并保存其状态。然后，使用新的规则重新启动作业并从保存的状态恢复。这确保你不会丢失任何数据或状态。
规则版本管理: 对每个规则进行版本管理，新的规则可以作为新版本添加，而不替换旧的规则。然后，根据版本信息，选择在运行时使用哪个版本的规则。

在实际的生产环境中，根据你的需求，你可能需要混合使用上述策略。要注意的是，动态更新规则可能增加系统的复杂性，需要进行充分的测试和验证以确保系统的正确性和稳定性。

具体实现

要动态地修改 Flink CEP 的规则，其中一个相对实用的方法是使用广播状态。以下是使用广播状态动态更新 Flink CEP 规则的一个简化示例：

定义数据和模式结构:

public class Event {
    private String id;
    private String type;
    // ... getters, setters, etc.
}

public class Rule {
    private String eventType;
    // ... 其他规则属性, getters, setters, etc.
}

使用广播状态:

// 创建一个广播流，这将是我们的规则流
BroadcastStream<Rule> ruleBroadcast = env.addSource(new RuleSource()).broadcast(ruleStateDescriptor);

// 创建主数据流
DataStream<Event> events = env.addSource(new EventSource());

DataStream<MatchedEvent> result = events
    .keyBy(Event::getId)
    .connect(ruleBroadcast)
    .process(new DynamicPatternProcessor());

处理广播的规则并应用 CEP:

public class DynamicPatternProcessor extends KeyedBroadcastProcessFunction<String, Event, Rule, MatchedEvent> {

    private final MapStateDescriptor<String, Rule> ruleStateDescriptor = new MapStateDescriptor<>("rules", Types.STRING, TypeInformation.of(Rule.class));

    @Override
    public void processElement(Event value, ReadOnlyContext ctx, Collector<MatchedEvent> out) throws Exception {
        // 使用广播状态中的规则来创建CEP模式
        Rule currentRule = ctx.getBroadcastState(ruleStateDescriptor).get("currentRule");
        if (currentRule != null) {
            Pattern<Event, ?> pattern = buildPatternFromRule(currentRule);
            PatternStream<Event> patternStream = CEP.pattern(value.keyedBy(Event::getId), pattern);

            // 对匹配的事件进行处理...
            patternStream.process(...);
        }
    }

    @Override
    public void processBroadcastElement(Rule value, Context ctx, Collector<MatchedEvent> out) throws Exception {
        // 更新规则广播状态
        ctx.getBroadcastState(ruleStateDescriptor).put("currentRule", value);
    }

    private Pattern<Event, ?> buildPatternFromRule(Rule rule) {
        // 使用规则构建你的CEP模式
        // ... your logic here ...
    }
}

上述代码中，我们定义了一个广播状态来接收和存储最新的规则。然后，我们使用这个规则来构建CEP的模式，并应用它到数据流上。

这只是一个简化的示例，具体的实现会依赖于你的业务逻辑、规则结构和要求。此外，这种方法主要适用于规则更新不太频繁的情况，因为过于频繁的更新可能会影响性能。

希望这个例子可以帮助你开始实现动态规则更新的功能!

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。