博客
关于我
基于Blink构建亲听项目以及全链路debug项目实时响应能力
阅读量:157 次
发布时间:2019-02-27

本文共 1001 字,大约阅读时间需要 3 分钟。

大数据项目组实时流处理架构设计与优化

本文总结了大数据项目组在亲听项目和全链路debug项目中实时流处理的需求梳理、架构选型及实现效果。

一、背景介绍

1.1 亲听项目

亲听项目旨在帮助用户收集、展示、监控和处理用户体验问题,是保障产品主观评价质量的重要工具。通过对上游TimeTunnel日志的解析和处理,亲听系统输出关键指标并进行前端展示和阈值监控报警,用于算法效果监控。

需求要点:
  • 每秒处理万级到几十万级的TimeTunnel日志记录
  • 数据处理逻辑复杂且需支持频繁迭代
  • 需要秒级低延时的数据展示
  • 1.2 全链路debug

    全链路debug专注于在线搜索异常时定位后端子系统问题。其实时流处理需求是从TimeTunnel日志中提取关键内容,用于问题排查。

    需求要点:
  • 每秒处理万级到几十万级的日志记录
  • 单条记录数据较大(平均几KB)
  • 解析逻辑主要为字段提取和透传

  • 二、解决方案

    2.1 整体架构

    亲听和全链路debug的实时流处理系统架构如下:

    • 亲听

      • 采用tt → blink → HBase架构
      • blink任务输出到TimeTunnel中记录的字段经分类合并处理
      • 下游引入druid进行实时流查询
    • 全链路debug

      • 采用tt → blink → Druid架构
      • Druid表中存储实时流数据
      • 单条记录数据大小较大,适合HBase存储

    2.2 实时性

    • 数据处理:使用blink的Table API编写,支持复杂逻辑且代码可维护性高
    • 存储与查询:结合HBase和Druid,满足高并发写读需求

    2.3 扩展性

    • 查询逻辑前移:将Druid查询逻辑迁移到blink任务,提升扩展性
    • 字段归类合并:通过udtf函数统一处理多值字段,减少代码复杂度

    2.4 实时流处理优化

    • 查询性能优化:将处理逻辑迁移到blink任务,减少Druid内存占用和查询延迟
    • 架构选择:根据数据特性选择HBase或Druid,提升处理效率

    三、成果总结

    通过对亲听和全链路debug项目的实时流处理需求的梳理和架构优化,我们成功实现了以下成果:

    • 高效处理:实现了秒级延时完成实时日志处理
    • 架构灵活:支持多种场景下的实时流处理需求
    • 性能优化:显著提升了系统的扩展性和查询性能

    四、作者简介

    鸷鸟,来自搜索事业部-工程效率与技术质量-算法工程平台-实时大数据平台,15年加入阿里,专注于电商体系实时数据研发及实时大数据平台建设。

    转载地址:http://qtgb.baihongyu.com/

    你可能感兴趣的文章
    pandas DataFrame的一些操作
    查看>>
    Pandas Dataframe的日志文件
    查看>>
    pandas Groupby:创建两列的Groupby时,如何按正确的顺序对工作日进行排序?
    查看>>
    Pandas matplotlib 无法显示中文
    查看>>
    pandas PIVOT_TABLE保持索引
    查看>>
    Pandas Plots:周末的单独颜色,x 轴上漂亮的打印时间
    查看>>
    pandas to_latex() 转义数学模式
    查看>>
    Pandas 中的多索引旋转
    查看>>
    Pandas 中的日期范围
    查看>>
    pandas 中的时间序列箱线图
    查看>>
    Pandas 使用指南
    查看>>
    pandas 分组并使用最小值更新
    查看>>
    Pandas 对数据框的布尔比较
    查看>>
    pandas 将通话数据分割为15分钟的间隔
    查看>>
    pandas 找到局部最大值和最小值
    查看>>
    pandas 按日期和年份分组,并汇总金额
    查看>>
    pandas 数据帧到PostgreSQL表中使用的是没有SQLAlChemy的心理复制2吗?
    查看>>
    pandas 数据框条件 .mean() 取决于特定列中的值
    查看>>
    pandas 数据框至海运分组条形图
    查看>>
    pandas 时间序列重新采样结束给定的一天
    查看>>