fitfluid
本站致力于IT相关技术的分享
构建近实时数据可观测性平台中消息队列选型与数据湖集成架构 构建近实时数据可观测性平台中消息队列选型与数据湖集成架构
一个生产级的可观测性平台,其核心诉求是在海量事件流中提供近乎实时的洞察。我们面临的挑战是构建一个系统,它不仅要处理高吞吐量的异构事件,还要支持对这些事件状态的快速更新与查询。数据模型并非简单的追加,而是需要频繁进行 UPSERT 操作,例如
2023-10-27
构建从分布式SQLite到Couchbase的CDC数据管道并用DVC管理其Schema演进 构建从分布式SQLite到Couchbase的CDC数据管道并用DVC管理其Schema演进
我们面临一个棘手的现实:数百个边缘节点上的应用各自将状态写入本地的SQLite文件。这些数据需要近实时地汇集到一个中央数据存储进行分析。直接的文件同步或定期的批量导出都无法满足时效性要求,并且在网络不稳定的环境下极其脆弱。我们需要的是一套针
2023-10-27
实现一个面向Snowflake的BDD数据质量自动化验证框架 实现一个面向Snowflake的BDD数据质量自动化验证框架
我们团队的数据仓库构建在Snowflake之上,ETL流程由dbt驱动。一个持续困扰我们的问题是数据质量的验证。业务分析师在Confluence上用自然语言描述数据规则,数据工程师再将其手动翻译成dbt的测试或独立的SQL脚本。这个过程不仅
2023-10-27
构建支持在线推理与离线分析的混合特征存储架构 构建支持在线推理与离线分析的混合特征存储架构
机器学习系统在生产环境中面临一个根本性的矛盾:模型训练与离线分析需要对海量历史数据进行灵活、复杂的批处理查询,而在线推理服务则要求对单点数据进行毫秒级的低延迟查找。试图用单一存储系统满足这两种截然不同的负载模式,通常会导致架构上的妥协和性能
2023-10-27
构建基于CDC与Redis Streams的实时内容同步管道以驱动Gatsby站点与Weaviate向量索引 构建基于CDC与Redis Streams的实时内容同步管道以驱动Gatsby站点与Weaviate向量索引
项目的痛点始于一个看似简单的矛盾:我们选择Gatsby构建内容平台,是为了极致的前端性能和Jamstack架构带来的运维便利。但这也意味着我们的内容是静态构建的。与此同时,业务需求是为这些内容提供强大的、实时的语义搜索能力,并且内容源——一
2023-10-27
基于C++ CDC与Hudi-HBase的金融交易数据分层存储架构实现 基于C++ CDC与Hudi-HBase的金融交易数据分层存储架构实现
我们面临一个棘手的工程问题:一个核心的、高频交易后处理系统,其底层依赖于一个庞大的关系型数据库集群。该系统每天产生数十亿条交易流水、委托变更和清算记录。业务需求被清晰地划分为两个极端:一方面,交易运营团队需要对过去24小时内的任意订单进行亚
2023-10-27