Laurence 
码龄22年
求更新 关注
提问 私信
  • 博客:6,576,458
    社区:1,665
    6,578,123
    总访问量
  • 564
    原创
  • 6,507
    粉丝
  • 1
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2003-12-31

个人简介:架构师,著有《大数据平台架构与原型实现:数据中台建设实战》一书,对大数据、云计算、数据湖、数据中台、企业级应用架构、域驱动设计有丰富的实践经验。

博客简介:

Laurence的技术博客

查看详细资料
个人成就
  • 《大数据平台架构与原型实现:数据中台建设实战》书籍作者
  • 领域专家: 后端开发技术领域
  • 获得3,732次点赞
  • 内容获得687次评论
  • 获得4,406次收藏
  • 代码片获得11,109次分享
  • 博客总排名2,063,394名
创作历程
  • 68篇
    2024年
  • 108篇
    2023年
  • 54篇
    2022年
  • 18篇
    2021年
  • 14篇
    2020年
  • 4篇
    2019年
  • 17篇
    2018年
  • 10篇
    2017年
  • 31篇
    2016年
  • 27篇
    2015年
  • 33篇
    2014年
  • 19篇
    2013年
  • 29篇
    2012年
  • 50篇
    2011年
  • 75篇
    2010年
  • 13篇
    2009年
  • 1篇
    2008年
  • 5篇
    2007年
成就勋章
TA的专栏
  • 付费专栏
    付费
    97篇
  • 数据安全:身份认证 & 权限控制
    23篇
  • NumPy笔记
    3篇
  • CDC数据入湖方案 • 合集
    32篇
  • AIML笔记
    14篇
  • Python笔记
    29篇
  • Hudi • 数据湖新核心
    16篇
  • 建设数据中台系列
    7篇
  • Pandas笔记
    6篇
  • Matplotlib笔记
    2篇
  • 大数据专题
    184篇
  • Scala语言
    30篇
  • 数据库分库分表(sharding)
    8篇
  • Linux与Shell编程
    52篇
关于博主

在这里插入图片描述


架构师,著有 《大数据平台架构与原型实现:数据中台建设实战》一书,17年IT系统开发和架构经验,对大数据、企业级应用架构、SaaS、分布式存储和领域驱动设计有丰富的实践经验。对Hadoop/Spark 生态系统有深入和广泛的研究,参与过Hadoop商业发行版的开发,热衷函数式编程。
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

40人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 资源
  • 代码仓
  • 收藏
  • 社区
  • 最近

  • 文章

  • 专栏

  • 资源

  • 代码仓

  • 收藏

  • 社区

搜索 取消

Flink CDC 整库 / 多表同步至 Kafka 方案(附源码)

我们此前介绍的一些 CDC 开箱即用方案往往都是一张表对应一条独立的链路(作业),需要一个独立的数据库连接,在表数量很大的情况下,会对数据库造成很大压力,同时过多的 Flink 作业会不易于管理和维护,为众多小表创建独立的采集作业也浪费了资源。此外,使用 Flink SQL 针对每张表定义 CDC 作业也是一项繁重的工作,如果能简化或省略编写大量 SQL 的工作也是一项重要的改进。所以,一种更为实用的解决方案是:使用一个 Flink 作业完成整库 / 多表的 CDC 数据接入工作。本文我们会详细介绍一下这一
原创
博文更新于 2025.06.17 ·
3442 阅读 ·
31 点赞 ·
0 评论 ·
3 收藏

解密 Shell 重定向:>、>1、2>、&>、>&、2>&1、1>&2 、/dev/null、>>、>>2、&>>

Shell 重定向这部分知识比较琐碎,符号很多,各种操作符又有多种“变种”,所以会让人感觉很凌乱。本文试图对这部分内容做一些规范化的梳理,主要以 GNU 官方文档为准。首先,有必要“温习”一个基础知识点:在Linux上一切皆文件!所有的设备都可以使用一个文件来描述或代表,这一点在重定向操作中体现的尤为明显,例如:0,1,2,/dev/null 都是文件,其中:0代表文件/dev/stdin,1代表文件/dev/stdout,2代表文件/dev/stderr。而这些文件又分别代表了某种设备:/dev/stdi
原创
博文更新于 2025.02.11 ·
2278 阅读 ·
7 点赞 ·
0 评论 ·
36 收藏

关于 Spark on Yarn 的资源分配与 Capacity Scheduler 的研究

文章目录1.启用CapacityScheduler2.集群信息与配置2.1.yarn.nodemanager.resource.xxx2.2.yarn.scheduler.minimum/maximum-xxxx3.SparkonYarn的内存模型4.user-limit-factor:单用户时提升资源利用率的重要因子5.规整化因子6.测试队列资源划分方案7.测试计划7.1.用例一7.2.用例二7.3.用例三7.2.用例四8.小结资源调度永远是一个对立统一的问题,在一个限
原创
博文更新于 2025.01.19 ·
3585 阅读 ·
8 点赞 ·
6 评论 ·
29 收藏

SQL Visual Quick Start Guide,3rd Edition

发布资源 2009.11.17 ·
pdf

Java Persistence with Hibernate.pdf

发布资源 2009.11.19 ·
pdf

Web Services Essentials.pdf

发布资源 2010.04.16 ·
pdf

Agile Web Development with Rails 3nd Edition beta.pdf

发布资源 2010.09.06 ·
pdf

Java Message Service 2nd.Edition.Jun.2009

发布资源 2011.03.22 ·
pdf

SVN1.5中文手册

发布资源 2011.07.27 ·
pdf

Regular Expression Pocket Reference 2nd Edition

发布资源 2011.06.18 ·
pdf

SVN1.4中文手册

发布资源 2011.07.28 ·
pdf

WIN7下硬盘安装Ubuntu.docx

发布资源 2012.03.17 ·
docx

CDC 实时入湖方案:MySQL>Kafka Connect>Kafka & Schema Registry>Hudi ( Flink Connector )

本方案的技术链路为:使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka 之后,通过 Flink 读取并解析这些 CDC 数据,其中,数据是以 Confluent 的 Avro 格式存储的,也就是说,Avro 格式的数据在写入到 Kafka 以及从 Kafka 读取时,都需要和 Confluent Schema Registry 进行交互,从而获取 Schema 信息,消息经 Fli
原创
博文更新于 2024.09.02 ·
2472 阅读 ·
34 点赞 ·
0 评论 ·
9 收藏

CDC 实时入湖方案:MySQL>Flink CDC>Kafka & Schema Registry>Hudi ( HoodieMultiTableStreamer )

本方案的技术链路为:使用 Flink CDC 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka ,然后通过 Hudi 的 HoodieMultiTableStreamer 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文和《CDC 实时入湖方案:MySQL > Flink CDC > Kafka & Schema Registry > Hudi ( Flink Connector ) 》介绍的
原创
博文更新于 2024.09.02 ·
2022 阅读 ·
47 点赞 ·
0 评论 ·
10 收藏

CDC 实时入湖方案:MySQL>Kafka Connect>Kafka & Schema Registry>Hudi ( HoodieMultiTableStreamer )

本方案的技术链路为:使用 Kafka Connect 配合 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka ,然后通过 Hudi 的 HoodieMultiTableStreamer 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文和《CDC 实时入湖方案:MySQL > Kafka Connect > Kafka & Sche
原创
博文更新于 2024.09.02 ·
2974 阅读 ·
53 点赞 ·
3 评论 ·
19 收藏

CDC 实时入湖方案:MySQL>Flink CDC>Kafka & Schema Registry>Hudi ( Flink Connector )

本方案的技术链路为:使用 Flink CDC 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka ,然后通过 Flink Hudi Connector 将摄取的 CDC 数据写入到 Hudi 表中。整个链路由 Confluent Schema Registry 控制 Schema 的变更。本文是《CDC 实时入湖方案:MySQL > Flink CDC > Kafka > Hudi》的增强版,在打通从源端数据库到 Hudi 表的完整链路的前提下,还额外做了如下两项工作:
原创
博文更新于 2024.08.26 ·
2656 阅读 ·
40 点赞 ·
0 评论 ·
11 收藏

CDC 数据实时同步入湖的技术、架构和方案汇总

最近,对“实时摄取 CDC 数据同步到数据湖”这一技术主题作了一系列深入的研究和验证,目前这部分工作已经告一段落,本文把截止目前(2024年5月)的研究结果和重要结论做一下梳理和汇总。为了能给出针对性的技术方案,我们必须收敛话题,对一些技术选型做了限制,在数据库这一侧,我们以 MySQL 作为示例进行演示(PG 等其他主流数据库理论上均可行),在数据湖这一侧,我们重点关注的是 Apache Hudi。
原创
博文更新于 2024.08.26 ·
5165 阅读 ·
95 点赞 ·
0 评论 ·
24 收藏

Lake Formation 和 IAM 之间的区别与联系

IAM 和 Lake Formation 都是 AWS 上的权限管理服务,且默认都是自动开启并生效的,只是如果你没有特别配置过它们,可能感觉不到它们的存在,特别是Lake Formation(后文简写为 LF),通常情况下都是“透明”的,虽然但它确实在每次请求时进行了权限检查。本文会详细介绍一下两者之间的区别和联系,特别是 Lake Formation 的作用机理。
原创
博文更新于 2024.08.10 ·
920 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

jQuery UI 1.7, The User Interface Library for jQuery.pdf

发布资源 2009.12.21 ·
pdf

Service Design Patterns

发布资源 2012.05.07 ·
pdf
加载更多