浪尖聊大数据-浪尖
码龄8年
求更新 关注
提问 私信
  • 博客:2,474,153
    社区:2
    动态:103
    2,474,258
    总访问量
  • 247
    原创
  • 2,696
    粉丝
  • 31
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2017-08-07

个人简介:弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。

博客简介:

大数据星球-浪尖

博客描述:
主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。
查看详细资料
个人成就
  • 获得1,390次点赞
  • 内容获得401次评论
  • 获得6,014次收藏
  • 代码片获得3,292次分享
  • 博客总排名149,495名
创作历程
  • 49篇
    2025年
  • 102篇
    2024年
  • 51篇
    2023年
  • 311篇
    2022年
  • 491篇
    2021年
  • 437篇
    2020年
  • 257篇
    2019年
  • 329篇
    2018年
  • 31篇
    2017年
成就勋章
TA的专栏
  • spark
    98篇
  • flink
    98篇
  • 数据仓库
    127篇
  • kafka
    63篇
  • hbase
    47篇
  • hive
    41篇
  • hadoop
    16篇
  • kylin
    25篇
  • java面试题
    83篇
  • linux
    32篇
  • flume
    3篇

TA关注的专栏 3

TA关注的收藏夹 0

TA关注的社区 9

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

6100亿美元AI循环融资泡沫

科技巨头、AI初创公司、云服务商与芯片厂商之间,通过相互投资、长期采购承诺和债务融资,形成一个闭环资金流。同一笔资本在生态内多次流转,反复计入英伟达等硬件厂商的营收,但底层缺乏真实终端盈利支撑。:一笔10亿美元的投资,可能在英伟达财报中体现为“硬件销售”,在云厂商体现为“资本开支”,在AI公司体现为“算力成本”。:多数AI模型尚未实现商业化盈利(如OpenAI年收入约37亿,但年烧钱超100亿)。若两者皆延迟,则“泡沫”可能温和挤出;:从“买入”调至“中性”,理由:“DSO恶化+库存积压反映需求见顶”
转载
博文更新于 2025.11.26 ·
83 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Delta Join:为超大规模流处理实现计算与历史数据解耦

Apache Flink 一直以来都擅长有状态流处理,但传统流式 Join 在面对海量数据和高基数 Key 时却遇到了瓶颈。它不再将所有数据缓存在内部,而是将 Join 转变为一种无状态的查询机制,直接从 Apache Fluss 或 Apache Paimon 等外部表中实时获取所需数据。虽然 Fluss 是 Delta Join 的初始载体,但 Flink 社区正积极推动其与开源湖仓格式的融合。算子不再将全部历史数据存于 Flink 状态,而是在需要时才去外部存储查询。从此告别状态爆炸式增长。
转载
博文更新于 2025.11.22 ·
32 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

深夜找打印店?这台“随身打印机”,让孩子的作业再也不耽搁!

期末复习资料、社会实践报告、毕业设计论文、竞赛项目书……快猫云印小程序,专为。:激光黑白(字迹清晰)、激光彩色(报告亮眼)、喷墨彩印(图片惊艳)量身打造,将专业的打印服务装进您的手机里,7x24小时随时待命。:手工报、调研报告、读书笔记,需要彩色打印和装订。:老师要求双面打印、胶装、用B5纸。:单面/双面、普通纸/护眼纸,随心搭配,保护孩子视力。:A4、A3、B5。】:各种需要打印填写的申请表、证件照,在家就能完成。:墨盒干了、没纸了、卡纸了。:老师群里的练习题、拓展阅读材料,随时打,随时做。
转载
博文更新于 2025.11.08 ·
98 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理

而通过 Delta Join,我们将状态外卸至 Fluss 等外部存储系统,实现了秒级检查点,CPU 与内存使用降低超 80%,启动冷启时间缩短 87%,并首次实现了 Join 算子的实时可追溯性。与传统 Join 方式将所有数据缓存在 Flink 状态后端不同,Delta Join 转而依赖外部存储系统(例如基于 RocksDB 构建的 Apache Fluss),将数据存于外部,实现真正的无状态计算。Multi-Way Join:消除多流关联中的冗余状态,实现更轻量、更快速的 Join 处理。
转载
博文更新于 2025.10.25 ·
77 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐一款高性价比智能打印小程序

有时候只是几页资料、合同、论文,找打印店、传文件、排队、取件,既浪费时间又不方便。它支持从手机直接上传文件(PDF、Word、PPT、图片都可以),于是,我利用业余时间,做了这个小程序 ——我想用技术让打印这件事变得更简单、更可靠。大家好,我是一名 34 岁+ 的程序员。📚 无论是学习资料、论文打印、公司合同,🧾 还是孩子的作业讲义、培训讲稿,都能在手机上一键完成打印下单,A4、A3、B5 等纸张规格。如果你也希望打印文件更轻松,单面、双面、普通纸、护眼纸。订书钉、骑马钉、胶装。实用、省心、质量稳定。
转载
博文更新于 2025.10.24 ·
67 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink Agents:基于Apache Flink的事件驱动AI智能体框架

随着 AI 技术的发展和成熟,未来智能体的发展方向必然是工业化的,也就是说会有更多的 AI 请求由系统自动触发,而不需要人工手动操作。它不仅继承了 Apache Flink 在流处理领域的技术优势,还针对 AI 应用的特殊需求进行了专门的设计和优化,有望成为下一代 AI 应用开发的重要工具。稳定性是另一个重要要求。基于这些分析结果,AI 可以提供有价值的建议,比如根据观众的性别和年龄分布来调整商品推荐策略,或者根据观众的年龄特征来选择合适的背景音乐。第一层是基础的模型调用能力,这是所有 AI 应用的基础。
转载
博文更新于 2025.10.09 ·
64 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路

ARCoder一个专于主AR应用,AR游戏,增强现实应用,增强现实游戏,AI智能体,AI对话,AI聊天,AI角色扮演,智能客服,AIAgent开发的小程序。希望打造AI+AR的增强现实和智能场景。您也可以借助它打造自己的智能体和角色。01项目背景1.1 当前实时数仓架构当前的淘天实时架构是从日志服务器和业务数据库采集数据,实时数据采集到 TT (消息队列中间件,对标 Kafka)中,离线数据采集到盘古存储中;在公共层会启一个流批任务做流批计算,实时运行流任务,定时调度批任务;在计算层,实时和离线数据会写到
转载
博文更新于 2025.07.04 ·
149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

AR绘画 && AR涂鸦

ARCoder一个专于主AR应用,AR游戏,增强现实应用,增强现实游戏,AI智能体,AI对话,AI聊天,AI角色扮演,智能客服,AI+Agent开发的小程序。希望打造AI+AR的增强现实和智能场景。,在屏幕上绘制你想要的图形,然后会生成AR纸片人,然后活起来在AR世界里,增强绘画的趣味性。就是可以连续截图多张,然后将其动作连续播放,实现一个动画功能。系列动作类绘画比较适合。,这个就是将显示生活中的照片,生成一个纸片人,让他活跃起来,活到真实世界里。将AR+AI联合起来,生成制片人与你沟通,增加趣味性。
转载
博文更新于 2025.06.25 ·
109 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

干货分享 | 4万字全面解读数据中台、数据仓库、数据湖(建议收藏)

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。关系数据库本质上是一个二元关系,说的简单一些,就是一个
转载
博文更新于 2025.05.19 ·
244 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

详解如何在数仓中管理元数据

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于 1990 年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。从而达到一个相对平衡的角度。
转载
博文更新于 2025.05.09 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink Shuffle 技术演进之路

Shuffle 是分布式系统中数据流转的关键技术之一,对作业性能有着极为重要的影响,在计算引擎中扮演着重要角色。自 Flink 诞生以来,已有十年的发展历程。在 Shuffle 技术方面,Flink 也经历了多种 Shuffle 模式的演变,进行了多轮迭代和优化,实现了许多创新:从最初的 Pipelined Shuffle,到 Blocking Shuffle,再到创新性地提出 Hybrid Shuffle。本次分享主要探讨 Flink 社区在 Shuffle 方向遇到的问题、解决方法,以及对未来的思考和规
转载
博文更新于 2025.05.09 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Dinky 和 Flink CDC 在实时整库同步的探索之路

摘要:主要讲述 Dinky 的整库同步技术方案演变至 Flink CDC Yaml 作业的探索历程,并深入讲解Flink CDC Yaml的一些细节能力。内容分为以下几个部分:01起源本次分享围绕数据集成,它也是 Flink CDC Yaml 作业的出现背景。在 Dinky 的众多用户中,我们总结出以下在传统的数据集成方案中普遍会遇到的问题:需要将业务库中的业务数据同步到分析库中,起到解耦分析的作用,一般有三点要求。要求数据必须一致、链路要求稳定、数据时效性尽可能要高。在传统的数据集成方案中可以通过离线和实
转载
博文更新于 2025.05.07 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

开源大数据 OLAP 引擎最佳实践

实现了冷热的分层存储,节约了成本。经过改造之后,完美支持Upsert场景,Presto可以查询明细数据,CK的宽表数也可供Ad-hoc查询,CK的物化视图供BI系统查询。在LakeHouse场景中,StarRocks的联合查询,不但屏蔽了底层数据源的细节,而且可以对异构数据据源数据联合分析,与增量数据湖格式完美结合。其次,当所有聚合的数都导入Olap系统时,运营人员可以快速用它,实现自己新的想法,提升工作效率。除此之外,它支持向量化的查询,完善的SQL以及实时的数据更新,查询速度可以达到亚秒级的响应。
转载
博文更新于 2025.04.15 ·
264 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink基于Paimon的实时湖仓解决方案的演进

这是一个典型的流式湖仓架构,首先业务数据会存储在 MySQL 表中,然后借助 Flink 及其 CDC Connector 的作业,将这些数据库的数据同步到 Paimon 的 ODS 层中,从而构成 ODS 层数据。在有了 ODS 层数据之后通常会进行数据过滤,并进行数据的 Join 操作,以生成一个宽表,这就是 DWD 层的数据。接着在流式湖仓中也经常看到使用无主键表的情况,然而无主键表存在一个问题:它的所有数据都是根据写入时的顺序进行排序的,而在一个数据文件内部,所有列的数据是乱序的。
转载
博文更新于 2025.04.09 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Flink 2.0.0: 实时数据处理的新纪元

实时计算的成本居高不下,无论是昂贵的资源消耗,还是掌握复杂的分布式流处理概念所需的学习曲线,都限制了实时计算在更多样化应用场景中的发挥。在 Flink 2.0 中,Flink 社区与 Paimon 社区紧密合作,充分发挥各自优势和前沿功能,带来了显著的增强和优化。这有效缓解了由数据倾斜引起的长尾延迟。- 通过与 Apache Paimon 社区的合作,Paimon 的湖存储格式目前原生支持 Flink 物化表,将 Flink 的流批计算与 Paimon 的高性能 ACID 事务相结合,实现统一的数据服务。
转载
博文更新于 2025.04.04 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink + Doris 实时湖仓解决方案

然而,这也会引发一些问题,例如,虽然它满足了两种场景的需求,但是整个操作过程非常复杂,两条流的数据如何保持一致成为难题,各种校验和对齐工作使得数据一致性很难得到保证。相比 MySQL 协议,ADBC 更适合高性能的数据传输,在 AI 和机器学习场景下,能够快速的传输大量的数据。IO优化:针对 HDFS 或者对象存储系统的特性,Doris 实施了涵盖小 IO 合并、IO 预取、延迟物化等诸多优化举措,助力用户在未命中缓存的情况下读取远端数据时,依旧能够实现较为良好的吞吐效果或者较低的延迟。
转载
博文更新于 2025.04.03 ·
281 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 批处理自适应执行计划优化

如果用静态 Broadcast Hash Join 优化策略对它进行优化,我们只能通过统计信息得到右表的原始数据量,由于表的大小15MB大于 Broadcast 的阈值 10MB,因此它不会在编译期被优化为 Broadcast Hash Join,但是在实际运行的时候,经过 Filter 算子的过滤,它所在的 stage 产出的实际数据量只有5MB,又满足了 Broadcast 的阈值,但是在原有的架构下,由于逻辑拓扑无法被修改,因此它还是会按照SortMergeJoin的方式去执行。
转载
博文更新于 2025.03.29 ·
154 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

最初,尝试使用 Trino Java Connector,但发现 HUE 底层是通过 Python 代码构建的,而 Trino Java Connector 在使用时存在一些问题,特别是在内存管理方面,有时难以对 Java Gateway 实现内存的有效回收,这可能导致线上内存泄露。例如,在 Hudi 的某些场景中,可能会出现大小为 0 的 Marker File,这可能导致 Trino 在扫描时将这些无效文件纳入查询范围,从而造成查询卡顿,在内部镜像中对类似的问题进行了修复。
转载
博文更新于 2025.03.18 ·
480 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

AI如何帮助程序员减负的?

例如输入“创建连接SQL Server的C#数据库类”,AI可自动生成包含连接池管理、CRUD操作的基础代码,节省80%重复编码时间。Fitten Code根据代码逻辑输出API文档,文心快码实现注释与代码同步生成,节省30%文档维护时间。Kimi支持解析20万行代码库生成架构图,Tripo实现文字生成3D模型代码,拓展开发边界。腾讯、阿里等企业通过AI生成小程序全栈代码,自动处理跨端兼容性问题,开发周期缩短70%DeepSeek-R1支持基于企业代码库定制AI助手,实现私有化部署,适应特定开发规范。
原创
博文更新于 2025.03.17 ·
709 阅读 ·
9 点赞 ·
0 评论 ·
16 收藏

deepseek多模态版本上线了|免费

我是 DeepSeek 能力增强版,你可以使用我来完成联网搜索、图片理解、读链接、生成图片、思维导图等需求。
转载
博文更新于 2025.03.17 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多