Lansonli
码龄9年
求更新 关注
提问 私信
  • 博客:3,275,556
    社区:278,870
    问答:629
    动态:898,318
    视频:475
    4,453,848
    总访问量
  • 1,441
    原创
  • 165
    排名
  • 203,044
    粉丝
  • 2,000
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2016-11-18

个人简介:CSDN大数据领域博客专家,InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋(TDP)核心成员、51CTO专家博主,全网二十万多粉丝,知名互联网公司大数据高级开发工程师

博客简介:

Lansonli(蓝深李)的博客

博客描述:
影响未来社会二十年发展,核心技术趋势由ABCD四个字母组成,分别是AI(人工智能)BlockChain(区块链)、Cloud(云)、和Data(大数据),每一夜都有全新的认知和感触
查看详细资料
个人成就
  • 2022年度博客之星大数据领域TOP 2
  • 领域专家: 大数据技术领域
  • 获得21,058次点赞
  • 内容获得19,307次评论
  • 获得23,700次收藏
  • 代码片获得6,884次分享
  • 原力等级
    原力等级
    9
    原力分
    25,660
    本月获得
    21
创作历程
  • 31篇
    2025年
  • 151篇
    2024年
  • 213篇
    2023年
  • 502篇
    2022年
  • 279篇
    2021年
  • 99篇
    2020年
  • 155篇
    2019年
  • 37篇
    2018年
成就勋章
TA的专栏
  • 大数据入门核心技术
    付费
    314篇
  • 大数据OLAP技术体系
    付费
    154篇
  • 数据湖基础+湖仓一体电商项目
    付费
    45篇
  • 客快物流大数据项目
    付费
    119篇
  • 大数据必学Java基础
    付费
    124篇
  • Spring系列核心知识
    付费
    41篇
  • Python零基础入门
    付费
    26篇
  • 大数据进阶知识
    付费
    16篇
  • 云原生核心技术
    付费
    46篇
  • 大数据必学语言Scala
    付费
    39篇
  • 大数据其他相关技术原理
    付费
    38篇
  • PostgreSQL
    15篇
  • 量子计算
    22篇
  • 云原生
    66篇
  • 程序人生
    12篇
  • 编程小技巧
    1篇
  • 大数据
    65篇
  • Apache Druid
    8篇
  • 数据中台
    11篇
  • Hive
    15篇
  • ELK
    35篇
  • Kafka
    12篇
  • HBase
    19篇
  • Hadoop
    30篇
  • ZooKeeper
    6篇
  • Flink
    122篇
  • Spark
    82篇
  • Linux
    41篇
  • API/RPC/Socket技术
    20篇
  • Java
    11篇
  • 人工智能
    18篇
  • 数据结构与算法
    5篇
  • 商品名词解释与逻辑设计
    7篇
  • MySQL
    31篇
  • PHP
    43篇
  • 代码管理工具(Git/Svn)
    13篇
  • JavaScript HTML/CSS/前端知识体系
    3篇
  • 黑客
    4篇
  • Python(爬虫/网站/人工智能)
    83篇
  • Docker
    15篇
  • MQ/非关系数据库/分布式
    25篇
  • CentOS
    22篇

TA关注的专栏 29

TA关注的收藏夹 0

TA关注的社区 415

TA参与的活动 16

TA的推广
兴趣领域 设置
  • 大数据
    mysqlhadoophiveredisstormsparketl
  • 后端
    spring
  • 人工智能
    机器学习深度学习tensorflow
  • 搜索
    elasticsearch
要不要学,为什么要学大数据,最好的机会没有之一
欢迎关注公众号【三帮大数据】
三帮大数据

扫码获取高质量思维导图,互联网一线大厂面经,大数据珍藏精品书籍...期待您的关注!
特 大 喜 讯

大数据入门核心技术栏目搞活动了
停下休息的时候不要忘了别人还在奔跑!
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

36人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 资源
  • 代码仓
  • 帖子
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 资源

  • 代码仓

  • 帖子

  • 关注/订阅/互动

  • 社区

搜索 取消

大数据Spark(七十五):Action行动算子foreachpartition和count使用案例

摘要:本文介绍了Spark中的两个重要Action算子:foreachPartition和count。foreachPartition以分区为单位遍历数据,适用于批量操作场景(如数据库连接),相比foreach能显著提高效率。count则用于统计RDD中的元素总数。文章通过Java和Scala代码示例展示了两种算子的具体用法,并强调Action算子会触发实际计算(与Transformations的延迟执行不同),每个Action算子对应一个Spark job。这些算子对于大数据处理中的结果收集和持久化操作至
原创
博文更新于 2025.12.13 ·
1181 阅读 ·
7 点赞 ·
0 评论 ·
13 收藏

大数据Spark(七十四):Transformation转换算子aggregateByKey和combineByKey使用案例

本文介绍了Spark中两个关键的转换算子aggregateByKey和combineByKey的使用方法。aggregateByKey允许分别定义分区内和分区间聚合规则,通过初始值zeroValue、分区内聚合函数seqOp和分区间合并函数combOp实现灵活聚合。combineByKey则通过createCombiner初始化每个键的第一个值,使用mergeValue合并分区内数据,mergeCombiners合并分区间结果。两种算子都支持map端预聚合,但combineByKey可以基于第一个值进行初始
原创
博文更新于 2025.11.26 ·
1215 阅读 ·
18 点赞 ·
0 评论 ·
12 收藏

大数据Spark(七十三):Transformation转换算子glom和foldByKey使用案例

摘要:本文介绍了Spark中两个Transformation转换算子glom和foldByKey的使用案例。glom算子将每个分区的数据合并为数组,适用于数据量小且需要分区内统计的场景,文中展示了Java和Scala的代码实现。foldByKey算子则是对键值对RDD进行聚合操作,与reduceByKey类似但支持初始值设置,适用于分区内外聚合规则相同的场景,同样提供了Java和Scala示例。文章还通过实际运行结果展示了不同分区设置对foldByKey计算结果的影响。
原创
博文更新于 2025.11.15 ·
1271 阅读 ·
7 点赞 ·
1 评论 ·
11 收藏

大数据Spark(七十二):Transformation转换算子repartition和coalesce使用案例

本文介绍了Spark中两种分区调整算子:repartition和coalesce。repartition可以进行分区增减,但总会触发shuffle操作,适合提高并行度;coalesce主要用于减少分区,默认不触发shuffle,效率更高。文章通过Java和Scala代码示例演示了两种操作的效果,特别指出repartition(numPartitions)等同于coalesce(numPartitions,true)。当coalesce设置的分区数大于原分区数且shuffle=false时,操作不会生效。
原创
博文更新于 2025.11.08 ·
1065 阅读 ·
11 点赞 ·
1 评论 ·
9 收藏

大数据Spark(七十一):Transformation转换算子zipWithIndex、mapPartitions和mapPartitionsWithIndex使用案例

本文介绍了Spark中的三个重要转换算子:zipWithIndex、mapPartitions和mapPartitionsWithIndex的使用案例。zipWithIndex用于将RDD元素与其索引组成键值对;mapPartitions以分区为单位处理数据,适合批量操作如数据库连接;mapPartitionsWithIndex则在处理分区数据时能获取分区索引。文章分别展示了Java和Scala两种语言的实现代码,并通过示例演示了这些算子在实际应用中的场景和优势,如减少重复初始化开销等。运行结果显示这些算子
原创
博文更新于 2025.11.01 ·
1536 阅读 ·
14 点赞 ·
0 评论 ·
15 收藏

大数据Spark(七十):Transformation转换算子cogroup和zip使用案例

本文介绍了Spark中两个重要的转换算子cogroup和zip的使用方法。cogroup作用于两个键值格式的RDD,将相同键的值合并为迭代器集合,返回格式为RDD(K,(Iterable,Iterable)),注意子RDD分区数与父RDD较多的保持一致。zip则将两个RDD中的元素按位置一一对应组合成键值对,要求两个RDD的每个分区元素个数必须相同。文章提供了Java和Scala两种语言的实现代码示例,展示了如何通过这两个算子对数据进行转换操作。
原创
博文更新于 2025.10.24 ·
455 阅读 ·
6 点赞 ·
0 评论 ·
6 收藏

大数据Spark(六十九):Transformation转换算子intersection和subtract使用案例

取两个RDD数据集的差集,rdd1.subtract(rdd2):返回rdd1中有但rdd2中没有的元素。注意:生成RDD的分区数与subtract前面的RDD的分区数一致。注意:返回新的RDD分区数与父RDD分区多的一致。取两个RDD数据集的交集。
原创
博文更新于 2025.10.17 ·
1189 阅读 ·
7 点赞 ·
2 评论 ·
7 收藏

大数据Spark(六十八):Transformation转换算子所有Join操作和union

本文介绍了Spark中常用的Join和Union转换算子。Join操作包括join、leftOuterJoin、rightOuterJoin和fullOuterJoin,用于基于键合并两个K-V格式的RDD,类似于数据库连接操作,结果RDD的分区数与父RDD中分区数较多的相同。Union操作用于合并两个类型相同的RDD,不会去重,结果RDD的分区数是两个RDD分区数的总和。文章提供了Java和Scala两种语言的实现代码示例,展示了各种操作的具体用法和输出结果。
原创
博文更新于 2025.10.12 ·
599 阅读 ·
6 点赞 ·
2 评论 ·
7 收藏

大数据Spark(六十七):Transformation转换算子distinct和mapValues

本文介绍了Spark中两个重要的Transformation转换算子:distinct和mapValues。distinct用于对RDD数据进行去重,底层实现为map+reduceByKey+map组合操作,并提供了Java和Scala的代码示例。mapValues则专门处理K,V格式RDD中的Value值,保持Key不变,只对Value进行转换,同样给出了Java和Scala实现代码。文章还提到flatMapValues算子与mapValues的区别,前者支持一对多数据转换。内容包含详细的代码演示,帮助理
原创
博文更新于 2025.10.07 ·
1446 阅读 ·
9 点赞 ·
3 评论 ·
9 收藏

大数据Spark(六十六):Transformation转换算子sample、sortBy和sortByKey

本文介绍了Spark中三种常用的Transformation转换算子:sample、sortBy和sortByKey。sample算子用于随机抽样,支持有放回和无放回抽样;sortBy可以对任意类型RDD按指定键排序;sortByKey专用于键值对RDD的键排序。文章详细说明了每个算子的函数签名、参数含义,并提供了Java和Scala的代码实现示例,包括数据抽样、按字符串长度排序和按键值降序排序等实际应用场景。这些算子在大数据处理中非常实用,能有效支持数据抽样预览和排序等操作需求。
原创
博文更新于 2025.10.04 ·
1607 阅读 ·
8 点赞 ·
3 评论 ·
16 收藏

大数据Spark(六十五):Transformation转换算子groupByKey和filter

本文介绍了Spark中的两个Transformation转换算子:groupByKey和filter。groupByKey用于对K-V格式的RDD按Key分组,返回(K, Iterable<V>),但对于聚合场景建议使用更高效的reduceByKey。文中提供了Java和Scala的代码示例,演示了如何通过groupByKey进行分组求和。filter算子则用于根据条件过滤数据,保留返回true的记录,示例展示了如何过滤长度大于5的字符串。两种算子都配有完整的代码实现,帮助读者理解具体应用方式。
原创
博文更新于 2025.10.01 ·
923 阅读 ·
6 点赞 ·
2 评论 ·
13 收藏

大数据Spark(六十四):Spark算子介绍

摘要:本文介绍了Apache Spark中的三类核心算子:Transformation(转换算子)重点讲解了常用的Transformation算子如map、flatMap、reduceByKey和groupBy,通过Java和Scala代码示例展示了groupBy的分组功能。文章还概述了Spark编程的基本流程:配置SparkConf、创建SparkContext、RDD转换处理及触发执行。这些算子通过惰性计算机制优化了分布式数据处理效率。
原创
博文更新于 2025.09.30 ·
1080 阅读 ·
29 点赞 ·
2 评论 ·
19 收藏

大数据Spark(六十三):RDD-Resilient Distributed Dataset

本文介绍了Spark核心组件RDD(弹性分布式数据集)的五大特性及创建方式。RDD是不可变、可分区、并行计算的数据集合,具有五大特性:分区组成、分区计算函数、RDD间依赖关系、键值RDD分区器及最佳计算位置。RDD创建方式包括从集合创建(Java/Scala API)、从文件创建以及基于现有RDD转换。文章还强调RDD不存储数据,采用"计算移动,数据不移动"原则,并提供了具体代码示例说明如何创建RDD及设置分区数。
原创
博文更新于 2025.09.08 ·
1328 阅读 ·
10 点赞 ·
0 评论 ·
25 收藏

大数据Spark(六十二):Spark基于Yarn提交任务流程

本文介绍了Spark在Yarn模式下提交任务的两种方式:Yarn-Client和Yarn-Cluster模式。Yarn-Client模式中,Driver运行在客户端节点,适合测试环境;Yarn-Cluster模式中,Driver作为AM运行在集群内部,适合生产环境。文章详细说明了两种模式的提交命令和执行流程,并对比了它们的特点和使用场景。Yarn-Client模式便于查看任务结果但可能导致客户端负载过高,而Yarn-Cluster模式将Driver分散在集群中,需要通过Yarn WebUI查看结果
原创
博文更新于 2025.07.07 ·
2276 阅读 ·
18 点赞 ·
3 评论 ·
19 收藏

大数据Spark(六十一):Spark基于Standalone提交任务流程

在Standalone-Client模式中,Driver进程在提交Application的客户端节点上启动,客户端可以查看任务的执行情况和结果。原因在于,当客户端提交大量Application时,所有Driver都在客户端启动,Driver与集群之间存在大量通信,可能导致客户端网络流量激增。:在Standalone-Cluster模式中,Driver进程在集群的某个Worker节点上启动,客户端无法直接查看任务的执行结果,需要通过集群的Web UI查看日志获取结果。
原创
博文更新于 2025.06.04 ·
1922 阅读 ·
29 点赞 ·
2 评论 ·
23 收藏

大数据Spark(六十):Spark On Yarn 配置

本文介绍了如何配置SparkOnYarn环境,主要包括:1)将Spark安装包解压到node5节点;2)配置spark-env.sh文件,指定Hadoop配置文件路径;3)关闭NodeManager虚拟内存检查。最后通过提交SparkPi任务测试配置是否成功,验证了Spark在Yarn上的正常运行。配置过程需要注意Hadoop集群环境准备及参数设置。
原创
博文更新于 2025.05.25 ·
1568 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

大数据Spark(五十九):Standalone集群部署

Standalone集群是Spark自带的资源调度系统,无需依赖外部集群管理器。集群由主节点(Master)、工作节点(Worker)和客户端(Client)组成。Master负责资源管理和任务调度,Worker执行计算任务,Client提交任务。搭建Standalone集群的步骤包括:上传并解压Spark安装包,配置spark-env.sh和workers文件,将配置好的安装包发送到各节点,启动集群。启动后,可通过浏览器查看集群信息。测试集群时,可在客户端节点上提交任务,如SparkPi任务,以验证集群的
原创
博文更新于 2025.05.20 ·
1948 阅读 ·
29 点赞 ·
0 评论 ·
31 收藏

大数据Spark(五十八):Spark Pi介绍

上图中,正方形边长为2,圆的半径为1,那么正方形面积为4,圆的面积为π。现在向正方形内随机“打点”,即随机生成(x,y)坐标,范围不超过正方向范围,最终记录在圆内打点的个数与正方形内打点的个数,两者比例为4/π,当“打点”个数非常大时,可以大约算出π的大小。
原创
博文更新于 2025.05.03 ·
2036 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

大数据Spark(五十七):Spark运行架构与MapReduce区别

提供了更高级的编程接口,如 RDD(弹性分布式数据集)和 DataFrame,支持丰富的操作算子,使得开发者可以以更简洁的方式编写复杂的处理逻辑。:采用基于磁盘的处理方式,每个任务的中间结果需要写入磁盘,然后再读取进行下一步处理。:提供了相对低级的编程接口,主要包含 Map 和 Reduce 两个操作,开发者需要编写较多的代码来实现复杂的数据处理逻辑。Application运行前,为所有的Spark Job申请资源,所有Job执行完成后,统一释放资源。:主要用于批处理任务,不适合实时数据处理。
原创
博文更新于 2025.04.05 ·
2395 阅读 ·
33 点赞 ·
2 评论 ·
26 收藏

大数据Spark(五十六):Spark生态模块与运行模式

Spark Core 是 Spark 的核心模块,提供了基本的功能和 API,包括任务调度、内存管理、故障恢复等,它实现了弹性分布式数据集(RDD)的概念,支持对分布式数据集的并行操作,Spark其他模块都是基于 Spark Core 构建。在 Kubernetes 模式下,Spark 应用程序以容器的形式运行,Kubernetes 负责容器的调度和管理。MLlib 模块是 Spark 的机器学习库,提供了常用的机器学习算法和工具,如分类、回归、聚类、协同过滤等。下面分别介绍Spark各个模块功能。
原创
博文更新于 2025.03.30 ·
1506 阅读 ·
31 点赞 ·
0 评论 ·
14 收藏
加载更多