Lansonli-CSDN博客

Lansonli

码龄9年

IP 属地：广东省

加入CSDN时间： 2016-11-18

个人简介：CSDN大数据领域博客专家，InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋（TDP）核心成员、51CTO专家博主，全网二十万多粉丝，知名互联网公司大数据高级开发工程师

查看详细资料

个人成就

2022年度博客之星大数据领域TOP 2
领域专家: 大数据技术领域
获得21,058次点赞
内容获得19,307次评论
获得23,700次收藏
代码片获得6,884次分享
原力等级

原力等级

9

原力分

25,660

本月获得

21

TA的专栏

TA关注的专栏 29

TA关注的收藏夹 0

TA关注的社区 415

TA参与的活动 16

TA的推广

兴趣领域设置

要不要学，为什么要学大数据，最好的机会没有之一

欢迎关注公众号【三帮大数据】

扫码获取高质量思维导图，互联网一线大厂面经，大数据珍藏精品书籍...期待您的关注! 特大喜讯

停下休息的时候不要忘了别人还在奔跑！

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

36人参与去参加

更多

大数据Spark（七十五）：Action行动算子foreachpartition和count使用案例

摘要：本文介绍了Spark中的两个重要Action算子：foreachPartition和count。foreachPartition以分区为单位遍历数据，适用于批量操作场景（如数据库连接），相比foreach能显著提高效率。count则用于统计RDD中的元素总数。文章通过Java和Scala代码示例展示了两种算子的具体用法，并强调Action算子会触发实际计算（与Transformations的延迟执行不同），每个Action算子对应一个Spark job。这些算子对于大数据处理中的结果收集和持久化操作至

博文更新于 2025.12.13 ·

大数据Spark（七十四）：Transformation转换算子aggregateByKey和combineByKey使用案例

本文介绍了Spark中两个关键的转换算子aggregateByKey和combineByKey的使用方法。aggregateByKey允许分别定义分区内和分区间聚合规则，通过初始值zeroValue、分区内聚合函数seqOp和分区间合并函数combOp实现灵活聚合。combineByKey则通过createCombiner初始化每个键的第一个值，使用mergeValue合并分区内数据，mergeCombiners合并分区间结果。两种算子都支持map端预聚合，但combineByKey可以基于第一个值进行初始

博文更新于 2025.11.26 ·

大数据Spark（七十三）：Transformation转换算子glom和foldByKey使用案例

摘要：本文介绍了Spark中两个Transformation转换算子glom和foldByKey的使用案例。glom算子将每个分区的数据合并为数组，适用于数据量小且需要分区内统计的场景，文中展示了Java和Scala的代码实现。foldByKey算子则是对键值对RDD进行聚合操作，与reduceByKey类似但支持初始值设置，适用于分区内外聚合规则相同的场景，同样提供了Java和Scala示例。文章还通过实际运行结果展示了不同分区设置对foldByKey计算结果的影响。

博文更新于 2025.11.15 ·

大数据Spark（七十二）：Transformation转换算子repartition和coalesce使用案例

本文介绍了Spark中两种分区调整算子：repartition和coalesce。repartition可以进行分区增减，但总会触发shuffle操作，适合提高并行度；coalesce主要用于减少分区，默认不触发shuffle，效率更高。文章通过Java和Scala代码示例演示了两种操作的效果，特别指出repartition(numPartitions)等同于coalesce(numPartitions,true)。当coalesce设置的分区数大于原分区数且shuffle=false时，操作不会生效。

博文更新于 2025.11.08 ·

大数据Spark（七十一）：Transformation转换算子zipWithIndex、mapPartitions和mapPartitionsWithIndex使用案例

本文介绍了Spark中的三个重要转换算子：zipWithIndex、mapPartitions和mapPartitionsWithIndex的使用案例。zipWithIndex用于将RDD元素与其索引组成键值对；mapPartitions以分区为单位处理数据，适合批量操作如数据库连接；mapPartitionsWithIndex则在处理分区数据时能获取分区索引。文章分别展示了Java和Scala两种语言的实现代码，并通过示例演示了这些算子在实际应用中的场景和优势，如减少重复初始化开销等。运行结果显示这些算子

博文更新于 2025.11.01 ·

大数据Spark（七十）：Transformation转换算子cogroup和zip使用案例

本文介绍了Spark中两个重要的转换算子cogroup和zip的使用方法。cogroup作用于两个键值格式的RDD，将相同键的值合并为迭代器集合，返回格式为RDD(K,(Iterable,Iterable))，注意子RDD分区数与父RDD较多的保持一致。zip则将两个RDD中的元素按位置一一对应组合成键值对，要求两个RDD的每个分区元素个数必须相同。文章提供了Java和Scala两种语言的实现代码示例，展示了如何通过这两个算子对数据进行转换操作。

博文更新于 2025.10.24 ·

大数据Spark（六十九）：Transformation转换算子intersection和subtract使用案例

取两个RDD数据集的差集，rdd1.subtract(rdd2):返回rdd1中有但rdd2中没有的元素。注意：生成RDD的分区数与subtract前面的RDD的分区数一致。注意：返回新的RDD分区数与父RDD分区多的一致。取两个RDD数据集的交集。

博文更新于 2025.10.17 ·

大数据Spark（六十八）：Transformation转换算子所有Join操作和union

本文介绍了Spark中常用的Join和Union转换算子。Join操作包括join、leftOuterJoin、rightOuterJoin和fullOuterJoin，用于基于键合并两个K-V格式的RDD，类似于数据库连接操作，结果RDD的分区数与父RDD中分区数较多的相同。Union操作用于合并两个类型相同的RDD，不会去重，结果RDD的分区数是两个RDD分区数的总和。文章提供了Java和Scala两种语言的实现代码示例，展示了各种操作的具体用法和输出结果。

博文更新于 2025.10.12 ·

大数据Spark（六十七）：Transformation转换算子distinct和mapValues

本文介绍了Spark中两个重要的Transformation转换算子：distinct和mapValues。distinct用于对RDD数据进行去重，底层实现为map+reduceByKey+map组合操作，并提供了Java和Scala的代码示例。mapValues则专门处理K,V格式RDD中的Value值，保持Key不变，只对Value进行转换，同样给出了Java和Scala实现代码。文章还提到flatMapValues算子与mapValues的区别，前者支持一对多数据转换。内容包含详细的代码演示，帮助理

博文更新于 2025.10.07 ·

大数据Spark（六十六）：Transformation转换算子sample、sortBy和sortByKey

本文介绍了Spark中三种常用的Transformation转换算子：sample、sortBy和sortByKey。sample算子用于随机抽样，支持有放回和无放回抽样；sortBy可以对任意类型RDD按指定键排序；sortByKey专用于键值对RDD的键排序。文章详细说明了每个算子的函数签名、参数含义，并提供了Java和Scala的代码实现示例，包括数据抽样、按字符串长度排序和按键值降序排序等实际应用场景。这些算子在大数据处理中非常实用，能有效支持数据抽样预览和排序等操作需求。

博文更新于 2025.10.04 ·

大数据Spark（六十五）：Transformation转换算子groupByKey和filter

本文介绍了Spark中的两个Transformation转换算子：groupByKey和filter。groupByKey用于对K-V格式的RDD按Key分组，返回（K, Iterable<V>），但对于聚合场景建议使用更高效的reduceByKey。文中提供了Java和Scala的代码示例，演示了如何通过groupByKey进行分组求和。filter算子则用于根据条件过滤数据，保留返回true的记录，示例展示了如何过滤长度大于5的字符串。两种算子都配有完整的代码实现，帮助读者理解具体应用方式。

博文更新于 2025.10.01 ·

大数据Spark（六十四）：Spark算子介绍

摘要：本文介绍了Apache Spark中的三类核心算子：Transformation（转换算子）重点讲解了常用的Transformation算子如map、flatMap、reduceByKey和groupBy，通过Java和Scala代码示例展示了groupBy的分组功能。文章还概述了Spark编程的基本流程：配置SparkConf、创建SparkContext、RDD转换处理及触发执行。这些算子通过惰性计算机制优化了分布式数据处理效率。

博文更新于 2025.09.30 ·

大数据Spark（六十三）：RDD-Resilient Distributed Dataset

本文介绍了Spark核心组件RDD（弹性分布式数据集）的五大特性及创建方式。RDD是不可变、可分区、并行计算的数据集合，具有五大特性：分区组成、分区计算函数、RDD间依赖关系、键值RDD分区器及最佳计算位置。RDD创建方式包括从集合创建（Java/Scala API）、从文件创建以及基于现有RDD转换。文章还强调RDD不存储数据，采用"计算移动，数据不移动"原则，并提供了具体代码示例说明如何创建RDD及设置分区数。

博文更新于 2025.09.08 ·

大数据Spark（六十二）：Spark基于Yarn提交任务流程

本文介绍了Spark在Yarn模式下提交任务的两种方式：Yarn-Client和Yarn-Cluster模式。Yarn-Client模式中，Driver运行在客户端节点，适合测试环境；Yarn-Cluster模式中，Driver作为AM运行在集群内部，适合生产环境。文章详细说明了两种模式的提交命令和执行流程，并对比了它们的特点和使用场景。Yarn-Client模式便于查看任务结果但可能导致客户端负载过高，而Yarn-Cluster模式将Driver分散在集群中，需要通过Yarn WebUI查看结果

博文更新于 2025.07.07 ·

大数据Spark（六十一）：Spark基于Standalone提交任务流程

在Standalone-Client模式中，Driver进程在提交Application的客户端节点上启动，客户端可以查看任务的执行情况和结果。原因在于，当客户端提交大量Application时，所有Driver都在客户端启动，Driver与集群之间存在大量通信，可能导致客户端网络流量激增。：在Standalone-Cluster模式中，Driver进程在集群的某个Worker节点上启动，客户端无法直接查看任务的执行结果，需要通过集群的Web UI查看日志获取结果。

博文更新于 2025.06.04 ·

大数据Spark（六十）：Spark On Yarn 配置

本文介绍了如何配置SparkOnYarn环境，主要包括：1）将Spark安装包解压到node5节点；2）配置spark-env.sh文件，指定Hadoop配置文件路径；3）关闭NodeManager虚拟内存检查。最后通过提交SparkPi任务测试配置是否成功，验证了Spark在Yarn上的正常运行。配置过程需要注意Hadoop集群环境准备及参数设置。

博文更新于 2025.05.25 ·

大数据Spark（五十九）：Standalone集群部署

Standalone集群是Spark自带的资源调度系统，无需依赖外部集群管理器。集群由主节点（Master）、工作节点（Worker）和客户端（Client）组成。Master负责资源管理和任务调度，Worker执行计算任务，Client提交任务。搭建Standalone集群的步骤包括：上传并解压Spark安装包，配置spark-env.sh和workers文件，将配置好的安装包发送到各节点，启动集群。启动后，可通过浏览器查看集群信息。测试集群时，可在客户端节点上提交任务，如SparkPi任务，以验证集群的

博文更新于 2025.05.20 ·

大数据Spark（五十八）：Spark Pi介绍

上图中，正方形边长为2，圆的半径为1，那么正方形面积为4，圆的面积为π。现在向正方形内随机“打点”，即随机生成（x,y）坐标，范围不超过正方向范围，最终记录在圆内打点的个数与正方形内打点的个数，两者比例为4/π，当“打点”个数非常大时，可以大约算出π的大小。

博文更新于 2025.05.03 ·

大数据Spark（五十七）：Spark运行架构与MapReduce区别

提供了更高级的编程接口，如 RDD（弹性分布式数据集）和 DataFrame，支持丰富的操作算子，使得开发者可以以更简洁的方式编写复杂的处理逻辑。：采用基于磁盘的处理方式，每个任务的中间结果需要写入磁盘，然后再读取进行下一步处理。：提供了相对低级的编程接口，主要包含 Map 和 Reduce 两个操作，开发者需要编写较多的代码来实现复杂的数据处理逻辑。Application运行前，为所有的Spark Job申请资源，所有Job执行完成后，统一释放资源。：主要用于批处理任务，不适合实时数据处理。

博文更新于 2025.04.05 ·

大数据Spark（五十六）：Spark生态模块与运行模式

Spark Core 是 Spark 的核心模块，提供了基本的功能和 API，包括任务调度、内存管理、故障恢复等,它实现了弹性分布式数据集（RDD）的概念，支持对分布式数据集的并行操作，Spark其他模块都是基于 Spark Core 构建。在 Kubernetes 模式下，Spark 应用程序以容器的形式运行，Kubernetes 负责容器的调度和管理。MLlib 模块是 Spark 的机器学习库，提供了常用的机器学习算法和工具，如分类、回归、聚类、协同过滤等。下面分别介绍Spark各个模块功能。

博文更新于 2025.03.30 ·