书生♡
码龄4年
求更新 关注
提问 私信
  • 博客:103,144
    社区:1,696
    104,840
    总访问量
  • 92
    原创
  • 1,193
    粉丝
  • 172
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2021-12-09

个人简介:一名热爱大数据开发的技术分享者

博客简介:

书生的技术分享

博客描述:
分享大数据开发,java,python等相关技术博客
查看详细资料
个人成就
  • 获得1,095次点赞
  • 内容获得103次评论
  • 获得1,204次收藏
  • 代码片获得406次分享
  • 博客总排名57,469名
  • 原力等级
    原力等级
    5
    原力分
    1,087
    本月获得
    1
创作历程
  • 2篇
    2025年
  • 39篇
    2024年
  • 47篇
    2023年
  • 4篇
    2022年
成就勋章
TA的专栏
  • 大数据开发
    33篇
  • 数据分析
    10篇
  • java
    20篇
  • MYSQL数据库
    6篇
兴趣领域 设置
  • Python
    python
  • Java
    javajava-ee
  • 大数据
    mysqlhadoophivezookeepersparkkafkaflink大数据
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

30人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 收藏
  • 社区
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 收藏

  • 社区

搜索 取消

【FineReport的详细使用教程】

FineReport报表软件是一款纯Java编写的,集数据展示(报表)和数据录入(表单)功能于一身的企业级Web报表工具,它专业、简捷、灵活的特点和无码理念,仅需简单的拖拽操作便可以设计复杂的中国式报表,搭建数据决策分析系统。FineReport旨在帮助用户轻松构建灵活的数据分析和报表系统,通过表格、图表等形式动态展示数据,辅助企业进行数据分析和管理决策。它大大缩短了项目周期,降低了实施成本,有效解决了企业信息孤岛问题,使数据真正产生其应用价值。
原创
博文更新于 2025.06.26 ·
7467 阅读 ·
37 点赞 ·
4 评论 ·
87 收藏

【史上最全万字mysql进阶语法】

文章主要介绍了DQL的操作,分组查询,分页查询,排序查询,子查询等等,同时介绍了mysql语句的流程.
原创
博文更新于 2025.06.24 ·
1247 阅读 ·
15 点赞 ·
3 评论 ·
18 收藏

【ETl工具Kettle的使用技巧】

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。
原创
博文更新于 2025.06.24 ·
1869 阅读 ·
11 点赞 ·
0 评论 ·
19 收藏

【FIneBI可视化工具的使用】

FIneBI是可视化的工具!首先我们要知道可视化的是什么?我们大数据常说的可视化的数据。例如:将我们数据库的数据进行可视化。
原创
博文更新于 2025.06.24 ·
6088 阅读 ·
29 点赞 ·
0 评论 ·
44 收藏

【Hadoop技术框架--HDFS】

大数据时代的到来,人们对数据的依赖性越来越大、上网产生的数据量急剧增加、信息量爆炸式增长。因此,只是通过增加计算机的硬盘容量处理数据难以达到要求,这样将所有的数据存储和处理在同一台计算机上便不可行了。此时通过增加计算机的横向容量,即增加计算机的数量,将数据分布在多台计算机上的Hadoop 分布式计算便诞生了。而HDFS是Hadoop 分布式计算的一个重要组成部分,分布式文件系统。
原创
博文更新于 2025.06.24 ·
1372 阅读 ·
25 点赞 ·
0 评论 ·
23 收藏

【Hadoop技术框架-MapReduce和Yarn的详细描述和部署】

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序。
原创
博文更新于 2025.06.24 ·
1304 阅读 ·
24 点赞 ·
0 评论 ·
28 收藏

【Hive上篇: 一篇文章带你使用Hive!深入了解Hive!学会Hive!】

什么是Hive?怎么使用Hive?怎么安装部署?HiveHive是基于Hadoop的一个数据仓库工具,用于进行数据提取、转换和加载(ETL)。它可以将结构化的数据文件映射为一张数据库表,并提供类似SQL的查询语言(HiveQL),使用户能够使用SQL语句来查询、汇总和整理大规模的数据集。Hive的核心功能包括数据存储、数据查询、数据处理、数据转换以及数据安全控制等。简单的定义就是:Hive是一个SQL转化转化工具,将SQL的计算转为MapReduce的计算,让开发人员更加方便进行大数据开发。
原创
博文更新于 2025.06.24 ·
1486 阅读 ·
21 点赞 ·
0 评论 ·
10 收藏

【Hive下篇: 一篇文章带你了解表的静态分区,动态分区! 分桶!Hive sql的内置函数!复杂数据类型!hive的简单查询语句!】

连接查询!正则表达式! 虚拟列!爆炸函数!行列转换! Hive的数据压缩和数据存储!什么是内连接,外连接,全连接等等。正则表达式是设么样子的。爆炸函数怎么使用。行列转换是怎么转换的。
原创
博文更新于 2025.06.24 ·
992 阅读 ·
14 点赞 ·
0 评论 ·
32 收藏

【大数据离线项目一:基于Apache HIve的大数据离线项目的项目背景,技术框架,业务流程】

基于Apache HIve的大数据离线项目的相关技术分享,项目背景的目的,技术框架,业务流程,设备选型,连接数据库。
原创
博文更新于 2025.06.24 ·
1535 阅读 ·
31 点赞 ·
0 评论 ·
13 收藏

【大数据离线项目二:数仓数据传输工具--DataX的使用】

数仓工具Data X 的使用!使用DataX是如何进行数据的传输也就是说怎么从mysql或者是SQLserver数据库将数据传输到hive数仓中!Data X怎么使用!数据的同步方式!
原创
博文更新于 2025.06.24 ·
2104 阅读 ·
34 点赞 ·
0 评论 ·
9 收藏

【大数据离线项目三:将HIve数仓中的dim进行拉宽聚合处理,PostgreSQL的使用,以及怎么将数据导出到PostgreSQL数据库中】

PostgreSQL(有时也被称为“Postgres”或简称为“PG”)是一个强大的、开源的对象-关系数据库管理系统(ORDBMS)。它使用了和许多其他SQL数据库管理系统(如MySQL、SQLServer、Oracle等)相似的查询语言,但它也提供了许多扩展功能,如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制(MVCC)等。扩展性:PostgreSQL支持大量的扩展,这些扩展可以增加新的数据类型、函数、操作符、索引类型、过程语言等。
原创
博文更新于 2025.06.24 ·
828 阅读 ·
12 点赞 ·
0 评论 ·
28 收藏

【大数据离线项目四:什么是海豚调度?怎么使用可以将海豚调度应用到我们的大数据项目开发中?】

Apache DolphinScheduler(海豚调度)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式
原创
博文更新于 2025.06.24 ·
2827 阅读 ·
30 点赞 ·
0 评论 ·
18 收藏

【Hive中常见的优化手段----数据采集!Join 优化!Hive索引!数据倾斜!mapreduce本地模式!map和reduce数量调整!】

Hive中常见的优化手段----索引的定义:关系型数据库中的索引:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。一般是建立在主键上的。关系型数据库中的索引:hive中的索引功能是有限的,hive中没有关系数据库中主键的概念,但是还是可以对某一些字段建立索引。Hive索引的目标是提高对表的某些列进行查询查找的速度。
原创
博文更新于 2025.06.24 ·
2226 阅读 ·
12 点赞 ·
1 评论 ·
15 收藏

【大数据离线项目五:什么是维度?什么是指标?指标有哪几种分类?电商的业务中有几种需求呢?我们如何把这些需求通过数仓的层级完全展示出来?跟随这篇文章解决心底的疑问!!!】

什么是维度?什么是指标?指标有哪几种分类?维度定义:维度是度量的环境,用来反映业务的一类属性。这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(包括国家、地区、省、城市等)、时间维度(包括年、季、月、周、日等),商品的种类也是一个维度。特点:维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列,称为维度属性。
原创
博文更新于 2025.06.24 ·
1940 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

【Spark计算引擎----第二篇(RDD):一篇文章带你清楚什么是RDD?RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子】

RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子等等!!!RDD是一种弹性分布式数据集合是spark中最基本的数据类型,它提供了容错能力和并行处理的能力。RDD(Resilient Distributed Dataset)弹性分布式数据集合,是Spark中最基本的数据抽象结构,代表一个不可变(只读)、可分区、里面的元素可并行计算的集合。是Spark中的一种数据类型,管理spark的内存数据。
原创
博文更新于 2025.06.24 ·
1844 阅读 ·
18 点赞 ·
1 评论 ·
30 收藏

【Spark计算引擎----第四篇(SparkSQL)---《Spark SQL 介绍:DataFrame 的 Row 和 Schema,DataFrame 的创建与基本使用》】

《Spark SQL 介绍:DataFrame 的 Row 和 Schema,DataFrame 的创建与基本使用》!!!Spark SQL 是 Apache Spark 中的一个模块,它为处理结构化和半结构化数据提供了一种高效且易用的方法。Spark SQL 允许用户通过 SQL 查询或通过 DataFrame 和 Dataset API 来处理数据。SparkSQL是处理结构化数据的模块/组件结构化数据 -> 可以用schema描述的数据表格,
原创
博文更新于 2025.06.24 ·
1184 阅读 ·
32 点赞 ·
0 评论 ·
12 收藏

【Spark计算引擎----第五篇(SparkSQL)---《Spark SQL高级技巧:SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》】

《Spark SQL高级技巧:SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》
原创
博文更新于 2025.06.24 ·
1192 阅读 ·
31 点赞 ·
0 评论 ·
25 收藏

【《Spark SQL 深度探索:内置函数、数据源处理与自定义函数,SparkSQL连接Hive实践》】

【《Spark SQL 深度探索:内置函数、数据源处理与自定义函数,SparkSQL连接Hive实践》】。欢迎大家一起探索讨论!!!
原创
博文更新于 2025.06.24 ·
1308 阅读 ·
17 点赞 ·
0 评论 ·
20 收藏

【Spark计算引擎----第三篇(RDD)---《深入理解 RDD:依赖、Spark 流程、Shuffle 与缓存、Spark并行度》】

《深入理解 RDD:依赖、Spark 流程、Shuffle 与缓存》在 Apache Spark 中,Shuffle 是一个关键的概念,它涉及到数据的重新分布,通常发生在宽依赖操作中,例如groupByKeyjoin等。mapreduce的shuffle作用: 将map计算后的数据传递给reduce使用mapreduce的shuffle过程: 分区,排序,合并(规约)Shuffle 的定义Shuffle 是指在 Spark 中对数据进行重新分布的过程,通常涉及到将数据从一个节点移动到另一个节点。
原创
博文更新于 2025.06.24 ·
1081 阅读 ·
15 点赞 ·
0 评论 ·
18 收藏

【企业数字化转型方向】

企业数字化转型(Digital Transformation)是指企业利用数字技术(如云计算、大数据、人工智能、物联网等)来革新其商业模式、运营流程、产品和服务,以提升效率、优化客户体验、创造新的价值,并最终实现业务增长和竞争优势的过程。企业数字化转型是一个持续的过程,它需要企业在多个方面做出改变,从思维模式到实际操作。成功的数字化转型不仅依赖于技术的选择和实施,更取决于企业是否能够灵活应对变化,快速适应新的市场环境和技术趋势。通过这些努力,企业可以变得更加敏捷、有竞争力,并准备好迎接未来的挑战。
原创
博文更新于 2025.06.24 ·
791 阅读 ·
31 点赞 ·
1 评论 ·
16 收藏
加载更多