Vicky_Tang
码龄14年
求更新 关注
提问 私信
  • 博客:802,639
    社区:88
    问答:6
    802,733
    总访问量
  • 76
    原创
  • 3,331
    粉丝
  • 149
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
加入CSDN时间: 2011-08-11

个人简介:You still have lots more to work on!

博客简介:

Vicky_Tang

查看详细资料
个人成就
  • 新星创作者: 大数据技术领域
  • 获得734次点赞
  • 内容获得534次评论
  • 获得1,099次收藏
  • 代码片获得524次分享
  • 博客总排名977,551名
创作历程
  • 1篇
    2023年
  • 75篇
    2021年
成就勋章
TA的专栏
  • Hadoop
    6篇
  • Flink
    11篇
  • hive
    5篇
  • HBase
    3篇
  • Spark 技术栈
    3篇
  • 笔记
    3篇
  • Linux
    5篇
  • Shell
    3篇
  • Flume

TA关注的专栏 2

TA关注的收藏夹 0

TA关注的社区 20

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

flink中通过jdbc查询结果集使用 flink table api 创建临时视图

【代码】flink中通过jdbc查询结果集使用 flink table api 创建临时视图。
原创
博文更新于 2023.03.16 ·
672 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

大数据——Hadoop 知识点整理

1. 大数据的特点(4V特征)Volume(大数据量):90% 的数据是过去两年产生 Velocity(速度快):数据增长速度快,时效性高 Variety(多样化):数据种类和来源多样化 结构化数据、半结构化数据、非结构化数据 Value(价值密度低):需挖掘获取数据价值2. 谈谈 Hadoop 的优缺点优点:高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点 高可靠性:Hadoop底层维护多个数据副本 高容错性:Hadoop框架能够自动将失败的任务重新分配 低成本:Had
原创
博文更新于 2022.10.01 ·
9618 阅读 ·
33 点赞 ·
38 评论 ·
137 收藏

大数据——Flink 知识点整理

1. Flink 的特点Flink 具有高吞吐、低延时、高性能的特点 支持基于时间语义、窗口及状态编程 同时还具备了 checkpoint 和 savepoint 的功能2. Flink 和 SparkStreaming 的对比Flink支持实时流处理,而 SparkStreaming 是通过微批处理的方式来实现实时处理,牺牲了吞吐量 Flink 支持状态编程,而 SparkStreaming 不支持 Flink:JobManager、TaskManager SparkStreaming.
原创
博文更新于 2022.10.01 ·
11560 阅读 ·
25 点赞 ·
36 评论 ·
35 收藏

大数据—— Hive 知识点整理

1. Hive 中内部表和外部表的区别以及使用场景内部表:与数据库中的表在概念上类似 每一个内部表在 hive 中都有一个相应的目录存储数据 所有的内部表数据都保存在这个目录上 删除数据时,元数据和数据都会被删除 应用场景:数据分析的中间表可以使用内部表,方便对表进行管理外部表:创建时需要使用 external 修饰,指向已经在 HDFS 中存在的数据,可以创建 Partition 它和内部表在元数据的组织上是相同的,都是存储在关系数据库中 外部表只有一个过程,加载数据和创建表同时完成
原创
博文更新于 2022.10.01 ·
5461 阅读 ·
23 点赞 ·
26 评论 ·
21 收藏

大数据—— HBase 知识点整理

目录1. 什么是 HBase2. 大数据中为何要使用 HBase(HBase 在大数据中的优势)3. HBase 与传统的关系数据库的区别4. RowKey 的设计原则5. RowKey 如何设计可以避免热点问题6. HRegionServer 架构7.HBase 性能优化方法总结表的设计写表操作读表操作8. Hbase读写流程hbase的读操作:hbase的写操作:9. HBase 物理存储原理10. HBase 中的 HFile 什么时候要合.
原创
博文更新于 2022.10.01 ·
4162 阅读 ·
21 点赞 ·
33 评论 ·
35 收藏

大数据—— Scala 知识点整理

1. Scala 语言的优点Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性 Scala 运行在 Java 虚拟机上,并兼容现有的 Java 程序 Scala 源代码被变编译成 Java 字节码,所以它可以运行于 JVM之上,并可以调用现有的 Java 类库 作为流行的开源大数据内存计算引擎 Spark 的源码编程语言,Spark 有着良好的性能优势 Scala 将成为未来大数据处理的主流语言2. Scala 中的闭包.
原创
博文更新于 2022.10.01 ·
1066 阅读 ·
40 点赞 ·
44 评论 ·
35 收藏

大数据—— Spark Core 知识点整理

1. Spark 和 Hadoop 相比有什么优势运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用场景广泛:大数据分析统计,实时数据处理,图计算及机器学习易用性:编写简单,支持80种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中容错性高:...
原创
博文更新于 2022.10.01 ·
1397 阅读 ·
30 点赞 ·
43 评论 ·
24 收藏

大数据——MySQL 知识点整理

1. 什么是事务,事务的特性事务: 指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。简单的说,某一业务需要多条增删改操作且只有所有操作完成才算完成,否则失败。应用场景: 订单支付、银行转账使用:MySQL 中通常与 procedure 结合使用 start/begin transaction特性:ACID原子性 一致性 隔离性 持久性2. MySQL 中事务的隔离级别有哪些隔离级...
原创
博文更新于 2022.10.01 ·
773 阅读 ·
3 点赞 ·
1 评论 ·
4 收藏

大数据——Java 知识点整理

1. JDK 和 JRE 有什么区别?JDK:Java Development Kit 的简称,java开发工具包,提供了java的开发环境和运行环境。 JRE:Java Runtime Environment 的简称,java运行环境,为java的运行提供了所需环境。具体来说,JDK其实包含了JRE,同时还包含了编译java源码的编译器javac,还包含了许多java程序调试和分析的工具。要运行java程序,只需要安装JRE就可以了,如果需要编写java程序,则还需要安装JDK。2. java
原创
博文更新于 2022.05.07 ·
13417 阅读 ·
13 点赞 ·
7 评论 ·
32 收藏

大数据——Flink Maven工程依赖

<inceptionYear>2008</inceptionYear> <properties> <scala.version>2.7.0</scala.version> <scala.version>2.12.10</scala.version> <scala.binary.version>2.12</scala.binary.version> <h...
原创
博文更新于 2021.11.17 ·
12094 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Hive 常用函数

--常用函数 --算术运算符:+ - * / % --关系运算符: == <> > >= < <= --逻辑运算符:and or not --数学函数 --1.pmod(±n,m) ----------------------------------------------------------------- select pmod(-3,5); (-3+n*5)%5 ...
原创
博文更新于 2021.10.16 ·
12132 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

Yarn参数优化

YARN自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源(内存,CPU)以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container(容器)是YARN中处理能力的基本单元, 是对内存, CPU等的封装(容器)。ResourceManager:以下简称RM。YAR
原创
博文更新于 2021.10.12 ·
1627 阅读 ·
62 点赞 ·
9 评论 ·
51 收藏

大数据—— Spark 优化

文章目录1 Spark参数优化1.1 num-executors1.2 executor-memory1.3 executor-cores1.4 driver-memory1.5 spark.default.parallelism1.6 spark.shuffle.memoryFraction1.7 spark.storage.memoryFraction1.8 资源参考示例2 RDD优化2.1 RDD 复用2.2 RDD 持久化2.3 RDD 过滤3 算子优化4 Shuffle优化5 数据倾斜优化5.1
原创
博文更新于 2021.09.29 ·
1885 阅读 ·
29 点赞 ·
29 评论 ·
29 收藏

如何在Hive中创建自定义函数UDF及通过Impala同步元数据重用UDF的jar文件

简介如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译准备工作创建 Maven 工程,导入如下依赖:<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <!--...
原创
博文更新于 2021.09.26 ·
1144 阅读 ·
36 点赞 ·
17 评论 ·
31 收藏

HDFS文件误删怎么办,一招教你恢复回来,再也不用担心删库跑路了

本文基于 Hadoop3.1.2版本讲解HDFS 文件删除过程下面是hdfs删除路径的方法,源码路径org.apache.hadoop.hdfs.server.namenode.FSNamesystem.delete()/** * Remove the indicated file from namespace. * * @see ClientProtocol#delete(String, boolean) for detailed description and .
原创
博文更新于 2021.09.25 ·
3694 阅读 ·
57 点赞 ·
30 评论 ·
52 收藏

使用 Docker 搭建离线数仓环境

文章目录一、Docker安装1.1 Centos Docker安装1.2 Ubuntu Docker安装【推荐】1.3 MacOs Docker安装1.4 Windows Docker安装【不推荐】二、容器准备2.1 拉取镜像2.2 启动并创建容器2.3 进入容器三、环境准备3.1 安装必要软件3.2 配置SSH免密登录3.3 设置时区3.4 关闭防火墙3.5 时间同步、静态ip、主机映射四、MySQL安装4.1 上传解压安装包4.2 安装必要依赖4.3 安装服务端和客户端4.4 启动并配置MySQL五、安
原创
博文更新于 2021.09.20 ·
1885 阅读 ·
35 点赞 ·
15 评论 ·
37 收藏

大数据—— 使用 Durid 进行 JDBC 连接

目录一、Druid简介二、Druid的优点三、使用 Durid 进行 JDBC MySQL 的连接3.1 添加 Druid 的依赖、数据库驱动3.2 创建 JDBC 工具类3.3 添加配置参数3.4 测试代码一、Druid简介Druid是阿里开源的数据库连接池,作为后起之秀,性能比dbcp、c3p0更高,使用也越来越广泛。当然Druid不仅仅是一个连接池,还有很多其他的功能。二、Druid的优点高性能。性能比dbcp、c3p0高很多。 只要是...
原创
博文更新于 2021.09.13 ·
3899 阅读 ·
23 点赞 ·
39 评论 ·
17 收藏

大数据—— Clickhouse 介绍与引擎的使用

一、Clickhouse 介绍1.1 Clickhouse 介绍ClickHouse 是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。最初 是一款名为 Yandex.Metrica 的产品,主要用于 WEB 流量分析。ClickHouse 的全称是 Click Stream,Data WareHouse,简称 ClickHouse。1.2 Clickhouse 的分布式架构1.3 Clickhouse 的特性(1)真正的面向列的DBMS在一个真正的...
原创
博文更新于 2021.09.08 ·
7260 阅读 ·
19 点赞 ·
27 评论 ·
20 收藏

大数据——Flink 入门程序(wordcount)

目录一、编程模型二、编程步骤三、DataStream 实时 wordcount​四、DataSet 离线wordcount一、编程模型Flink提供了不同级别的编程抽象,通过调用抽象的数据集调用算子构建DataFlow就可以实现对分布式的数据进行流式计算和离线计算,DataSet是批处理的抽象数据集,DataStream是流式计算的抽象数据集,他们的方法都分别为Source、Transformation、SinkSource主要负责数据的读取 Transfor...
原创
博文更新于 2021.09.04 ·
11939 阅读 ·
9 点赞 ·
10 评论 ·
2 收藏

大数据——Flink 基础练习(将 Kafka 接收到的单词首字母大写后写回 Kafka 中)

一、创建 kafka_resource 和 kafka_sink 主题#创建kafka_source主题kafka-topics.sh --create --zookeeper master:2181 --topic kafka_source --partitions 2 --replication-factor 1#创建kafka_sink主题kafka-topics.sh --create --zookeeper master:2181 --topic kafka_sink --parti
原创
博文更新于 2021.09.04 ·
11082 阅读 ·
3 点赞 ·
2 评论 ·
0 收藏
加载更多