大模型实验室Lab4AI
码龄142天
求更新 关注
提问 私信
  • 博客:51,888
    51,888
    总访问量
  • 84
    原创
  • 117
    粉丝
  • 3
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:中国
加入CSDN时间: 2025-07-31
博客简介:

Lab4AI的博客

查看详细资料
博客首页
个人成就
  • Lab4AI大模型实验室官方账号
  • 获得995次点赞
  • 内容获得1次评论
  • 获得1,033次收藏
  • 博客总排名21,882名
  • 原力等级
    原力等级
    3
    原力分
    355
    本月获得
    134
创作历程
  • 84篇
    2025年
成就勋章
TA的专栏
  • Github热门项目
    2篇
  • 论文精选
    10篇
  • 论文复现上新

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 5

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

Qwen-Video-8B与LLaMA-Factory联动实现垂类视频理解

Qwen3-VL的目标,是让模型不仅能“看到”图像或视频,更能真正看懂世界、理解事件、做出行动。为此,Qwen团队在多个关键能力维度上做了系统性升级,力求让视觉大模型从“感知”走向“认知”,从“识别”迈向“推理与执行”。LLaMA Factory是一个一站式的大模型微调框架。它整合了主流的高效训练技术,适配市场上数百个开源模型,让用户无需编写代码就能在网页端完成模型微调全流程。无论是角色扮演、专业问答还是多模态应用,LLaMA Factory都能提供可视化、可控、轻量化的微调解决方案。
原创
博文更新于 17 小时前 ·
259 阅读 ·
12 点赞 ·
0 评论 ·
16 收藏

刚刚,谷歌正式发布Gemini 3 Flash

北京时间12月17日凌晨,谷歌正式发布了新一代AI模型Gemini 3 Flash,这款被称为“为速度而生的前沿智能”模型,在性能、成本和速度三个方面实现了突破性进展,有望重塑大模型性价比的天花板。
原创
博文更新于 前天 14:19 ·
673 阅读 ·
11 点赞 ·
0 评论 ·
14 收藏

腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

今日,腾讯混元发布并开源 HY-World 1.5(WorldPlay),其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。HY-World 1.5到24 FPS 生成一致性的长时域流式视频,与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,实现了3D重建、可提示事件和无限世界扩展等多样化应用。
原创
博文更新于 前天 11:33 ·
295 阅读 ·
2 点赞 ·
0 评论 ·
9 收藏

告别手敲 tabular:Table2LaTeX-RL 高保真表格生成复现

详细论文解读请查看往期文章NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法科学论文中的复杂表格一直是自动化处理中的硬骨头:多级表头、跨行跨列单元格、嵌套结构和数学公式都极其依赖精细的版面控制。
原创
博文更新于 前天 10:33 ·
726 阅读 ·
17 点赞 ·
0 评论 ·
22 收藏

多模态赋能情绪理解:Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

本项目依托Lab4AI平台,基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型(MLLM)相结合,探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL,我们成功将传统的分类任务转化为多模态推理任务,显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升,还为其他视觉任务的多模态大模型应用提供了新的思路,具有广泛的应用前景。
原创
博文更新于 2025.12.17 ·
574 阅读 ·
6 点赞 ·
1 评论 ·
8 收藏

LLaMA-Factory 答疑系列二:高频问题 + 官方解决方案,建议收藏备用

本文整理了LLaMA-Factory大模型微调工具使用中的9个高频问题及解决方案,涵盖显存管理、数据格式、训练优化等关键点。主要内容包括:1)多服务器通信方法;2)学术资源加速技巧;3)预训练样本数差异原因;4)LoRA参数设置问题;5)显存占用优化方案;6)多模态数据格式规范;7)Jupyter文件操作异常处理;8)训练数据顺序控制;9)模型输出异常排查方法(模板匹配、过拟合处理等)。文章还介绍了Lab4AI平台提供的算力支持和课程资源,帮助开发者提升大模型微调实践能力。
原创
博文更新于 2025.12.17 ·
368 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

Qwen3-VL + LLaMA-Factory 怎么玩?手把手教你做一个会打分会挑错的作文批改助手

在K12 和高等教育阶段,作文批改一直是教学反馈中最费时、最主观、最难标准化的一环。核心痛点集中在教师批改压力巨大、评分主观性强难以统一以及反馈滞后难以形成写作闭环。随着大语言模型的发展,我们终于迎来了一个新选项:让大模型真正学会“像语文老师一样”看作文、打分数、写评语。今天,我们就通过一个在上可一键复现的完整项目,拆解这条路径:如何利用在仅有300 篇高中作文 的小样本条件下,完成一个 “能打分 + 会写评语” 的中文作文智能批改助手,非常适合老师、教研员和教育 AI 开发者快速验证效果。
原创
博文更新于 2025.12.17 ·
299 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

成本杀手!LLaMA-Factory 助阵 Qwen3-VL:低预算下的高效医疗影像全揭秘

还在为医疗影像大模型的“高算力、高显存”门槛头疼吗?2025年10月,Qwen3-VL-30B-A3B-Instruct 的开源,带来了革命性的解决方案。它独创的,可以在保持顶级性能的同时,仅激活参数,直接将显存占用降低 60%!今天,我们将深度解析一个完整的实战项目:如何利用LLaMA-Factory 框架,高效微调 Qwen3-VL,让模型能够在有限的医学影像数据上,更好地理解图像内容、描述可见结构,并生成符合医学语境的分析文字。这套。
原创
博文更新于 2025.12.17 ·
242 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

LLaMA-Factory 课程答疑系列一:10个关键问题速查,官方认证解法让训练推理不踩雷

A:微调日志中进度条显示 error 通常是 进度条组件的渲染问题,而非训练程序的功能错误。其本质是工具库(如 tqdm)在特定终端环境下无法正常动态刷新进度条,因此输出 error 标记。只要训练日志中后续有正常的训练指标(如损失、步数)输出,训练逻辑即为正常,无需担心。
原创
博文更新于 2025.12.17 ·
626 阅读 ·
13 点赞 ·
0 评论 ·
23 收藏

AAAI 2026 为什么开源 LLM 搞不定数据分析?浙江大学揭秘核心原因

论文标题:作者团队:浙江大学发布时间:2025年11月13日大语言模型(LLMs)在自动化数据分析任务中具有巨大潜力,但现有开源模型在面向高强度推理场景时仍存在明显局限。为此,本工作系统研究了提升开源 LLM 数据分析能力的策略。首先构建了一个涵盖多样且贴近真实场景的种子数据集,从数据理解、代码生成和策略规划三个核心维度对模型表现进行评测。
原创
博文更新于 2025.12.16 ·
263 阅读 ·
8 点赞 ·
0 评论 ·
1 收藏

GLM-4.6V开源:重新定义多模态AI的行动范式

12月8日,,作为GLM系列在多模态方向上的重要迭代,GLM-4.6V在技术架构和应用场景上都实现了突破性进展。
原创
博文更新于 2025.12.16 ·
935 阅读 ·
13 点赞 ·
0 评论 ·
18 收藏

这个985实验室8篇论文被AAAI2026录用

厦门大学ASC实验室8篇论文被AAAI2026录用,涉及激光雷达里程计、目标检测、协同感知、步态识别等前沿方向。这些研究在算法创新和应用落地方面取得突破,如RCP-LO框架提升了激光雷达里程计的泛化能力,Physically-Based LiDAR Smoke Simulation增强了目标检测的鲁棒性,V2VLoc实现了无GNSS信号的协同感知。实验室成果展现了在人工智能领域的领先实力,同时获得Lab4AI科研平台的技术支持,为从理论研究到实际应用提供了完整解决方案。
原创
博文更新于 2025.12.11 ·
1157 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

吴恩达发布论文自动审阅器,ICLR评审接近人类水平

AI正在改变学术论文评审的游戏规则。斯坦福大学教授吴恩达近日发布了一款创新的Agentic Reviewer(智能体审稿人)工具,旨在解决学术圈长期存在的论文评审周期过长问题。这款工具在ICLR 2025审稿数据上的测试表现令人惊讶——
原创
博文更新于 2025.12.10 ·
389 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

这所211大学在AAAI 2026上发表6篇论文

近日,人工智能领域顶级国际会议(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A)公布录用结果,计算机科学与技术学院共有6篇研究论文被录用,实现AAAI国际顶会论文的历史性突破。第四十届人工智能顶级国际会议——AAAI 2026(The 40th Annual AAAI Conference on Artificial Intelligence)将于2026年1月20日至27日在新加坡博览中心召开。
原创
博文更新于 2025.12.08 ·
598 阅读 ·
27 点赞 ·
0 评论 ·
29 收藏

写论文的人都应该知道的宝藏工具:Zotero

Zotero是一款免费开源的跨平台文献管理工具,能有效解决科研人员的文献管理难题。它支持一键抓取文献、智能分类整理、自动生成参考文献等功能,并可通过插件扩展知网文献抓取等特色功能。相比同类工具,Zotero具有完全免费、操作简便等优势,特别适合学生和科研人员使用。安装后建议配置WebDAV同步解决存储空间限制问题。该工具能显著提升文献管理效率,让研究者专注于核心科研工作。
原创
博文更新于 2025.12.04 ·
572 阅读 ·
19 点赞 ·
0 评论 ·
28 收藏

零代码,分钟级定制:我用LLaMA-Factory轻松造了个“票务专家”AI

零代码,分钟级定制:我用LLaMA-Factory轻松造了个“票务专家”AI
原创
博文更新于 2025.12.03 ·
190 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

NeurlPS 2025!普林斯顿团队成果:InFlux首破动态相机内参逐帧真值难题,重塑3D视觉评估

论文标题:作者团队:普林斯顿大学发布时间:2025年10月28日dui6✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~
原创
博文更新于 2025.12.03 ·
343 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?

还在为高质量视频生成「又慢又重」头疼吗?传统扩散式视频生成模型往往需要20~50步迭代过程,即便生成几十帧的短视频,也需长时间占用GPU资源,日志持续输出却进度缓慢。。这是一套面向企业级生产环境的视频生成推理优化方案。
原创
博文更新于 2025.12.03 ·
404 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

ECCV 2024!面向领域泛化分割的文本查询驱动掩码Transformer| 语义分割 | 计算机视觉

语义分割模型在训练和测试数据来自同一领域(如晴天)时表现优异,但当遇到未见过的领域(如雨天、雪天)时,性能会因“领域偏移”(Domain Shift)问题而急剧下降。为了解决这一挑战,该论文提出了一种全新的文本查询驱动(Textual query-driven)的分割范式。该模型的核心思想是,不再仅仅依赖像素信息进行学习,而是将分割任务重新构建为一个通过文本查询匹配目标的过程。
原创
博文更新于 2025.12.03 ·
269 阅读 ·
4 点赞 ·
0 评论 ·
4 收藏

从帧到世界:面向世界模型的长视频生成

是一种,例如理解“抛球会落地”或“太阳东升西落”等常识。其技术本质是通过大量数据学习物理规律、因果关系和时空逻辑,形成兼具“认知”与“预测”能力的模型框架。不只是拼接现有素材,而是,自主生成连续且连贯的视频帧序列,核心在于保证画面在时间和空间上的一致性与连续性。当视频生成技术面向世界模型时,其目标就不再是单纯地制造画面,而是要求生成的内容必须契合世界模型对现实世界的认知逻辑。这意味着,以支撑世界模型进行更深入的推理与交互。
原创
博文更新于 2025.12.03 ·
917 阅读 ·
10 点赞 ·
0 评论 ·
13 收藏
加载更多