个人博客已经成为技术开发者分享知识、表达观点和展示个人技能的重要平台。然而,每次书写博客时,特别是涉及到文本排版和格式处理时,往往会影响创作者的效率,使得他们在真正的内容创作上花费的时间减少。为了解决这个问题,BlogScribe诞生了。BlogScribe是一个个人博客书写助手,旨在通过语音输入自动生成高效、符合博客格式的内容。
使用Whisper模型进行语音转文本,用户上传音频文件(wav, mp3, ogg),进行在线的语音识别。
用户上传词库文档 (PDF, TXT, DOCX),与语音识别文本通过向量模型进行比对,检索到相似的文本。
检索到相似的文本,对语音转文本相似词进行替换。
利用Yuan2B大模型进行文本润色和格式处理,自动生成博客文章标题及小标题,确保生成的内容符合博客格式。
提供md格式的博客源代码下载。
在BlogScribe01目录下 在运行app.py之前,请确保您先运行了 requirements.txt
git clone https://github.com/PoolBee/BlogScribe01.gitpip install -r requirements.txt
点击Browse files后选择文件上传,上传知识库词库支持(PDF、TXT、DOCX)格式 点击Browse files后选择文件上传,上传语音文件支持(wav、mp3、ogg)格式
- 1.点击
语音识别,进行语音识别,界面会显示语音转文本结果。 - 2.点击
相似文本检索,BlogScribe会进行相似文本检索,在语音识别文本与知识库词库中进行相似词语检索,并替换语音识别文本中识别错误词语,替换后输出在替换后的文本中。 - 3.点击润色文本,会对处理后的文本进行添加标点符号、标题提取、语言润色,并输出到
润色后的文本文本框中。 - 4.点击
生成Markdown格式的博客对润色后的文本进行Markdown格式的输出。
点击下载Markdown文件进行.md文档格式下载。
streamlit run app.py --server.address 127.0.0.1 --server.port 6000