C# 从Word文档和各种Word元素中提取文本

Word文档在我们的日常生活中占据着重要位置,无论是在商业、教育还是政府工作中,都经常需要处理它们。有时,我们需要从这些文档中提取文本以便在其他地方使用。例如,从法律文件中提取特定章节进行审查,从报告中提取数据以纳入演示文稿,或从会议纪要中提取要点与团队分享。

手动提取文本既费时又容易出错,尤其是在处理较长或复杂的Word文档时。自动化这个过程不仅能节省时间,还能确保准确性。这篇文章将探讨如何使用C# 从Word文档中提取文本。我们将涵盖不同方面的内容,如提取整个Word文档的文本、以及提取特定章节、页面、段落、行,甚至表格、页眉和页脚中的文本。

目录

使用工具

C# 从Word文档中提取文本

C# 从Word文档中提取特定章节的文本

C# 从Word文档中提取特定段落的文本

C# 从Word文档中提取特定页面的文本

C# 从 Word 文档中提取特定行的文本

C# 从 Word 文档中提取特定表格的文本

C# 从 Word 文档提取页眉和页脚文本


使用工具

要使用 C# 从 Word 文档和各种Word元素中提取文本,可以利用 Spire.Doc for .NET 库。

Spire.Doc for .NET 介绍

Spire.Doc for .NET 是一个功能强大的库,用于在各种 .NET 框架中处理 Word 文档,包括 C#、VB.NET、ASP.NET 和 .NET Core。它支持 Word 文件的创建、读取、编辑、打印和转换。支持多种 Word 格式,如 DOC、DOCX、DOCM、DOT、DOTX 和 DOTM。此外,它还支持将 Word 文档转换为常见格式,如 PDF、RTF、HTML、Text、Image、SVG、ODT、PostScript、PCL 和 XPS。

安装步骤

安装 Spire.Doc for .NET 有两种主要方式:

1. NuGet 安装

在 Visual Studio 中,右键单击项目中的“解决方案资源管理器”,选择“管理 NuGet 包”,搜索 Spire.Doc,然后点击“安装”。或者,你也可以在“包管理器控制台”中运行以下命令:

Install-Package Spire.Doc

2. 手动安装

如果你更喜欢手动安装,可以从官方网站下载 Spire.Doc 库。下载后,将 DLL 文件引用添加到项目中。右键单击“解决方案资源管理器”中的“引用”节点,选择“添加引用”,浏览到下载的 Spire.Doc DLL 的位置,然后将其添加到项目中。

C# 从Word文档中提取文本

提取Word文档中的所有文本是文档处理任务中的常见需求,该需求可以通过Document类的GetText方法来实现,它会将文档中的所有文本内容返回为字符串。之后,你可以将该字符串的内容写入文本文件。

实现步骤:

  • 使用Document类打开文档。
  • 使用Document对象的GetText方法提取所有文本内容。
  • 将提取的文本保存到文本文件中。

以下是使用C# 从Word文档中提取所有文本的代码:

using Spire.Doc;
using System.IO;

namespace ExtractTextFromDocument
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开Word文档
            Document document = new Document("示例.docx");

            // 提取文档的文本
            string documentText = document.GetText();

            // 将提取的文本写入文本文件
            File.WriteAllText("Output/文档文本.txt", documentText);

            document.Close();
        }
    }
}

C# 从Word文档中提取特定章节的文本

Word文档可能包含多个章节,每个章节都有独特的内容或格式。要从特定章节提取文本,可以按以下步骤操作:

  • 使用Document类打开文档。
  • 从Document对象的Sections集合中获取特定章节。
  • 遍历Section对象的Paragraphs集合。
  • 使用Paragraph.Text属性获取章节中每个段落的文本内容。
  • 将提取的内容保存到文本文件中。

以下是使用C# 从Word文档中提取章节文本的代码:

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromSection
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开Word文档
            Document document = new Document("示例.docx");

            // 获取文档中的第一个章节(可以根据需要更改索引)
            Section section = document.Sections[0];

            // 创建StringBuilder存储提取的文本
            StringBuilder sectionText = new StringBuilder();

            // 遍历章节中的段落
            foreach (Paragraph paragraph in section.Paragraphs)
            {
                // 将每个段落的文本添加到StringBuilder中
                sectionText.Append(paragraph.Text + "\n");
            }

            // 将StringBuilder中的内容写入文本文件
            File.WriteAllText("Output/章节文本.txt", sectionText.ToString());

            document.Close();
        }
    }
}

C# 从Word文档中提取特定段落的文本

有时,你可能只想从Word文档中的某一段落提取文本。要实现该功能,可以按照以下步骤操作:

  • 使用Document类打开文档。
  • 从Document对象的Sections集合中获取特定章节。
  • 从Section对象的Paragraphs集合中获取特定段落。
  • 使用Paragraph.Text属性获取该段落的文本内容。
  • 将提取的内容保存到文本文件中。

以下是使用C# 从Word文档中提取特定段落文本的代码:

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;

namespace ExtractTextFromParagraph
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开Word文档
            Document document = new Document("示例.docx");

            // 获取文档中的第一个章节(可以根据需要更改索引)
            Section section = document.Sections[0];

            // 获取章节中的第二个段落(可以根据需要更改索引)
            Paragraph paragraph = section.Paragraphs[1];

            // 提取段落的文本
            string paraText = paragraph.Text;

            // 将提取的文本写入文本文件
            File.WriteAllText("Output/段落.txt", paraText);

            document.Close();
        }
    }
}

C# 从Word文档中提取特定页面的文本

有时候,你可能需要提取 Word 文档中特定页面的内容。然而,Word 文档是基于流的,它并不像 PDF 文件那样本身有页面的概念。要进行页面级文本提取,必须先将 Word 文档转换为固定布局。以下是实现步骤:

  • 使用 FixedLayoutDocument 类将 Word 文档转换为固定布局文档。
  • 从 FixedLayoutDocument 对象的 Pages 集合获取所需页面。
  • 使用 FixedLayoutPage 对象的 Text 属性提取页面文本。
  • 将提取的文本保存到文本文件中。

以下是使用 C# 从 Word 文档中提取特定页面文本的实现代码:

using Spire.Doc;
using Spire.Doc.Pages;
using System.IO;

namespace ExtractTextFromPage
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Word 文档
            Document document = new Document("示例.docx");

            // 将文档转换为固定布局文档以执行页面级操作
            FixedLayoutDocument fixedLayoutDoc = new FixedLayoutDocument(document);

            // 获取文档中的第一页(可以根据需要更改索引)
            var page = fixedLayoutDoc.Pages[0];

            // 获取该页面的文本
            string pageText = page.Text;

            // 将提取的文本写入文本文件
            File.WriteAllText("Output/页面文本.txt", pageText);

            document.Close();
        }
    }
}

C# 从 Word 文档中提取特定行的文本

在 Word 中,行是文本在页面或列中的可视化排列单位,并非独立的结构对象,其显示方式受段落、换行符和页面布局的影响。要从 Word 中提取行文本,同样需要将Word文档转换为固定布局。以下是实现步骤:

  • 使用 FixedLayoutDocument 类将 Word 文档转换为固定布局文档。
  • 从 FixedLayoutDocument 对象的 Pages 集合获取所需页面。
  • 从页面的 Columns 集合中获取特定列(Word文档可以包含多列),然后从该列的 Lines 集合中获取特定行。
  • 使用该行的 Text 属性提取其内容。
  • 将提取的文本保存到文本文件中。

以下是使用 C# 从 Word 文档中提取特定行文本的实现代码:

using Spire.Doc;
using Spire.Doc.Documents;
using Spire.Doc.Pages;
using System.IO;
using System.Text;

namespace ExtractTextFromLine
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Word 文档
            Document document = new Document("示例.docx");

            // 将文档转换为固定布局文档以执行页面级操作
            FixedLayoutDocument fixedLayoutDoc = new FixedLayoutDocument(document);

            // 假设我们要提取第一页的第一行
            // 获取第一页
            var page = fixedLayoutDoc.Pages[0];
            // 获取第一列
            var column = page.Columns[0];
            // 获取第一行
            var line = column.Lines[0];

            // 提取该行的文本
            string lineText = line.Text;

            // 将提取的文本写入文本文件
            File.WriteAllText("Output/行文本.txt", lineText);

            document.Close();
        }
    }
}

C# 从 Word 文档中提取特定表格的文本

Word 文档中的表格通过行和列组织信息,使其更易于理解。提取这些表格中的数据有助于对这些信息进行进一步分析和处理。以下是提取Word文档中表格数据的实现步骤:

  • 使用Document类打开文档。
  • 从Document对象的Sections集合中获取包含表格的章节。
  • 从Section的 Tables 集合中获取特定表格。
  • 遍历表格中的行、单元格和单元格中的段落。
  • 使用 Paragraph.Text 属性提取每个段落的文本。
  • 将提取的数据保存为文本文件,并格式化(例如,使用制表符分隔)。

以下是使用 C# 从 Word 文档中提取特定表格数据的实现代码:

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromTable
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Word 文档
            Document document = new Document("表格.docx");

            // 获取文档中的第一节
            Section section = document.Sections[0];

            // 获取该节中的第一个表格
            Table table = section.Tables[0] as Table;

            // 创建 StringBuilder 用于存储表格数据
            StringBuilder tableData = new StringBuilder();

            // 遍历表格中的行
            foreach (TableRow row in table.Rows)
            {
                // 遍历每一行中的单元格
                foreach (TableCell cell in row.Cells)
                {
                    // 遍历单元格中的段落
                    foreach (Paragraph paragraph in cell.Paragraphs)
                    {
                        // 将每个段落的文本添加到 StringBuilder
                        tableData.Append(paragraph.Text + "\t");
                    }
                }
                tableData.Append("\n");
            }

            // 将 StringBuilder 中的内容写入文本文件
            File.WriteAllText("Output/表格数据.txt", tableData.ToString());

            document.Close();
        }
    }
}

C# 从 Word 文档提取页眉和页脚文本

页眉和页脚通常包含文档的标题、元数据等附加信息。提取这些信息,有助于更好地理解文档内容。以下是提取Word文档页眉和页脚文本内容的实现步骤:

  • 使用Document类打开文档。
  • 从Document对象的Sections集合中获取特定的章节。
  • 从Section的HeadersFooters集合中分别获取 Header 和 Footer 对象。
  • 遍历 Header 和 Footer 对象中的段落,并使用 Paragraph.Text 属性提取段落文本。
  • 将提取的文本保存到文本文件中。

以下是使用 C# 从 Word 文档中提取页眉和页脚文本的实现代码:

using Spire.Doc;
using Spire.Doc.Documents;
using System.IO;
using System.Text;

namespace ExtractTextFromHeaderFooter
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 打开 Word 文档
            Document document = new Document("页眉页脚.docx");

            // 获取文档中的第一节
            Section section = document.Sections[0];

            // 获取该节的页眉
            HeaderFooter header = section.HeadersFooters.Header;

            // 获取该节的页脚
            HeaderFooter footer = section.HeadersFooters.Footer;

            // 创建 StringBuilder 用于存储提取的页眉和页脚文本
            StringBuilder headerFooterText = new StringBuilder();
            headerFooterText.Append("页眉文本:\n");

            // 遍历页眉中的段落
            foreach (Paragraph paragraph in header.Paragraphs)
            {
                // 将每个段落的文本添加到 StringBuilder
                headerFooterText.Append(paragraph.Text + "\n");
            }

            headerFooterText.Append("页脚文本:\n");

            // 遍历页脚中的段落
            foreach (Paragraph paragraph in footer.Paragraphs)
            {
                // 将每个段落的文本添加到 StringBuilder
                headerFooterText.Append(paragraph.Text + "\n");
            }

            // 将 StringBuilder 中的内容写入文本文件
            File.WriteAllText("Output/页眉页脚文本.txt", headerFooterText.ToString());

            document.Close();
        }
    }
}

补充:除以上元素外,你还可以从其他Word元素例如批注和文本框中提取文本内容,由于篇幅问题,本文就不进行介绍了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值