C#读取word中表格数据的方法实现
前些日子有一个项目需要从Word文件中取表格数据并进行处理,网上大部分方案都是基于office的com组件实现,但是这样有一个缺点,如果电脑里没有安装office将无法使用,因为之前操作excel都是使用的NPOI,所以理所当然的想用NPOI解决此问题。
于是找到了如下代码
private List<string> GetDoc(string Path)
{
if (Path == "")
return null; //文件路径为空
List<string> Result = new List<string>(); //结果容器
FileStream stream = new FileStream(Path, FileMode.Open); //打开流
XWPFDocument docx = new XWPFDocument(stream);
var list = new List<XWPFTableCell>();
//循环遍历表格内容
foreach (var row in docx.Tables[0].Rows)
{
foreach (var cell in row.GetTableCells())
{
if (!list.Contains(cell))
{
list.Add(cell);
Result.Add(cell.GetText());
}
}
}
stream.Close();
return Result; //关闭文件流(很关键,否则会导致下一个文件无法大开)
}
但是这样做又有一个缺点 ,NPOI仅支持.docx格式的文件,如果读取.doc会直接报错!
于是后续又找到了另一开源组件freeSpire。有如下代码
private List<string> GetDocX(string Path)
{
if (Path == "")
return null; //文件路径为空
List<string> Result = new List<string>();
Spire.Doc.Document doc = new Spire.Doc.Document();
doc.LoadFromFile(Path);
TextBox textbox = doc.TextBoxes[0];
Spire.Doc.Table table = textbox.Body.Tables[0] as Spire.Doc.Table;
foreach (TableRow row in table.Rows)
{
foreach (TableCell cell in row.Cells)
{
foreach (Paragraph paragraph in cell.Paragraphs)
{
Result.Add(paragraph.Text);
}
}
}
return Result;
}
但是不知道什么原因,并不能抓取.doc文件中的表格。
随后尝试了其getText()函数确定可以直接抓取文字内容,初步判断可能是格式问题。
有考虑过自己写匹配函数对文本内容进行分析,但由于格式过于复杂,很多通用性问题无法解决后放弃。如果格式不复杂的话,也不失为一种解决方法。
最后采用的方法是先利用Spire组件将.doc转换为.docx后再利用NPOI进行内容处理,效果拔群!!!
private string ChangeToDocx(string Path)
{
if (Path == "")
return ""; //文件路径为空
List<string> Result = new List<string>();
Spire.Doc.Document doc = new Spire.Doc.Document();
doc.LoadFromFile(Path); //打开文件
Path.Replace(".doc", "docx"); //替换后缀
doc.SaveToFile(Path, FileFORMat.Docx); //保存为.doc
return Path;
}
主函数中调用如下:(若不是.doc则无需转换以节约开销)
if (Path.Contains(".doc"))
{
string newPath = ChangeToDocx(Path);
result = GetDoc(newPath);
}
result = GetDoc(Path);
到此这篇关于C#读取word中表格数据的方法实现的文章就介绍到这了,更多相关C#读取word数据内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
相关文章