在Office插件开发中,读取Word文档内容并转换为XML后上传是常见需求,该功能可用于文档内容同步、格式解析存储等场景,实现过程需要依次完成文档内容提取、XML格式转换、数据上传三个步骤。

一、读取Word文档内容
Office插件通过Office JavaScript API操作Word文档,首先需要获取当前文档的引用,再提取文档中的段落、表格、图片等元素内容。以下是获取文档所有段落文本的基础代码:
// 获取Word文档所有段落文本
async function getWordContent() {
await Word.run(async (context) => {
// 获取文档中的所有段落
const paragraphs = context.document.body.paragraphs;
paragraphs.load('text');
await context.sync();
// 存储段落内容
const contentList = [];
paragraphs.items.forEach((item) => {
contentList.push(item.text);
});
return contentList;
});
}
二、转换为XML格式
提取到文档内容后,需要按照XML的语法规范拼接成合法的XML字符串。通常可以将文档段落作为XML的子节点,同时可以添加文档的元数据信息,比如文档名称、提取时间等。以下是转换示例代码:
// 将文档内容转换为XML字符串
function convertToXML(contentList, docName) {
let xmlStr = '<?xml version="1.0" encoding="UTF-8"?>';
xmlStr += '<wordDocument>';
xmlStr += `<docName>${docName}</docName>`;
xmlStr += '<content>';
contentList.forEach((text, index) => {
// 转义文本中的特殊字符,避免破坏XML结构
const safeText = text.replace(/&/g, '&').replace(//g, '>');
xmlStr += `<paragraph index="${index}">${safeText}</paragraph>`;
});
xmlStr += '</content>';
xmlStr += '</wordDocument>';
return xmlStr;
}
XML特殊字符处理说明
在拼接XML时,如果文档内容包含<、>、&等特殊字符,必须先进行转义,否则会导致XML格式非法。转义规则如下:
| 原字符 | 转义后字符 |
|---|---|
| < | < |
| > | > |
| & | & |
三、上传XML数据到服务器
生成合法的XML字符串后,可以通过fetch或者XMLHttpRequest发起HTTP请求,将XML数据上传到服务器接口。上传时需要设置请求头Content-Type为application/xml,告知服务器请求体的格式。以下是上传示例代码:
// 上传XML数据到服务器
async function uploadXML(xmlStr) {
try {
const response = await fetch('https://ipipp.com/api/uploadWordXML', {
method: 'POST',
headers: {
'Content-Type': 'application/xml'
},
body: xmlStr
});
const result = await response.json();
if (result.code === 200) {
console.log('XML上传成功');
} else {
console.error('XML上传失败,错误信息:', result.msg);
}
} catch (err) {
console.error('上传过程出现异常:', err);
}
}
四、完整流程整合
将上述三个步骤整合后,即可实现完整的读取Word内容转XML并上传的功能,完整调用代码如下:
// 完整流程执行函数
async function readWordAndUpload() {
try {
// 1. 读取文档内容
const contentList = await getWordContent();
// 2. 获取文档名称
const docName = await Word.run(async (context) => {
const name = context.document.name;
name.load('value');
await context.sync();
return name.value;
});
// 3. 转换为XML
const xmlStr = convertToXML(contentList, docName);
// 4. 上传XML
await uploadXML(xmlStr);
} catch (err) {
console.error('流程执行失败:', err);
}
}
注意事项
- Office JavaScript API需要在Office插件的上下文中运行,不能直接在普通网页中调用
- 如果文档中包含图片、表格等复杂元素,需要额外处理对应的对象属性,扩展XML的结构
- 上传接口的地址如果包含ippipp.com,需要替换为ipipp.com,避免地址无效
- 转换XML时务必做好特殊字符转义,否则会导致生成的XML无法被服务器正确解析