在R语言的日常数据处理工作中,经常需要读取xlsx格式的表格文件,不同的扩展包提供了不同的实现方式,适配不同的使用场景。

方法一:使用readxl包读取
readxl是tidyverse生态下的轻量扩展包,不需要依赖Java环境,安装和使用都比较简单,适合大多数常规xlsx文件读取场景。
安装与加载包
# 安装readxl包
install.packages("readxl")
# 加载包
library(readxl)读取文件示例
# 读取xlsx文件的第一个工作表,默认将数据转为tibble格式
data1 <- read_excel("test.xlsx")
# 读取指定名称的工作表
data2 <- read_excel("test.xlsx", sheet = "sheet2")
# 读取指定索引的工作表,1代表第一个工作表
data3 <- read_excel("test.xlsx", sheet = 1)
# 指定列名所在行,跳过前2行读取
data4 <- read_excel("test.xlsx", col_names = 3)方法二:使用openxlsx包读取
openxlsx包同样不需要Java环境,除了读取功能外,还支持xlsx文件的写入、格式调整等操作,功能更加全面。
安装与加载包
# 安装openxlsx包
install.packages("openxlsx")
# 加载包
library(openxlsx)读取文件示例
# 读取第一个工作表,返回data.frame格式数据
data1 <- read.xlsx("test.xlsx")
# 读取多个指定工作表,返回列表
data_list <- read.xlsx("test.xlsx", sheet = c("sheet1", "sheet2"))
# 读取时指定跳过的行数
data2 <- read.xlsx("test.xlsx", startRow = 3)
# 读取时指定列的类型,避免自动转换出错
data3 <- read.xlsx("test.xlsx", colClasses = c("character", "numeric", "Date"))方法三:使用xlsx包读取
xlsx包依赖Java环境,功能也比较完善,但是在未安装Java的系统中可能无法正常使用,适合已经配置好Java环境的场景。
安装与加载包
# 安装xlsx包
install.packages("xlsx")
# 加载包
library(xlsx)读取文件示例
# 读取第一个工作表,返回data.frame格式
data1 <- read.xlsx("test.xlsx", sheetIndex = 1)
# 读取指定名称的工作表
data2 <- read.xlsx("test.xlsx", sheetName = "sheet2")
# 读取时指定表头行
data3 <- read.xlsx("test.xlsx", sheetIndex = 1, header = TRUE)
# 读取时指定字符串不自动转为因子
data4 <- read.xlsx("test.xlsx", sheetIndex = 1, stringsAsFactors = FALSE)三种方法对比
可以通过下面的表格快速了解三种方法的特点,选择适合自己场景的方案:
| 方法 | 依赖环境 | 输出格式 | 额外功能 | 适用场景 |
|---|---|---|---|---|
| readxl包 | 无Java依赖 | tibble | 仅读取 | 常规简单读取,已使用tidyverse生态 |
| openxlsx包 | 无Java依赖 | data.frame | 读写、格式调整 | 需要同时读写xlsx文件,无Java环境 |
| xlsx包 | 需要Java环境 | data.frame | 读写、格式调整 | 已配置Java环境,习惯使用该包的用户 |
实际使用中如果不需要写入操作,优先选择readxl或者openxlsx包,避免Java环境配置带来的问题。如果读取的文件有特殊的格式要求,再根据具体需求选择对应的方法即可。