在PHP开发中,按照句子为单位截取字符串前两个句子是常见需求,尤其在处理文章摘要、内容预览等场景时非常实用,下面介绍几种可行的实现方法。

方法一:使用正则表达式匹配句子边界
句子的结束通常以句号、问号、感叹号等标点作为标志,我们可以通过正则表达式匹配这些标点来拆分句子,再取前两个句子拼接。
首先来看基础的实现代码,假设字符串是英文场景,句子结束标点为.?!:
<?php
/**
* 截取字符串前两个句子(英文场景基础版)
* @param string $str 原始字符串
* @return string 截取后的结果
*/
function getFirstTwoSentences($str) {
// 正则匹配句子结束标点,拆分句子
$sentences = preg_split('/[.!?]s+/', $str, -1, PREG_SPLIT_NO_EMPTY);
// 取前两个句子,拼接时补回结束标点
$result = '';
for ($i = 0; $i < 2 && $i < count($sentences); $i++) {
// 找到原字符串中对应句子的结束位置,补回标点
$pos = strpos($str, $sentences[$i]) + strlen($sentences[$i]);
// 取结束标点
$endChar = $str[$pos];
$result .= $sentences[$i] . $endChar . ' ';
}
return rtrim($result);
}
// 测试示例
$testStr = 'Hello world. How are you? I am fine.';
echo getFirstTwoSentences($testStr);
// 输出:Hello world. How are you?
?>
适配中文场景的正则调整
中文句子的结束标点通常包括。!?,如果字符串包含中文,需要调整正则表达式的匹配规则:
<?php
/**
* 截取字符串前两个句子(中英文通用版)
* @param string $str 原始字符串
* @return string 截取后的结果
*/
function getFirstTwoSentencesCn($str) {
// 匹配中英文句子结束标点,支持中文标点和英文标点
$pattern = '/[。!?.!?]s*/u';
// 按结束标点拆分,保留标点
preg_match_all('/.+?[。!?.!?]/u', $str, $matches);
// 取前两个匹配结果
$sentences = $matches[0];
$result = '';
for ($i = 0; $i < 2 && $i < count($sentences); $i++) {
$result .= $sentences[$i];
}
return $result;
}
// 测试示例
$testStrCn = '今天天气很好。我们去公园玩吧?晚上还要加班。';
echo getFirstTwoSentencesCn($testStrCn);
// 输出:今天天气很好。我们去公园玩吧?
?>
方法二:使用多字节字符串函数处理
如果字符串包含多字节字符(如中文、日文等),使用mb_系列函数可以避免字符截断问题,结合手动拆分逻辑实现需求。
<?php
/**
* 使用多字节函数截取前两个句子
* @param string $str 原始字符串
* @param string $encoding 字符编码,默认UTF-8
* @return string 截取后的结果
*/
function getFirstTwoSentencesMb($str, $encoding = 'UTF-8') {
$sentenceEndChars = ['。', '!', '?', '.', '!', '?'];
$result = '';
$sentenceCount = 0;
$len = mb_strlen($str, $encoding);
$currentPos = 0;
while ($currentPos < $len && $sentenceCount < 2) {
// 逐个取字符
$char = mb_substr($str, $currentPos, 1, $encoding);
$result .= $char;
// 判断是否为句子结束标点
if (in_array($char, $sentenceEndChars)) {
$sentenceCount++;
}
$currentPos++;
}
return $result;
}
// 测试示例
$testStr = 'PHP是一门流行的编程语言。它广泛用于Web开发。很多公司都在使用它。';
echo getFirstTwoSentencesMb($testStr);
// 输出:PHP是一门流行的编程语言。它广泛用于Web开发。
?>
不同方法的适用场景
- 正则匹配法适合句子格式规范、结束标点明确的场景,代码简洁,执行效率高。
- 多字节函数法适合包含多语言字符的场景,能避免多字节字符被错误截断的问题。
- 如果字符串中存在缩写(如英文的
Mr.、U.S.A)或者特殊标点,需要额外调整正则规则,避免误拆分。
注意事项
实际使用中需要注意几个问题:如果原始字符串不足两个句子,直接返回原字符串即可;如果句子结束标点后没有空格,正则拆分时需要调整匹配规则;处理用户输入的内容时,建议先过滤特殊字符,避免正则注入风险。
可以根据项目实际需求选择对应的实现方法,也可以将两种方法结合,先判断字符串的语言类型,再选择对应的处理逻辑,提升代码的通用性。