
utf-8 編碼的 emoji 表情或者某些特殊字符占用 4 個(gè)字節(jié)。utf-8 編碼的常用中文字符占用 3 個(gè)字節(jié)。
判斷字符串中是否含有 emoji 表情
三個(gè) PHP 內(nèi)置函數(shù):
mb_strlen
mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] ) // 返回具有 encoding 編碼的字符串 str 包含的字符數(shù)。 多字節(jié)的字符被計(jì)為 1。 // 如果給定的 encoding 無(wú)效則返回 FALSE。
mb_substr
string mb_substr ( string $str , int $start [, int $length = NULL [, string $encoding = mb_internal_encoding() ]] ) // 根據(jù)字符數(shù)執(zhí)行一個(gè)多字節(jié)安全的 substr() 操作。 位置是從 str 的開(kāi)始位置進(jìn)行計(jì)數(shù)。 第一個(gè)字符的位置是 0。第二個(gè)字符的位置是 1。 // mb_substr() 函數(shù)根據(jù) start 和 length 參數(shù)返回 str 中指定的部分。
strlen
int strlen ( string $string ) // 返回給定的字符串 string 的長(zhǎng)度。
函數(shù)如下:
function haveEmojiChar($str)
{
$mbLen = mb_strlen($str);
$strArr = [];
for ($i = 0; $i < $mbLen; $i++) {
$strArr[] = mb_substr($str, $i, 1, 'utf-8');
if (strlen($strArr[$i]) >= 4) {
return true;
}
}
return false;
}移除字符串中的 emoji 表情
函數(shù)如下:
function removeEmojiChar($str)
{
$mbLen = mb_strlen($str);
$strArr = [];
for ($i = 0; $i < $mbLen; $i++) {
$mbSubstr = mb_substr($str, $i, 1, 'utf-8');
if (strlen($mbSubstr) >= 4) {
continue;
}
$strArr[] = $mbSubstr;
}
return implode('', $strArr);
}含有 emoji 表情的字符串在 MySQL 中的儲(chǔ)存
1、MySQL 中使用 utf8mb4 字符集。
2、PHP 對(duì)字符串進(jìn)行 base64 編碼,從數(shù)據(jù)庫(kù)中取出時(shí)再對(duì)字符串進(jìn)行解碼。
3、直接移除字符串中的 emoji 表情(該方法簡(jiǎn)單粗暴)






