博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
UTF-8编码中BOM的检测与删除
阅读量:6613 次
发布时间:2019-06-24

本文共 1689 字,大约阅读时间需要 5 分钟。

hot3.png

所谓BOM,全称是,它是一个Unicode字符,通常出现在文本的开头,用来标识字节序(Big/Little Endian),除此以外还可以标识编码(UTF-8/16/32),如果出现在文本中间,则解释为。 注:Unicode相关知识的详细介绍请参考。 对于UTF-8/16/32而言,它们名字中的8/16/32指的是编码单位是多少位的,也就是说,它们的编码单位分别是8/16/32位,换算成字节就是1/2/4字节,如果是多字节,就要牵扯到字节序,UTF-8以单字节为编码单位,所以不存在字节序。 UTF-8主要的优点是可以兼容ASCII,但如果使用BOM的话,这个好处就荡然无存了,除此以外,BOM的存在还可能引发一些问题,比如下面错误便都有可能是BOM导致的:

  • Shell: No such file or directory
  • PHP: Warning: Cannot modify header information – headers already sent

在详细讨论UTF-8编码中BOM的检测与删除问题前,不妨先通过一个例子热热身:

shell> curl -s http://phone.10086.cn/ | head -1 | sed -n l\357\273\277\r$

如上所示,前三个字节分别是357、273、277,这就是八进制的BOM。

shell> curl -s http://phone.10086.cn/ | head -1 | hexdump -C00000000  ef bb bf 3c 21 44 4f 43  54 59 50 45 20 68 74 6d  |.....|

如上所示,前三个字节分别是EF、BB、BF,这就是十六进制的BOM。 注:用到了第三方网站的页面,不能保证例子始终可用。 实际做项目开发时,可能会面对成百上千个文本文件,如果有几个文件混入了BOM,那么很难察觉,如果没有带BOM的UTF-8文本文件,可以用vi杜撰几个,相关命令如下:

设置UTF-8编码:

:set fileencoding=utf-8

添加BOM:

:set bomb

删除BOM:

:set nobomb

查询BOM:

:set bomb?

如何检测UTF-8编码中的BOM呢?

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path

如何删除UTF-8编码中的BOM呢?

shell> grep -r -I -l $'^\xEF\xBB\xBF' /path | xargs sed -i 's/^\xEF\xBB\xBF//;q'

推荐:如果你使用SVN的话,可以在pre-commit钩子里加上相关代码用以杜绝BOM。

#!/bin/bashREPOS="$1"TXN="$2"SVNLOOK=/usr/bin/svnlookfor FILE in $($SVNLOOK changed -t "$TXN" "$REPOS" | awk '/^[AU]/ {print $NF}'); do    if $SVNLOOK cat -t "$TXN" "$REPOS" "$FILE" | grep -q $'^\xEF\xBB\xBF'; then        echo "Byte Order Mark be found in $FILE" 1>&2        exit 1    fidone

本文用到了很多shell命令,篇幅所限,恕不详述,如果有不明白的就请自己搜索吧。

PS:一些其他的命令行:

awk '{if(NR==1)sub(/^\xef\xbb\xbf/,"");print}' text.txttail --bytes=+4 text.txttail -c +4 UTF8 > UTF8.nobom

另外两个 python utf-8 BOM 编码异常的案例分享:

转载于:https://my.oschina.net/leejun2005/blog/82612

你可能感兴趣的文章
大牛博客(持续更新)
查看>>
《论语别裁》
查看>>
EXT4文件系统禁用日志功能
查看>>
spring4学习:使用外部属性文件
查看>>
开发同学的福利--mysql监控工具sqlprofiler,类似sqlserver的profiler工具
查看>>
逸鹏说道:性格色彩读后感
查看>>
#1014 : Trie树
查看>>
Poj2229--Sumsets(递推)
查看>>
FMDB数据库相关
查看>>
event.clientX和event.clientY
查看>>
国外PHP学习网站书籍资料汇总
查看>>
Lock
查看>>
HDU-1024
查看>>
SqlServer自动备份作业
查看>>
maven scope含义的说明
查看>>
RXTX串口通信 java
查看>>
PLSQL Develope连接oracle数据库配置
查看>>
Jmeter测试带加密参数的接口
查看>>
0623-TP框架整理一(下载、入口文件、路由、创建控制器、调用模板、系统常量、命名空间)...
查看>>
配置android source 在ubuntu中编译环境
查看>>