Unicode转换为字符串会留下前导字节顺序标记

编程基础网 C#/.NET问题

2022-01-01

Unicode conversion to String leaves leading Byte order mark(Unicode转换为字符串会留下前导字节顺序标记)

本文介绍了Unicode转换为字符串会留下前导字节顺序标记的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

在.NET 3.5 C#应用程序中，我正在将Unicode编码的字节数组转换为字符串。

字节数组如下：

{255, 254, 85, 0, 83, 0, 69, 0}

使用Encoding.Unicode.GetString(var)，我将字节数组转换为字符串，它返回：

{65279 '', 85 'U', 83 'S' , 69 'E'}

前导字符65279似乎是Zero Width No-Break Space，它在Unicode编码中用作字节顺序标记，它的出现在我的应用程序的其余部分中造成了问题。

目前我使用的解决方法是var.Trim(new char[]{'uFEFF','u200B'});，工作正常。

但真正的问题是，GetString不应该注意删除字节顺序标记吗？或者我在转换字节数组时做错了什么？

否，GetString()不应删除物料清单。BOM实际上是一个完全有效的Unicode字符(之所以选择它，是因为如果它出现在Unicode文件的中间，例如，如果该文件是多个Unicode文件串联的结果，则它不会影响呈现的文本)，并且必须与byte[]中的所有其他字符一起进行解码。

唯一应该解释和过滤BOM的代码应该是理解数据来自某个持久性存储的代码，例如StreamReader。请注意，只有当您不禁用该行为时，它才会执行此操作。

GetString()要做的就是解释实际的编码字符，并将它们转换为它们表示的文本(当然，在C#中，字符串在内部存储为UTF16，所以当原始数据已经在UTF16：)中时，几乎不需要进行转换。

这篇关于Unicode转换为字符串会留下前导字节顺序标记的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

本文标题为：Unicode转换为字符串会留下前导字节顺序标记

上一篇：淡入/淡出图像的最佳方式

下一篇：在控制台上使用填充显示格式化文本