基于C#开发中的那些编码问题(详谈)
最近一直在搞各种编码问题,略有心得,与大家分享一番。
System.Text提供了Encoding的抽象类,这个类提供字符串编码的方法。常用的编码方式主要有ASCII,Unicode,UTF8(Unicode编码的一种)。
Unicode有四种编码格式,UTF-8, UTF-16,UTF-32,UTF-7。
字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding。
下面对ASCII和Unicode编码进行对比,废话不说,先上代码:
这是ASCII编码、解码。
static void Main(string[] args) { string temp = "Hello World!"; Console.WriteLine("Original String:{0}", temp); byte[] tempBytes = System.Text.Encoding.ASCII.GetBytes(temp); Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes)); BigInteger integer = new BigInteger(tempBytes); Console.WriteLine("BigInteger:{0}", integer); string res = System.Text.Encoding.ASCII.GetString(tempBytes); Console.WriteLine("Convert Back String:{0}", res); Console.ReadKey(); }
运行结果如下:
Original String:Hello World! Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21 BigInteger:10334410032597741434076685640 Convert Back String:Hello World!
很正常,对吧?但是,如果输入的字符串是中文(或者其他非ASCII表中的字符),情况会怎么样呢?
改变上面的程序代码
string temp = "你好,世界!";
运行结果如下:
Original String:你好,世界! Bytes Array:3F-3F-3F-3F-3F-3F BigInteger:69540876599103 Convert Back String:??????
如果把编码格式换成UTF8,依然重复上面的测试过程。
static void Main(string[] args) { string temp = "你好,世界!"; Console.WriteLine("Original String:{0}", temp); byte[] tempBytes = System.Text.Encoding.UTF8.GetBytes(temp); Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes)); BigInteger integer = new BigInteger(tempBytes); Console.WriteLine("BigInteger:{0}", integer); string res = System.Text.Encoding.UTF8.GetString(tempBytes); Console.WriteLine("Convert Back String:{0}", res); Console.ReadKey(); }
运行结果如下:
Original String:你好,世界! Bytes Array:E4-BD-A0-E5-A5-BD-EF-BC-8C-E4-B8-96-E7-95-8C-EF-BC-81 BigInteger:-10998968812899434720462615123889939386679836 Convert Back String:你好,世界!
Original String:Hello World! Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21 BigInteger:10334410032597741434076685640 Convert Back String:Hello World!
通过对比,我们发现除了兼容中文和其他语言外,似乎没有太大区别。如果把编码集换成Unicode,中英文字符编码的不同就会很容易看出来了。
Original String:Hello World! Bytes Array:48-00-65-00-6C-00-6C-00-6F-00-20-00-57-00-6F-00-72-00-6C-00-64-00-21-00 BigInteger:3160918205608148134863399242437668999277801104545742920 Convert Back String:Hello World!
Original String:你好,世界! Bytes Array:60-4F-7D-59-0C-FF-16-4E-4C-75-01-FF BigInteger:-307722159543719876182061216 Convert Back String:你好,世界!
如果不考虑其他情况。通过对比结果,我们发现:
1、ASCII只能处理英文和英文符号,具体请参考ASCII字符表
2、Unicode可以处理全球所有语言符号
3、Unicode处理英文时,会在每个字节后面加一个字节0x00,比ASCII多出一倍的长度;处理中文时,编码较短。
4、UTF8处理中文时比Unicode编码长,处理英文时与ASCII一样。
结论,由于现在存储介质越来越不值钱,在处理有非英文字符时,编码格式应该选择Unicode(或其子集UTF8等的任意一种编码格式),只有在确定程序只会处理英文的时候,才能选择ASCII编码。
以上这篇基于C#开发中的那些编码问题(详谈)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
您可能感兴趣的文章
- 01-10C#中查找Dictionary中的重复值的方法
- 01-10C#将图片存放到SQL SERVER数据库中的方法
- 01-10关于nancy中的身份验证
- 01-10C#调用WebService实例开发
- 01-10基于C#实现简单离线注册码生成与验证
- 01-10C#基于UDP实现的P2P语音聊天工具
- 01-10C#中的事务用法实例分析
- 01-10C#实现基于加减按钮形式控制系统音量及静音的方法
- 01-10实现ASP.NET无刷新下载并提示下载完成的开发思路
- 01-10C#实现读取DataSet数据并显示在ListView控件中的方法
阅读排行
本栏相关
- 01-10C#通过反射获取当前工程中所有窗体并
- 01-10关于ASP网页无法打开的解决方案
- 01-10WinForm限制窗体不能移到屏幕外的方法
- 01-10WinForm绘制圆角的方法
- 01-10C#实现txt定位指定行完整实例
- 01-10WinForm实现仿视频播放器左下角滚动新
- 01-10C#停止线程的方法
- 01-10C#实现清空回收站的方法
- 01-10C#通过重写Panel改变边框颜色与宽度的
- 01-10C#实现读取注册表监控当前操作系统已
随机阅读
- 01-10C#中split用法实例总结
- 01-10delphi制作wav文件的方法
- 01-11ajax实现页面的局部加载
- 08-05织梦dedecms什么时候用栏目交叉功能?
- 08-05dedecms(织梦)副栏目数量限制代码修改
- 01-11Mac OSX 打开原生自带读写NTFS功能(图文
- 01-10使用C语言求解扑克牌的顺子及n个骰子
- 08-05DEDE织梦data目录下的sessions文件夹有什
- 01-10SublimeText编译C开发环境设置
- 04-02jquery与jsp,用jquery