提示:记录点学习过程中的简单成果,方便日后回顾也希望对读者有点小帮助
文章目录
- 前言
- 一、实现思路
- 二、基础知识
- 1.编码格式
- 2.Unity脚本转码注意事项
- 三、具体代码实现
- 参考链接
- 总结
前言
在一些游戏项目中,有的项目或许属于前期的某种设计缺陷导致没有string表,需要在脚本文件中写汉字。这样操作一般是不允许的,是因为在代码中写汉字容易因为文件编码的问题导致在真机包出现错误。由于文件的累积最后需要更改脚本文件的数量甚是庞大,需要消耗大量时间,于是自己第一次学习写了这个拓展工具。
一、实现思路
主要是需要先找到我们想要的更改编码的文件,判断编码当前的编码格式是否是我们目标编码格式,不一致就需要进行更改。
二、基础知识
1.编码格式
编码格式 | 解释 |
ASCII | ASCII全名是American Standard Code for Information Interchange, 叫做“美国信息交换标准码”。ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。ASCII码是目前最普及的一种字符编码。 |
ANSI | ANSI编码是一种对ASCII码的拓展:ANSI编码用0x00~0x7f (即十进制下的0到127)范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符。也就是说,ANSI码仅在前128(0-127)个与ASCII码相同,之后的字符全是某个国家语言的所有字符。 |
Unicode | ASCII码叫做“美国信息交换标准码”,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。ASCII码是目前最普及的一种字符编码,只适用于美帝,要是用在美帝之外的国家,就不能满足需求了。还有ANSI编码其实包括很多编码:中国制定了GB2312编码,用来把中文编进去另外,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准。受制于当时的条件,不同语言之间的ANSI码之间不能互相转换,这就会导致在多语言混合的文本中会有乱码。 |
UTF8 | 为了解决不同国家ANSI编码的冲突问题,Unicode应运而生:如果全世界每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。但是问题在于,原本可以用一个字节存储的英文字母在Unicode里面必须存两个字节(规则就是在原来英文字母对应ASCII码前面补0),这就产生了浪费。那么有没有一种既能消除乱码,又能避免浪费的编码方式呢?答案就是UTF-8! |
2.Unity脚本转码注意事项
Unity脚本文件在转码的时候我们需要先去读取文件的文本内容,然后再去将读到的内容使用UTF8的编码格式写入文件。值得注意的是这里面如果是因为中文乱码的话就可以使用Encoding.GetEncoding(“Gb3212”)的编码格式去读,否则你读到的本身就是乱码,那么重新写入也只会是乱码。
三、具体代码实现
using Sirenix.OdinInspector.Editor;
using UnityEngine;
using System.IO;
using UnityEditor;
using System.Text;
using System;
namespace Game.Editor
{
public class UTF_8 : OdinEditorWindow
{
private string Path = "Assets/Code/Game@hotfix/Window";
private string Result;
private string Finish;
private int FileCount;
private int ChangeCount;
private Vector2 scrollPos;
[MenuItem("Tools/UTF-8编码", false)]
public static void Open()
{
var window = (UTF_8)EditorWindow.GetWindow(typeof(UTF_8), false, "UTF-8编码");
window.maxSize = window.minSize = new Vector2(400, 400);
window.Show();
}
private void OnGUI()
{
scrollPos = GUILayout.BeginScrollView(scrollPos);
{
GUILayout.BeginVertical();
{
GUILayout.Space(20);
GUILayout.BeginHorizontal();
{
GUILayout.Label("File_Path");
GUILayout.FlexibleSpace();
Path = GUILayout.TextField(Path, GUILayout.Width(300));
}
GUILayout.EndHorizontal();
GUILayout.Space(10);
GUILayout.Space(30);
if (GUILayout.Button("生成"))
{
FileCount = 0;
ChangeCount = 0;
GetAllFile();
}
if (GUILayout.Button("清空log"))
{
Clear();
}
GUILayout.Space(30);
GUILayout.Label(Finish);
GUILayout.Space(10);
GUILayout.Label(Result);
}
GUILayout.EndVertical();
}
GUILayout.EndScrollView();
}
private void GetAllFile()
{
if (Path == null || Path == "")
{
Result = "路径不可以为null";
}
//获取指定路径下面的所有资源文件
if (Directory.Exists(Path))
{
DirectoryInfo direction = new DirectoryInfo(Path);
FileInfo[] files = direction.GetFiles("*", SearchOption.AllDirectories);
for (int i = 0; i < files.Length; i++)
{
if (files[i].Name.EndsWith(".meta"))
{
continue;
}
Encoding _encoding = GetType(files[i].OpenRead());
if (_encoding != Encoding.UTF8)
{
var s = File.ReadAllText(files[i].FullName, Encoding.GetEncoding("GB2312"));
File.WriteAllText(files[i].FullName, s, new UTF8Encoding(false));
ChangeCount++;
}
FileCount++;
}
Result = $"总共找到{FileCount}个cs文件 {ChangeCount}个cs文件的编码格式被修改成了UTF-8";
Finish = "完成";
}
else
{
Result = "未找到此路径";
}
}
private static System.Text.Encoding GetType(FileStream fs)
{
byte[] Unicode = new byte[] { 0xFF, 0xFE, 0x41 };
byte[] UnicodeBIG = new byte[] { 0xFE, 0xFF, 0x00 };
byte[] UTF8 = new byte[] { 0xEF, 0xBB, 0xBF }; //带BOM
Encoding reVal = Encoding.Default;
BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
int i;
int.TryParse(fs.Length.ToString(), out i);
byte[] ss = r.ReadBytes(i);
if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
{
reVal = Encoding.UTF8;
}
else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
{
reVal = Encoding.BigEndianUnicode;
}
else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
{
reVal = Encoding.Unicode;
}
r.Close();
return reVal;
}
/// <summary>
/// 判断是否是不带 BOM 的 UTF8 格式
/// </summary>
/// <param name="data"></param>
/// <returns></returns>
private static bool IsUTF8Bytes(byte[] data)
{
int charByteCounter = 1;
//计算当前正分析的字符应还有的字节数
byte curByte; //当前分析的字节.
for (int i = 0; i < data.Length; i++)
{
curByte = data[i];
if (charByteCounter == 1)
{
if (curByte >= 0x80)
{
//判断当前
while (((curByte <<= 1) & 0x80) != 0)
{
charByteCounter++;
}
//标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X
if (charByteCounter == 1 || charByteCounter > 6)
{
return false;
}
}
}
else
{
//若是UTF-8 此时第一位必须为1
if ((curByte & 0xC0) != 0x80)
{
return false;
}
charByteCounter--;
}
}
if (charByteCounter > 1)
{
throw new Exception("非预期的byte格式");
}
return true;
}
private void Clear()
{
Result = null;
Finish = null;
}
}
}
参考链接
链接: 字符编码ANSI和ASCII区别、Unicode和UTF-8区别
总结
如果有大佬看到还望指点一二!!!