首頁  >  文章  >  类库下载  >  使用C#處理基於比特流的數據

使用C#處理基於比特流的數據

高洛峰
高洛峰原創
2016-10-14 17:03:571965瀏覽

使用C#處理基於比特流的數據

0x00 起因

最近需要處理一些基於比特流的數據,計算機處理數據一般都是以byte(8bit)為單位的,使用BinaryReader讀取的數據也是如此,即使讀取bool型也是一個byte。不過借助於C#基礎類別庫中提供的一些方法,也實作了對基於位元的資料的讀取。任務完成後覺得基於位元的資料挺有意思,自己試了下用7位元和6位元編碼常用ASCII字元。最後把一點新的寫成博客,一方面做個記錄,另一方面希望對有類似需求的園友有所幫助。

0x01 位元流資料的讀取

假設我們有一個byte b = 35,而我們需要把其中的前4bit和後4bit分別讀取為兩個數字,那麼我們應該怎麼做呢。雖然沒有在基礎類別庫中找到現成的方法,但用二進位字串中轉一下,分兩步驟也可以做到。

1、先把b表示為二進位字串00100011

2、分別取其前後4bit轉為數字,核心方法就是:

Convert.ToInt32("0010");

這樣就實現了基於比特的資料讀取了。

關於第一步中把byte轉換為二進位字串有很多種方法,

1、最簡單的Convert.ToString(b,2)。不夠8位就在高位用0補足。

2、也可以把byte分別與1,2,4,8 … 128做與運算,由低到高取出各位。

3、也可以把byte和32做與運算,然後把byte左移再與128做與運算。

其中第一種方法會產生大量的字符串對象,在第2、3種方法沒有找到太大區別,我選擇的3,純靠感覺。程式碼如下:

public static char[] ByteToBinString(byte b)
{
  var result = new char[8];
  for (int i = 0; i < 8; i++)
  {
    var temp = b & 128;
    result[i] = temp == 0 ? &#39;0&#39; : &#39;1&#39;;
    b = (byte)(b << 1);
  }
  return result;
}

為了能將byte[]轉換為二進位字串,可以

Public string BitReader(byte[] data)
{
    BinString = new StringBuilder(data.Length * 8);
    for (int i = 0; i < data.Length; 
    {
         BinString.Append(ByteToBinString(data[i]));
    }
    return BinString.ToString();
}

這樣一來當拿到byte[]資料時,可以轉換為二進位字串保存起來,根據偏移的bit位置和bit長度從中讀取二進位字串,並保轉換為bool,Int16,Int32等。基於這個思路,可以寫一個BitReader類,其中用StringBuilder儲存二進位字串,並提供Read方法從二進位字串中讀取資料。為了能夠更好的處理資料流,在此基礎上添加一個Position記錄當前偏移,當使用某些Read方法讀取資料時,Position也會相應移動。例如使用ReadInt16讀取數據,BitReader會從Position目前位置,讀取16bit並轉換為Int16返回,同時Position向後移動16bit。區分方式就是當讀取資料時需要指定起始的偏移位置時,Position不移動,直接從目前Position讀取時Position移動,BitReader類別部分程式碼如下:

public class BitReader
{
    public readonly StringBuilder BinString;
    public int Position { get; set; }

    public BitReader(byte[] data)
    {
        BinString = new StringBuilder(data.Length * 8);
        for (int i = 0; i < data.Length; i++)
        {
            BinString.Append(ByteToBinString(data[i]));
        }
        Position = 0;
    }

    public byte ReadByte(int offset)
    {
        var bin = BinString.ToString(offset, 8);
        return Convert.ToByte(bin, 2);
    }

    public byte ReadByte()
    {
        var result = ReadByte(Position);
        Position += 8;
        return result;
    }

    public int ReadInt(int offset, int bitLength)
    {
        var bin = BinString.ToString(offset, bitLength);
        return Convert.ToInt32(bin, 2);
    }

    public int ReadInt(int bitLength)
    {
        var result = ReadInt(Position, bitLength);
        Position += bitLength;
        return result;
    }

    public static char[] ByteToBinString(byte b)
    {
        var result = new char[8];
        for (int i = 0; i < 8; i++)
        {
            var temp = b & 128;
            result[i] = temp == 0 ? &#39;0&#39; : &#39;1&#39;;
            b = (byte)(b << 1);
        }
        return result;
     }
}

使用BitReader依照4bit從byte[] buff = {35,12};中讀取資料可以這樣:

var reader = new BitReader(buff); //二进制字符串为0010001100001100

var num1 = reader.ReadInt(4);   //从当前Position读取4bit为int,Position移动4bit,结果为2,当前Position=4

var num2 = reader.ReadInt(5,6);  //从偏移为5bit的位置读取6bit为int,Position不移动,结果为48,当前Position=4

var b = reader.ReadBool();  //从当前Position读取1bit为bool,Position移动1bit,结果为False,当前Position=5

0x02 比特流資料的寫入

把資料寫入位元流就是一個相反的過程,我們用BitWriter類實現,在其中儲存StringBuilder保存二進位字串,當寫入資料時,需要傳入資料並指定保存這個資料所需的bit數。當寫入完畢後可以將StringBuilder中儲存的二進位字串依照8bit轉換為byte[]並傳回。 BitWriter的核心部分如下:

public class BitWriter
{
    public readonly StringBuilder BinString;

    public BitWriter()
    {
        BinString = new StringBuilder();
    }

    public BitWriter(int bitLength)
    {
        var add = 8 - bitLength % 8;
        BinString = new StringBuilder(bitLength + add);
    }

    public void WriteByte(byte b, int bitLength=8)
    {
        var bin = Convert.ToString(b, 2);
        AppendBinString(bin, bitLength);
    }

    public void WriteInt(int i, int bitLength)
    {
        var bin = Convert.ToString(i, 2);
        AppendBinString(bin, bitLength);
    }

    public void WriteChar7(char c)
    {
        var b = Convert.ToByte(c);
        var bin = Convert.ToString(b, 2);
        AppendBinString(bin, 7);
    }

    public byte[] GetBytes()
    {
        Check8();
        var len = BinString.Length / 8;
        var result = new byte[len];

        for (int i = 0; i < len; i++)
        {
            var bits = BinString.ToString(i * 8, 8);
            result[i] = Convert.ToByte(bits, 2);
        }

        return result;
    }

    public string GetBinString()
    {
        Check8();
        return BinString.ToString();
    }


    private void AppendBinString(string bin, int bitLength)
    {
        if (bin.Length > bitLength)
            throw new Exception("len is too short");
        var add = bitLength - bin.Length;
        for (int i = 0; i < add; i++)
        {
            BinString.Append(&#39;0&#39;);
        }
        BinString.Append(bin);
    }

    private void Check8()
    {
        var add = 8 - BinString.Length % 8;
        for (int i = 0; i < add; i++)
        {
            BinString.Append("0");
        }
    }
}

下面舉個簡單的例子:

var writer = new BitWriter();

writer.Write(12,5);  //把12用5bit写入,此时二进制字符串为:01100

writer.Write(8,16);  //把8用16bit写入,此时二进制字符串为:011000000000000001000

var result = writer.GetBytes(); //8bit对齐为011000000000000001000000
                                //返回结果为[96,0,64]

0x03 7位元字元編碼

我們常用的ASCII字元是使用8bit編碼的,但其中真正常用的那些字元只有7bit,最高位元為0,所以對於一篇英文文章,我們可以使用7bit重新編碼而不損失資訊。編碼的過程就是把文章字元依序取出,並用BitWriter依照7bit寫入,最後取得新編碼的byte[]。為了能夠正確讀取,我們規定當讀到8bit資料為2時代表資料開始,接下來16bit資料為後面字元個數。代碼如下:

public byte[] Encode(string text)
    {
        var len = text.Length * 7 + 24;

        var writer = new BitWriter(len);
        writer.WriteByte(2);
        writer.WriteInt(text.Length, 16);

        for (int i = 0; i < text.Length; i++)
        {
            var b = Convert.ToByte(text[i]);
            writer.WriteByte(b, 7);
        }

        return writer.GetBytes();
    }

同樣讀取資料的時候,我們先尋找開始標識符,然後讀出字符個數,根據字符個數依次讀取字符,代碼如下:

public string Decode(byte[] data)
    {
        var reader = new BitReader(data);
        while (reader.Remain > 8)
        {
            var start = reader.ReadByte();
            if (start == 2)
                break;
        }
        var len = reader.ReadInt(16);
        var result = new StringBuilder(len);
        for (int i = 0; i < len; i++)
        {
            var b = reader.ReadInt(7);
            var ch = Convert.ToChar(b);
            result.Append(ch);
        }

        return result.ToString();
    }

由於數據頭的存在,當編碼幾個字元時編碼後資料反而更長了

使用C#處理基於比特流的數據

不过随着字符越多,编码后节省的越多。

使用C#處理基於比特流的數據

0x04 6比特字符编码

从节省数据量的角度,如果允许损失部分信息,例如损失掉字母大小写,是可以进一步减少编码所需比特数的。26个字母+10个数字+符号,可以用6bit(64)进行编码。不过使用这种编码方式就不能用ASCII的映射方式了,我们可以自定义映射,例如0-10映射为十个数字等等,也可以使用自定义的字典,也就是传说中的密码本。经常看国产谍战片的应该都知道密码本吧,密码本就是一个字典,把字符进行重新映射获取明文,算是简单的单码替代,加密强度很小,在获取足量数据样本后基于统计很容易就能破解。下面我们就尝试基于自定义字典用6bit重新编码。

编码过程:

仍然像7bit编码那样写入消息头,然后依次取出文本中的字符,从字典中找到对应的数字,把数字按照6bit长度写入到BitWriter

public byte[] Encode(string text)
    {
        text = text.ToUpper();
        var len = text.Length * 6 + 24;

        var writer = new BitWriter(len);
        writer.WriteByte(2);
        writer.WriteInt(text.Length, 16);

        for (int i = 0; i < text.Length; i++)
        {
            var index = GetChar6Index(text[i]);
            writer.WriteInt(index, 6);
        }

        return writer.GetBytes();

    }

    private int GetChar6Index(char c)
    {
        for (int i = 0; i < 64; i++)
        {
            if (Dict.Custom[i] == c)
                return i;
        }
        return 10; //return *
    }

解码过程:

解码也很简单,找到消息头,依次按照6bit读取数据,并从字典中找到对应的字符:

public string Decode(byte[] data)
{
    var reader = new BitReader(data);
    while(reader.Remain > 8)
    {
        var start = reader.ReadByte();
        if (start == 2)
            break;
    }
    var len = reader.ReadInt(16);
    var result = new StringBuilder(len);
    for (int i = 0; i < len; i++)
    {
        var index = reader.ReadInt(6);
        var ch = Dict.Custom[index];
        result.Append(ch);
    }

    return result.ToString();
}

同样一段文本用6bit自定义字典编码后数据长度更短了,不过损失了大小写和换行等格式。

使用C#處理基於比特流的數據

如果从加密的角度考虑,可以设置N个自定义字典(假设10个),在消息头中用M bit(例如4bit)表示所用的字典。这样在每次编码时随机选择一个字典编码,解码时根据4bit数据选择相应字典解码,并且定时更换字典可以增大破解难度。感兴趣的园友可以自行尝试。

0x05 写在最后

以上是我处理比特流数据的一点心得,仅仅是我自己能想到的一种方法,满足了我的需求。如果有更效率的更合理的方法,希望赐教。另外编码和解码的两个例子是出于有趣写着玩的,在实际中估计也用不到。毕竟现在带宽这么富裕,数据加密也有N种可靠的多的方式。

示例代码:https://github.com/durow/TestArea/tree/master/BitStream


陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn