offline_compression_graph_code

72c0672 verified 2 months ago

16.1 kB

	import numpy as np
	from typing import Tuple, Callable
	from m1_compression import arithmetic_coder
	from m1_compression import utils
	import torch
	import logging
	from pathlib import Path
	import time
	from apps.main.transformer import LMTransformer, LMTransformerArgs
	from lingua.checkpoint import CONSOLIDATE_FOLDER, consolidate_checkpoints
	from apps.main.generate import (
	load_consolidated_model_and_tokenizer,
	)
	from lingua.args import dataclass_from_dict
	from lingua.checkpoint import CONSOLIDATE_NAME
	from omegaconf import OmegaConf
	logger = logging.getLogger()

	ALPHABET_SIZE = 256
	# Base 2 means that the coder writes bits.
	ARITHMETIC_CODER_BASE = 2
	# Precision 16 implies 16 bit arithmetic, in the original paper it is 32.
	ARITHMETIC_CODER_PRECISION = 32
	WINDOW_SIZE = 32 # 窗口大小，以位为单位，可根据需求调整

	def load_m1_model_and_tokenizer(consolidated_path: str):
	"""
	Args:
	consolidated_path (str): 模型检查点的路径。
	"""
	# 加载配置文件
	ckpt_dir = Path(consolidated_path)
	if (
	Path(ckpt_dir).exists()
	and (Path(ckpt_dir) / "params.json").exists()
	and next(Path(ckpt_dir).glob("*.pth"), None) is not None
	):
	consolidate_path = Path(ckpt_dir)
	else:
	consolidate_path = Path(ckpt_dir) / CONSOLIDATE_FOLDER
	if not consolidate_path.exists():
	consolidate_path = consolidate_checkpoints(ckpt_dir)

	# use api to load model
	consolidate_path = str(consolidate_path)
	logger.info("Loading model")
	model, tokenizer, train_cfg = load_consolidated_model_and_tokenizer(
	consolidate_path,
	model_cls=LMTransformer,
	model_args_cls=LMTransformerArgs,
	)
	logger.info("Model loaded")
	model.eval()
	predict_fn = get_predict_fn(model, tokenizer)
	return model, tokenizer, predict_fn

	def load_m1_model_cpu(consolidated_path: str):
	"""
	Args:
	consolidated_path (str): 模型检查点的路径。
	"""
	# 加载配置文件
	ckpt_dir = Path(consolidated_path)
	if (
	Path(ckpt_dir).exists()
	and (Path(ckpt_dir) / "params.json").exists()
	and next(Path(ckpt_dir).glob("*.pth"), None) is not None
	):
	consolidate_path = Path(ckpt_dir)
	else:
	consolidate_path = Path(ckpt_dir) / CONSOLIDATE_FOLDER
	if not consolidate_path.exists():
	consolidate_path = consolidate_checkpoints(ckpt_dir)

	# use api to load model
	consolidate_path = str(consolidate_path)
	logger.info("Loading model")
	ckpt_path = Path(consolidate_path)
	config = ckpt_path / "params.json"
	config = OmegaConf.load(config)

	param_dtype = dict(fp32=torch.float32, fp16=torch.float16, bf16=torch.bfloat16)[
	config.distributed.model_dtype
	]
	model_args = dataclass_from_dict(LMTransformerArgs, config.model, strict=False)
	model = LMTransformer(model_args)
	st_dict = torch.load(ckpt_path / CONSOLIDATE_NAME, weights_only=True)
	model.load_state_dict(st_dict["model"])
	model = model.eval()
	for param in model.parameters():
	param.data = param.data.to(dtype=param_dtype)
	logger.info("Model loaded")
	model.eval()
	return model

	def get_predict_fn(model, tokenizer):
	"""
	return a function that takes a sequence of tokens and returns the probability distribution of the next token.
	Args:
	model: the model to use for prediction
	tokenizer: the tokenizer to use for encoding/decoding
	"""
	def predict_fn(input_sequence: np.ndarray) -> np.ndarray:
	"""
	Args:
	input_sequence (np.ndarray): 输入序列，形状为 (batch_size, seq_len)。
	Returns:
	np.ndarray: 每个 token 的概率分布，形状为 (batch_size, seq_len, vocab_size)。
	"""

	# 如果输入的序列为空，返回模型平均概率分布---压缩和解压我必须要看见这个
	if input_sequence.size == 0:
	initial_probs = np.ones((1, 1, 256), dtype=np.float32) / 256 # 均匀分布
	return initial_probs

	# turn to torch tensor
	input_tensor = torch.tensor(input_sequence, dtype=torch.long).cuda()
	if input_tensor.dim() == 1:
	input_tensor = input_tensor.unsqueeze(0)
	with torch.no_grad():
	# get logits
	logits = model(input_tensor)

	logits = logits[..., :256]
	logits = logits.float()
	assert torch.isfinite(logits).all(), "Logits contain NaN or Inf values."
	probs = torch.softmax(logits, dim=-1)
	probs = probs.float().cpu().numpy()

	return probs

	return predict_fn


	def m1_arithmetic_compress(
	data: bytes,
	predict_fn: Callable,
	return_num_padded_bits: bool = True,
	use_slow_lossless_compression: bool = True
	) -> bytes \| tuple[bytes, int]:
	"""use language model to compress, return compressed bytes and padded bits"""
	sequence_array = np.frombuffer(data, dtype=np.uint8)

	if use_slow_lossless_compression:
	probs = []
	for k in range(len(sequence_array)): # k 表示已处理的 token 数（从 0 到 n-1）
	# 输入前 k 个 token（初始 k=0 时为空序列），预测第 k+1 个 token 的概率
	input_seq = sequence_array[:k] # 前 k 个 token（空序列当 k=0 时）
	if input_seq.size == 0:
	# 空输入时使用均匀分布（或模型预设的初始分布）
	current_probs = np.ones(ALPHABET_SIZE, dtype=np.float32) / ALPHABET_SIZE
	else:
	model_probs = predict_fn(input_seq[None]) # 形状 (1, k, 256)
	current_probs = model_probs[0, -1] # 提取最后一个位置（第 k 个位置，预测第 k+1 个 token）
	probs.append(current_probs)
	probs = np.array(probs)
	else:
	if sequence_array.size == 0:
	probs = np.ones(ALPHABET_SIZE, dtype=np.float32) / ALPHABET_SIZE
	else:
	full_probs = predict_fn(sequence_array[None])[0, ...]
	probs = np.concatenate(
	[
	np.ones(ALPHABET_SIZE, dtype=np.float32)[None] / ALPHABET_SIZE,
	full_probs[:-1,...]
	], axis=0
	)
	# print("[FAST] shape : {}".format(probs.shape))
	probs /= probs.sum(axis=-1, keepdims=True)

	assert probs.shape[1] == ALPHABET_SIZE, "The shape of probs is not correct."
	assert probs.shape[0] == len(sequence_array), "The shape of probs is not correct."
	assert np.isclose(sum(probs[0]), 1, atol=1e-6), "The probs is not normalized."

	output = []
	encoder = arithmetic_coder.Encoder(
	base=ARITHMETIC_CODER_BASE,
	precision=ARITHMETIC_CODER_PRECISION,
	output_fn=output.append
	)
	for pdf, symbol in zip(probs, sequence_array):
	encoder.encode(utils.normalize_pdf_for_arithmetic_coding(pdf), symbol)
	encoder.terminate()

	compressed_bits = ''.join(map(str, output))
	## padding zero to turn the bitstream into bytes
	compressed_bytes, num_padded_bits = utils.bits_to_bytes(compressed_bits)

	if return_num_padded_bits:
	return compressed_bytes, num_padded_bits
	return compressed_bytes

	def m1_arithmetic_decompress(
	compressed: bytes,
	predict_fn: Callable,
	num_padded_bits: int,
	length: int,
	) -> np.ndarray:
	bits = utils.bytes_to_bits(compressed, num_padded_bits=num_padded_bits)
	data_iter = iter(bits)
	def _input_fn() -> int \| None:
	try:
	return int(next(data_iter))
	except StopIteration:
	return None

	decoder = arithmetic_coder.Decoder(
	base=ARITHMETIC_CODER_BASE,
	precision=ARITHMETIC_CODER_PRECISION,
	input_fn=_input_fn
	)
	sequence_array = np.empty((0,), dtype=np.uint8)
	for k in range(length):
	# 预测第 k+1 个 token 的概率：输入已解码的 k 个 token
	if k == 0:
	# 第一个 token：输入空序列，使用初始分布
	input_seq = np.empty((0,), dtype=np.uint8)
	current_probs = np.ones(ALPHABET_SIZE, dtype=np.float32) / ALPHABET_SIZE
	else:
	input_seq = sequence_array # 已解码的 k 个 token
	model_probs = predict_fn(input_seq[None]) # 形状 (1, k, 256)
	current_probs = model_probs[0, -1] # 提取最后一个位置的概率（下一个 token）

	# 确保概率归一化（如果模型输出未归一化）
	current_probs /= current_probs.sum()
	#print("------ this range is ------",k)
	#print("------current_probs-----------:", current_probs)
	token = decoder.decode(utils.normalize_pdf_for_arithmetic_coding(current_probs))
	## 直接append 出现了中间吧sequence_array类型扩大的情况，出现了前置很多0
	#sequence_array = np.append(sequence_array, token)
	sequence_array = np.concatenate([sequence_array, np.array([token], dtype=np.uint8)])
	# print("解压缩后的 token IDs:", sequence_array)
	# print("to byte is:", sequence_array.tobytes())
	return sequence_array.tobytes()

	def m1_arithmetic_compress_with_windows(
	data: bytes,
	predict_fn: Callable,
	window_bit_size=WINDOW_SIZE,
	return_num_padded_bits: bool = True,
	use_slow_lossless_compression: bool = True
	) -> bytes \| Tuple[bytes, list[int], list[int]]:
	compressed_windows = []
	num_padded_bits_per_window = []
	original_lengths_per_window = []
	current_window = []

	for byte in data:
	# 压缩窗口中加入此字节
	current_window.append(byte)
	#进行压缩，得到压缩后的字节和填充位数
	compressed, num_padded = m1_arithmetic_compress(
	bytes(current_window),
	predict_fn=predict_fn,
	return_num_padded_bits=True,
	use_slow_lossless_compression=use_slow_lossless_compression,
	)
	#计算压缩后的bitstream
	compressed_bits = ''.join(map(str, utils.bytes_to_bits(compressed, num_padded)))
	# 计算是否超过窗口大小，进行截断
	if len(compressed_bits) > window_bit_size:
	# print(f"oversize当前窗口压缩后的位数: {len(compressed_bits)}")
	current_window.pop()
	#得到上一个切分的窗口进行窗口内压缩并且保存
	compressed, num_padded = m1_arithmetic_compress(
	bytes(current_window),
	predict_fn=predict_fn,
	return_num_padded_bits=True,
	use_slow_lossless_compression=use_slow_lossless_compression,
	)
	compressed_bits = ''.join(map(str, utils.bytes_to_bits(compressed, num_padded)))
	compressed_windows.append(compressed)
	num_padded_bits_per_window.append(num_padded)
	original_lengths_per_window.append(len(current_window))
	# print(f"当前窗口: {current_window}")

	# print(f"当前窗口压缩长度: {len(compressed)}")
	# print(f"当前窗口压缩后的位数: {len(compressed_bits)}")
	# print(f"填充长度: {num_padded}")
	# print(f"----------")
	# print(f"当前compressed byte数据: {compressed}")
	# print(f"当前bitstream: {compressed_bits}")
	current_window = [byte]

	# 处理最后一个窗口
	if current_window:
	compressed, num_padded = m1_arithmetic_compress(
	bytes(current_window),
	predict_fn=predict_fn,
	return_num_padded_bits=True,
	use_slow_lossless_compression=use_slow_lossless_compression,
	)
	compressed_windows.append(compressed)
	num_padded_bits_per_window.append(num_padded)
	original_lengths_per_window.append(len(current_window))

	all_compressed_bytes = b''.join(compressed_windows)

	if return_num_padded_bits:
	return all_compressed_bytes, num_padded_bits_per_window, original_lengths_per_window
	return all_compressed_bytes


	def m1_arithmetic_decompress_with_windows(
	compressed: bytes,
	predict_fn: Callable,
	window_bit_size,
	num_padded_bits_per_window: list[int],
	original_lengths_per_window: list[int]
	) -> bytes:
	decoded_bytes = b''
	start = 0
	bitstream = utils.bytes_to_bits(compressed)
	for num_padded, length in zip(num_padded_bits_per_window, original_lengths_per_window):
	# 按照窗口大小从比特流中提取当前窗口的比特流
	window_bitstream = bitstream[start:start + window_bit_size]
	# 将比特流转换回字节流
	window_compressed, _ = utils.bits_to_bytes(window_bitstream)
	print(f"当前窗口压缩数据: {window_compressed}")
	# 解码当前窗口
	decoded_window = m1_arithmetic_decompress(
	window_compressed,
	predict_fn,
	num_padded,
	length,
	)
	print(f"解压缩窗口: {decoded_window}")
	print(f"解压缩窗口的长度: {len(decoded_window)}")
	decoded_bytes += decoded_window
	# 更新起始位置
	start += window_bit_size
	return decoded_bytes


	def test_equal_window_compression(sequence: str):
	print(f"测试序列: {sequence}")
	model, tokenizer, predict_fn = load_m1_model_and_tokenizer(consolidated_path = "/mnt/bn/tiktok-mm-5/aiic/users/linzheng/artifacts/m1_checkpoints/m1_1M_steps10k_bs32_seqlen2048/checkpoints/0000010000")
	original_bytes = tokenizer.encode(sequence)
	print(f"token 字节: {original_bytes}")
	original_bytes = bytes(original_bytes)
	print(f"转为字节流: {original_bytes}")
	compressed_data = m1_arithmetic_compress_with_windows(
	original_bytes,
	predict_fn=predict_fn,
	window_bit_size=WINDOW_SIZE,
	return_num_padded_bits=True,
	use_slow_lossless_compression=False
	)
	compressed_bytes, num_padded_bits_per_window, original_lengths_per_window = compressed_data
	print(f"压缩后的字节: {compressed_bytes}")
	print(f"窗口填充位数数组: {num_padded_bits_per_window}")
	print(f"窗口原始长度数组: {original_lengths_per_window}")
	try:
	decoded_bytes = m1_arithmetic_decompress_with_windows(
	compressed_bytes,
	predict_fn,
	WINDOW_SIZE,
	num_padded_bits_per_window,
	original_lengths_per_window
	)
	decoded_sequence = decoded_bytes.decode('utf-8')

	assert decoded_sequence == sequence, f"解码失败：原始={sequence}, 解码={decoded_sequence}"
	except:
	print(f"解码失败")

	compression_ratio = len(original_bytes) / len(compressed_bytes)
	print(f"原始大小: {len(original_bytes)} bytes")
	print(f"压缩后大小: {len(compressed_bytes)} bytes")
	print(f"各窗口填充位数: {num_padded_bits_per_window}")
	print(f"各窗口原始长度: {original_lengths_per_window}")
	print(f"压缩率: {compression_ratio:.2f}x")
	# print(f"解码结果: {decoded_sequence}\n")


	if __name__ == "__main__":
	test_sequences = [
	"if month % 2 : return 30",
	"def __init__(self, name): self.name = name",
	"import pandas as pd\n import matplotlib.pyplot as plt",
	"import torch",
	"import torch\nimport torch.nn as nn\nimport torch.nn.functional as nn"
	"import torch\nimport torch.nn as nn\nimport torch.nn.functional as F" * 100,
	]
	# test_sequences = [
	# "hello world",
	# "this is a test for arithmetic coding",
	# "language modeling is compression - this is the core idea",
	# b"".join([b'\x48' * 100]).decode('utf-8'), # 重复字节测试（H的ASCII码）
	# ]
	for seq in test_sequences:
	print(f"=== m1语言模型 Equal_Window 算术压缩 ===")
	start_time = time.time()
	test_equal_window_compression(seq)
	end_time = time.time()
	print(f"用时: {end_time - start_time} 秒")