Spaces:

llm-blender
/

LLM-Blender

Runtime error

App Files Files Community

LLM-Blender / app.py

DongfuJiang

update

fcac78f over 2 years ago

raw

history blame

13.8 kB

	import gradio as gr
	import sys
	import os
	import zipfile
	from datasets import load_dataset
	from typing import List

	MAX_BASE_LLM_NUM = 20
	MIN_BASE_LLM_NUM = 3
	SOURCE_MAX_LENGTH = 256
	DEFAULT_SOURCE_MAX_LENGTH = 128
	CANDIDATE_MAX_LENGTH = 256
	DEFAULT_CANDIDATE_MAX_LENGTH = 128
	FUSER_MAX_NEW_TOKENS = 512
	DEFAULT_FUSER_MAX_NEW_TOKENS = 256
	DESCRIPTIONS = """# LLM-BLENDER

	LLM-Blender is an innovative ensembling framework to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). LLM-Blender cut the weaknesses through ranking and integrate the strengths through fusing generation to enhance the capability of LLMs.
	"""
	EXAMPLES_DATASET = load_dataset("llm-blender/mix-instruct", split='validation', streaming=True)
	SHUFFLED_EXAMPLES_DATASET = EXAMPLES_DATASET.shuffle(seed=42, buffer_size=1000)
	EXAMPLES = []
	CANDIDATE_EXAMPLES = {}
	for example in SHUFFLED_EXAMPLES_DATASET.take(100):
	EXAMPLES.append([
	example['instruction'],
	example['input'],
	])
	CANDIDATE_EXAMPLES[example['instruction']+example['input']] = example['candidates']

	# Download ranker checkpoint
	if not os.path.exists("pairranker-deberta-v3-large.zip"):
	os.system("gdown https://drive.google.com/uc?id=1EpvFu_qYY0MaIu0BAAhK-sYKHVWtccWg")
	if not os.path.exists("pairranker-deberta-v3-large"):
	with zipfile.ZipFile("pairranker-deberta-v3-large.zip", 'r') as zip_ref:
	zip_ref.extractall(".")

	# Load Blender
	import llm_blender
	from llm_blender.blender.blender_utils import get_topk_candidates_from_ranks
	ranker_config = llm_blender.RankerConfig()
	ranker_config.ranker_type = "pairranker"
	ranker_config.model_type = "deberta"
	ranker_config.model_name = "microsoft/deberta-v3-large" # ranker backbone
	ranker_config.load_checkpoint = "./pairranker-deberta-v3-large" # ranker checkpoint <your checkpoint path>
	ranker_config.source_maxlength = DEFAULT_SOURCE_MAX_LENGTH
	ranker_config.candidate_maxlength = DEFAULT_CANDIDATE_MAX_LENGTH
	ranker_config.n_tasks = 1 # number of singal that has been used to train the ranker. This checkpoint is trained using BARTScore only, thus being 1.
	fuser_config = llm_blender.GenFuserConfig()
	fuser_config.model_name = "llm-blender/gen_fuser_3b" # our pre-trained fuser
	fuser_config.max_length = 1024
	fuser_config.candidate_maxlength = DEFAULT_CANDIDATE_MAX_LENGTH
	blender_config = llm_blender.BlenderConfig()
	blender_config.load_in_8bit = True
	blender_config.device = "cuda" # blender ranker and fuser device
	blender = llm_blender.Blender(blender_config, ranker_config, fuser_config)

	def update_base_llms_num(k, llm_outputs):
	k = int(k)
	return [gr.Dropdown.update(choices=[f"LLM-{i+1}" for i in range(k)],
	value=f"LLM-1" if k >= 1 else "", visible=True),
	{f"LLM-{i+1}": llm_outputs.get(f"LLM-{i+1}", "") for i in range(k)}]


	def display_llm_output(llm_outputs, selected_base_llm_name):
	return gr.Textbox.update(value=llm_outputs.get(selected_base_llm_name, ""),
	label=selected_base_llm_name + " (Click Save to save current content)",
	placeholder=f"Enter {selected_base_llm_name} output here", show_label=True)

	def save_llm_output(selected_base_llm_name, selected_base_llm_output, llm_outputs):
	llm_outputs.update({selected_base_llm_name: selected_base_llm_output})
	return llm_outputs

	def get_preprocess_examples(inst, input):
	# get the num_of_base_llms
	candidates = CANDIDATE_EXAMPLES[inst+input]
	num_candiates = len(candidates)
	dummy_text = inst+input
	return inst, input, num_candiates, dummy_text

	def update_base_llm_dropdown_along_examples(dummy_text):
	candidates = CANDIDATE_EXAMPLES[dummy_text]
	ex_llm_outputs = {f"LLM-{i+1}": candidates[i]['text'] for i in range(len(candidates))}
	return ex_llm_outputs, "", ""

	def check_save_ranker_inputs(inst, input, llm_outputs, blender_config):
	if not inst and not input:
	raise gr.Error("Please enter instruction or input context")

	if not all([x for x in llm_outputs.values()]):
	empty_llm_names = [llm_name for llm_name, llm_output in llm_outputs.items() if not llm_output]
	raise gr.Error("Please enter base LLM outputs for LLMs: {}").format(empty_llm_names)
	return {
	"inst": inst,
	"input": input,
	"candidates": list(llm_outputs.values()),
	}

	def check_fuser_inputs(blender_state, blender_config, ranks):
	if not (blender_state.get("inst", None) or blender_state.get("input", None)):
	raise gr.Error("Please enter instruction or input context")
	if "candidates" not in blender_state or len(ranks)==0:
	raise gr.Error("Please rank LLM outputs first")
	return

	def llms_rank(inst, input, llm_outputs, blender_config):
	candidates = list(llm_outputs.values())
	rank_params = {
	"source_max_length": blender_config['source_max_length'],
	"candidate_max_length": blender_config['candidate_max_length'],
	}
	ranks = blender.rank(instructions=[inst], inputs=[input], candidates=[candidates])[0]
	return [ranks, ", ".join([f"LLM-{i+1}: {rank}" for i, rank in enumerate(ranks)])]


	def llms_fuse(blender_state, blender_config, ranks):
	inst = blender_state['inst']
	input = blender_state['input']
	candidates = blender_state['candidates']
	top_k_for_fuser = blender_config['top_k_for_fuser']
	fuse_params = blender_config.copy()
	fuse_params.pop("top_k_for_fuser")
	fuse_params.pop("source_max_length")
	fuse_params['no_repeat_ngram_size'] = 3
	top_k_candidates = get_topk_candidates_from_ranks([ranks], [candidates], top_k=top_k_for_fuser)[0]
	fuser_outputs = blender.fuse(instructions=[inst], inputs=[input], candidates=[top_k_candidates], **fuse_params, batch_size=1)[0]
	return [fuser_outputs, fuser_outputs]

	def display_fuser_output(fuser_output):
	return fuser_output


	with gr.Blocks(theme='ParityError/Anime') as demo:
	gr.Markdown(DESCRIPTIONS)
	gr.Markdown("## Input and Base LLMs")
	with gr.Row():
	with gr.Column():
	inst_textbox = gr.Textbox(lines=1, label="Instruction", placeholder="Enter instruction here", show_label=True)
	input_textbox = gr.Textbox(lines=4, label="Input Context", placeholder="Enter input context here", show_label=True)
	with gr.Column():
	saved_llm_outputs = gr.State(value={})
	with gr.Group():
	selected_base_llm_name_dropdown = gr.Dropdown(label="Base LLM",
	choices=[f"LLM-{i+1}" for i in range(MIN_BASE_LLM_NUM)], value="LLM-1", show_label=True)
	selected_base_llm_output = gr.Textbox(lines=4, label="LLM-1 (Click Save to save current content)",
	placeholder="Enter LLM-1 output here", show_label=True)
	with gr.Row():
	base_llm_outputs_save_button = gr.Button('Save', variant='primary')

	base_llm_outputs_clear_single_button = gr.Button('Clear Single', variant='primary')

	base_llm_outputs_clear_all_button = gr.Button('Clear All', variant='primary')
	base_llms_num = gr.Slider(
	label='Number of base llms',
	minimum=MIN_BASE_LLM_NUM,
	maximum=MAX_BASE_LLM_NUM,
	step=1,
	value=MIN_BASE_LLM_NUM,
	)

	blender_state = gr.State(value={})
	saved_rank_outputs = gr.State(value=[])
	saved_fuse_outputs = gr.State(value=[])
	gr.Markdown("## Blender Outputs")
	with gr.Group():
	rank_outputs = gr.Textbox(lines=1, label="Ranks of each LLM's output", placeholder="Ranking outputs", show_label=True)
	fuser_outputs = gr.Textbox(lines=4, label="Fusing outputs", placeholder="Fusing outputs", show_label=True)
	with gr.Row():
	rank_button = gr.Button('Rank LLM Outputs', variant='primary')
	fuse_button = gr.Button('Fuse Top-K ranked outputs', variant='primary')
	clear_button = gr.Button('Clear Blender Outputs', variant='primary')
	blender_config = gr.State(value={
	"source_max_length": DEFAULT_SOURCE_MAX_LENGTH,
	"candidate_max_length": DEFAULT_CANDIDATE_MAX_LENGTH,
	"top_k_for_fuser": 3,
	"max_new_tokens": DEFAULT_FUSER_MAX_NEW_TOKENS,
	"temperature": 0.7,
	"top_p": 1.0,
	})

	with gr.Accordion(label='Advanced options', open=False):
	top_k_for_fuser = gr.Slider(
	label='Top-k ranked candidates to fuse',
	minimum=1,
	maximum=3,
	step=1,
	value=3,
	)
	source_max_length = gr.Slider(
	label='Max length of Instruction + Input',
	minimum=1,
	maximum=SOURCE_MAX_LENGTH,
	step=1,
	value=DEFAULT_SOURCE_MAX_LENGTH,
	)
	candidate_max_length = gr.Slider(
	label='Max length of LLM-Output Candidate',
	minimum=1,
	maximum=CANDIDATE_MAX_LENGTH,
	step=1,
	value=DEFAULT_CANDIDATE_MAX_LENGTH,
	)
	max_new_tokens = gr.Slider(
	label='Max new tokens fuser can generate',
	minimum=1,
	maximum=FUSER_MAX_NEW_TOKENS,
	step=1,
	value=DEFAULT_FUSER_MAX_NEW_TOKENS,
	)
	# temperature = gr.Slider(
	# label='Temperature of fuser generation',
	# minimum=0.1,
	# maximum=2.0,
	# step=0.1,
	# value=0.7,
	# )
	# top_p = gr.Slider(
	# label='Top-p of fuser generation',
	# minimum=0.05,
	# maximum=1.0,
	# step=0.05,
	# value=1.0,
	# )
	beam_size = gr.Slider(
	label='Beam size of fuser generation',
	minimum=1,
	maximum=10,
	step=1,
	value=4,
	)

	examples_dummy_textbox = gr.Textbox(lines=1, label="", placeholder="", show_label=False, visible=False)
	batch_examples = gr.Examples(
	examples=EXAMPLES,
	fn=get_preprocess_examples,
	cache_examples=True,
	examples_per_page=5,
	inputs=[inst_textbox, input_textbox],
	outputs=[inst_textbox, input_textbox, base_llms_num, examples_dummy_textbox],
	)

	base_llms_num.change(
	fn=update_base_llms_num,
	inputs=[base_llms_num, saved_llm_outputs],
	outputs=[selected_base_llm_name_dropdown, saved_llm_outputs],
	)

	examples_dummy_textbox.change(
	fn=update_base_llm_dropdown_along_examples,
	inputs=[examples_dummy_textbox],
	outputs=[saved_llm_outputs, rank_outputs, fuser_outputs],
	).then(
	fn=display_llm_output,
	inputs=[saved_llm_outputs, selected_base_llm_name_dropdown],
	outputs=selected_base_llm_output,
	)

	selected_base_llm_name_dropdown.change(
	fn=display_llm_output,
	inputs=[saved_llm_outputs, selected_base_llm_name_dropdown],
	outputs=selected_base_llm_output,
	)

	base_llm_outputs_save_button.click(
	fn=save_llm_output,
	inputs=[selected_base_llm_name_dropdown, selected_base_llm_output, saved_llm_outputs],
	outputs=saved_llm_outputs,
	)
	base_llm_outputs_clear_all_button.click(
	fn=lambda: [{}, ""],
	inputs=[],
	outputs=[saved_llm_outputs, selected_base_llm_output],
	)
	base_llm_outputs_clear_single_button.click(
	fn=lambda: "",
	inputs=[],
	outputs=selected_base_llm_output,
	)


	rank_button.click(
	fn=check_save_ranker_inputs,
	inputs=[inst_textbox, input_textbox, saved_llm_outputs, blender_config],
	outputs=blender_state,
	).success(
	fn=llms_rank,
	inputs=[inst_textbox, input_textbox, saved_llm_outputs, blender_config],
	outputs=[saved_rank_outputs, rank_outputs],
	)

	fuse_button.click(
	fn=check_fuser_inputs,
	inputs=[blender_state, blender_config, saved_rank_outputs],
	outputs=fuser_outputs,
	).success(
	fn=llms_fuse,
	inputs=[blender_state, blender_config, saved_rank_outputs],
	outputs=[saved_fuse_outputs, fuser_outputs],
	)

	clear_button.click(
	fn=lambda: ["", "", {}, []],
	inputs=[],
	outputs=[rank_outputs, fuser_outputs, blender_state, saved_rank_outputs],
	)

	# update blender config
	source_max_length.change(
	fn=lambda x, y: y.update({"source_max_length": x}) or y,
	inputs=[source_max_length, blender_config],
	outputs=blender_config,
	)
	candidate_max_length.change(
	fn=lambda x, y: y.update({"candidate_max_length": x}) or y,
	inputs=[candidate_max_length, blender_config],
	outputs=blender_config,
	)
	top_k_for_fuser.change(
	fn=lambda x, y: y.update({"top_k_for_fuser": x}) or y,
	inputs=[top_k_for_fuser, blender_config],
	outputs=blender_config,
	)
	max_new_tokens.change(
	fn=lambda x, y: y.update({"max_new_tokens": x}) or y,
	inputs=[max_new_tokens, blender_config],
	outputs=blender_config,
	)
	# temperature.change(
	# fn=lambda x, y: y.update({"temperature": x}) or y,
	# inputs=[temperature, blender_config],
	# outputs=blender_config,
	# )
	# top_p.change(
	# fn=lambda x, y: y.update({"top_p": x}) or y,
	# inputs=[top_p, blender_config],
	# outputs=blender_config,
	# )
	beam_size.change(
	fn=lambda x, y: y.update({"num_beams": x}) or y,
	inputs=[beam_size, blender_config],
	outputs=blender_config,
	)




	demo.queue(max_size=20).launch()