Qwen3-4B 微调后输出全为空？ #1512

guxuan123456 · 2025-06-20T09:12:29Z

guxuan123456
Jun 20, 2025

我在微调一个信息抽取模型，微调后模型全部输出空，问“中国的首都是哪里”也输出空。我的训练参数：
WORKSPACE=./env_run/xxx
export PATH=${WORKSPACE}/env/miniconda3/bin:$PATH
CUDA_VISIBLE_DEVICES=3 swift sft
--model xxx/Qwen3-4B
--train_type lora
--output_dir ./output_v4/Qwen3-4B
--dataset llm_event_train_dataset_v4.json
--gradient_accumulation_steps 1
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--attn_impl flash_attn
--split_dataset_ratio 0.15
--lazy_tokenize true
--num_train_epochs 6
--save_steps 100
--eval_steps 200
--save_total_limit 200

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Qwen3-4B 微调后输出全为空？ #1512

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Qwen3-4B 微调后输出全为空？ #1512

Uh oh!

guxuan123456 Jun 20, 2025

Replies: 0 comments

guxuan123456
Jun 20, 2025