Better inputs, experiments

jlamypoirier · jlamypoirier · commit fc5033e99cf5 · 2023-04-24T10:49:35.000-04:00
diff --git a/requirements.txt b/requirements.txt
@@ -4,6 +4,7 @@ safetensors
 deepspeed==0.7.7
 -e ./transformers
 flash-attn
+einops
 
 # TODO: Analysis only
 py-markdown-table
diff --git a/scripts/run_all_benchmark_breakdown.sh b/scripts/run_all_benchmark_breakdown.sh
@@ -1,20 +1,20 @@
 
 # Santacoder
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 5 0
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 5 0
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 5 0
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 5 0 v2_
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 5 0 v2_
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 5 0 v2_
 
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 11 1
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 11 1
-./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 11 1
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 11 1 v2_
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 11 1 v2_
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 11 1 v2_
 
 # Large model
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 11 0
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 11 0
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 11 0
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 11 0 # OOM?
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 11 0  v2_# OOM?
 
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 29 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 29 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 29 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 29 1 # OOM?
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 29 1  v2_ 1 # OOM?
diff --git a/scripts/run_benchmark_breakdown.sh b/scripts/run_benchmark_breakdown.sh
@@ -10,6 +10,8 @@ MAX_NEW_TOKENS=${4:-2040}
 # Prime number to see key length padding effect.
 TOKEN_STEP=${5:-5}
 STEP_ID=${6:-""}
+FILE_PREFIX=${7:-""}
+CYCLES=${8:-10}
 
 SAVE_DIR=data/benchmarks/v2
 #BATCH_SIZES="1 2 4 8 16 24 32 48 64 96 128 160 224 256"
@@ -19,37 +21,55 @@ RUN="python3 src/main.py --max_log_outputs=0 --dtype=float16 --device=cuda  --cu
 RUNTIME=("" "pre_allocate_kv_cache=True" "pre_allocate_kv_cache=True inference_runner=3")
 RUNTIME_NAMES=("base" "pre_allocate" "graph")
 
-ATTN_NAME=("jit" "flash" "torch" "torchflash" "torchmem" "torchcpp")
+ATTN=( \
+  "attention_implementation=0" \
+  "attention_implementation=1" \
+  "attention_implementation=1 --pad_generated_tokens=0.5" \
+  "attention_implementation=2" \
+  "attention_implementation=0 fused_softmax=False" \
+  "attention_implementation=0 fused_softmax=True" \
+  "attention_implementation=3" \
+  "attention_implementation=4" \
+  "attention_implementation=5" \
+  )
+ATTN_NAME=( \
+  "default" \
+  "flash" \
+  "flash_unpad_50" \
+  "torch" \
+  "no_jit" \
+  "jit" \
+  "torchflash" \
+  "torchmem" \
+  "torchcpp" \
+  )
 
 
 STEP=("--no_prefill" "--no_cache")
 STEP_NAME=("decode" "prefill")
 
-COMMON="--pretrained_model=$MODEL_PATH --tokenizer=$MODEL_PATH --cycles=10 --max_input_length=1 --max_new_tokens=$MAX_NEW_TOKENS --key_length_step=$TOKEN_STEP --batch_size=$BATCH_SIZE"
+COMMON="--pretrained_model=$MODEL_PATH --tokenizer=$MODEL_PATH --cycles=$CYCLES --max_input_length=1 --max_new_tokens=$MAX_NEW_TOKENS --key_length_step=$TOKEN_STEP --batch_size=$BATCH_SIZE predict_last_token=True"
 
 run () { # run(step, runtime, attn)
-  FILE_NAME="$SAVE_DIR"/"$MODEL_NAME"_bs_"$BATCH_SIZE"_tok_"$MAX_NEW_TOKENS"_step_"$TOKEN_STEP"_"${STEP_NAME[$1]}"/"${RUNTIME_NAMES[$2]}"_"${ATTN_NAME[$3]}".json
+  FILE_NAME="$SAVE_DIR"/"$MODEL_NAME"_bs_"$BATCH_SIZE"_tok_"$MAX_NEW_TOKENS"_step_"$TOKEN_STEP"_"${STEP_NAME[$1]}"/"$FILE_PREFIX""${RUNTIME_NAMES[$2]}"_"${ATTN_NAME[$3]}".json
   if [ -f "$FILE_NAME" ];
   then
     echo "Skipping existing $FILE_NAME"
   else
-    $RUN $COMMON ${STEP[$1]} ${RUNTIME[$2]} "attention_implementation=$3" --save="$FILE_NAME"
+    $RUN $COMMON  ${RUNTIME[$2]} ${ATTN[$3]} ${STEP[$1]} --save="$FILE_NAME"
   fi
 }
 
 if [ "${STEP_ID}" -eq "0" ]
 then
-  # Decode
+  # Decode (default attn only)
   for runtime in {0..2}
   do
-    for attn in {0..5}
-    do
-      run 0 $runtime $attn
-    done
+    run 0 $runtime 0
   done
 else
   # Prefill (all runtimes are the same)
-  for attn in {0..5}
+  for attn in {0..2}
   do
     run 1 0 $attn
   done
diff --git a/src/main.py b/src/main.py
@@ -11,7 +11,7 @@
 from src.metrics import Metrics
 from src.pipeline import Pipeline, get_pipeline_class
 from src.profile import get_profiler, logger
-from src.utils import configure_logging, get_dummy_batch, log_dict, log_rank_n, parse_config_args
+from src.utils import configure_logging, get_input_batch, log_dict, log_rank_n, parse_config_args
 
 
 def get_arg_parser() -> ArgumentParser:
@@ -40,6 +40,10 @@ def get_arg_parser() -> ArgumentParser:
     # Input and output
     parser.add_argument("--batch_size", "-b", default=1, type=int)
     parser.add_argument("--max_input_length", "-i", default=-1, type=int)
+    parser.add_argument("--sample_dir", "-d")
+    parser.add_argument("--input_pad_ratio", "--pad", default=0, type=float)
+    parser.add_argument("--pad_generated_tokens", "--pad_g", default=0, type=float)
+    parser.add_argument("--input_seed", "--seed", default=0, type=int)
     parser.add_argument("--max_new_tokens", "-g", default=100, type=int)
 
     # Cleanup
@@ -67,7 +71,6 @@ def main(argv: Optional[List[str]] = None) -> None:
     parser = get_arg_parser()
     args = parser.parse_args(argv)
     config_args = parse_config_args(args.config_args)
-    inputs = get_dummy_batch(args.batch_size, args.max_input_length)
     separate_profile = args.profile and args.profile_cycles is not None
     warmup = args.profile if args.warmup is None else args.warmup
     if separate_profile:
@@ -94,6 +97,14 @@ def main(argv: Optional[List[str]] = None) -> None:
         fast_init=args.fast_init,
         trust_remote_code=args.trust_remote_code,
     )
+    inputs = get_input_batch(
+        args.batch_size,
+        args.max_input_length,
+        pipeline.tokenizer,
+        args.input_pad_ratio,
+        args.input_seed,
+        args.sample_dir,
+    )
 
     all_metrics = []
 
@@ -145,6 +156,7 @@ def main(argv: Optional[List[str]] = None) -> None:
                 breakdown_latency=args.breakdown_latency,
                 key_length_step=args.key_length_step,
                 ignore_oom=args.ignore_oom,
+                pad_generated_tokens=args.pad_generated_tokens,
             )
             if args.profile:
                 p.step()
diff --git a/src/parse_breakdown_results.py b/src/parse_breakdown_results.py
@@ -8,6 +8,8 @@ def get_arg_parser() -> ArgumentParser:
     parser = ArgumentParser()
     parser.add_argument("input_dir", type=Path)
     parser.add_argument("--title")
+    parser.add_argument("--size", nargs=2, type=float)
+    parser.add_argument("--save_dir", "--save", type=Path)
     return parser
 
 
@@ -22,27 +24,30 @@ def read_data(input_file: Path):
     return data
 
 
-def plot(data, title=None):
+def plot(data, title=None, size=None):
     import matplotlib.pyplot as plt
 
-    fig = plt.figure()
+    fig = plt.figure(figsize=size)
     ax = fig.add_subplot()
 
-    for dat in data:
+    cmap = plt.get_cmap("tab20").colors
+    cmap = cmap[::2] + cmap[1::2]
+
+    for i, dat in enumerate(data):
         latency_data = dat["Latency (generate breakdown)"]
         ax.plot(
             [int(k) for k in latency_data.keys()],
             [v * 1000 for v in latency_data.values()],
             label=dat["Setting"],
             linewidth=1,
+            color=cmap[i],
         )  # , linestyle=":")#, markersize=1, marker="o")
 
     ax.set_title(title)
     ax.set_xlabel("Sequence length")
     ax.set_ylabel("Latency (ms)")
     ax.legend()
-    fig.show()
-    input("Press enter to continue")
+    return fig
 
 
 def main(argv: Optional[List[str]] = None) -> None:
@@ -53,7 +58,23 @@ def main(argv: Optional[List[str]] = None) -> None:
     if len(data) == 0:
         raise RuntimeError(f"No data to show.")
 
-    plot(data, args.title)
+    title = args.title
+    dirname = args.input_dir.stem
+    if title is None:
+        try:
+            name, _, bs, _, _, _, _, step = dirname.rsplit("_", 7)
+            title = f"{name} {step}, bs = {bs}"
+        except ValueError:
+            title = dirname
+
+    fig = plot(data, title, args.size)
+    fig.show()
+    if args.save_dir:
+        save_path = (args.save_dir / dirname).with_suffix(".jpg")
+        fig.savefig(save_path)
+        print(f"Figure saved to {save_path}")
+
+    input("Press enter to continue")
 
 
 if __name__ == "__main__":
diff --git a/src/pipeline.py b/src/pipeline.py
@@ -216,6 +216,7 @@ def _generate_custom(
         breakdown_latency: bool = False,
         key_length_step: int = 1,
         ignore_oom: bool = False,
+        pad_generated_tokens: float = 0,
     ):
         t0 = self._get_time(breakdown_latency)
         batch_size, input_length = inputs["input_ids"].shape
@@ -227,7 +228,13 @@ def _generate_custom(
 
         attention_mask = torch.empty([batch_size, output_length], dtype=torch.bool, device=self.device)
         attention_mask[:, :input_length].copy_(inputs["attention_mask"])
-        attention_mask[:, input_length:].fill_(True)
+        if pad_generated_tokens > 0:
+            attention_mask[:, input_length:].copy_(
+                torch.empty_like(attention_mask[:, input_length:], dtype=torch.float32).uniform_()
+                > pad_generated_tokens
+            )
+        else:
+            attention_mask[:, input_length:].fill_(True)
 
         position_ids = attention_mask.long().cumsum(-1, dtype=torch.int64) - 1
         # TODO: Useless?
@@ -301,6 +308,7 @@ def __call__(
         breakdown_latency=False,
         key_length_step: int = 1,
         ignore_oom: bool = False,
+        pad_generated_tokens: float = 0,
     ) -> Tuple[List[str], Dict[str, Any]]:
         t0 = self._get_time()
         inputs = self.tokenizer(text, return_tensors="pt", padding=True)
@@ -310,13 +318,21 @@ def __call__(
             if custom_generate:
                 assert do_prefill or use_cache
                 output_tokens, generate_metrics = self._generate_custom(
-                    inputs, max_new_tokens, use_cache, do_prefill, breakdown_latency, key_length_step, ignore_oom
+                    inputs,
+                    max_new_tokens,
+                    use_cache,
+                    do_prefill,
+                    breakdown_latency,
+                    key_length_step,
+                    ignore_oom,
+                    pad_generated_tokens,
                 )
             else:
                 assert do_prefill
                 assert not breakdown_latency
                 assert not ignore_oom
                 assert key_length_step == 1
+                assert pad_generated_tokens == 0
                 output_tokens = self._generate_hf(inputs, max_new_tokens, use_cache)
                 generate_metrics = {}
         t2 = self._get_time(True)
diff --git a/src/utils.py b/src/utils.py
diff --git a/transformers b/transformers