From c36798fd0759331caac80bb16cebe6c19a646090 Mon Sep 17 00:00:00 2001
From: Chris Robinson <chris.kcat@gmail.com>
Date: Tue, 1 Jan 2019 02:41:27 -0800
Subject: Avoid unnecessary extra buffers for filter chains

---
 Alc/uhjfilter.cpp | 61 +++++++++++++++++++++++++++++--------------------------
 1 file changed, 32 insertions(+), 29 deletions(-)

(limited to 'Alc/uhjfilter.cpp')
diff --git a/Alc/uhjfilter.cpp b/Alc/uhjfilter.cpp
index 1c5c836c..64d5f76c 100644
--- a/Alc/uhjfilter.cpp
+++ b/Alc/uhjfilter.cpp
@@ -1,9 +1,12 @@
 
 #include "config.h"
 
-#include "alu.h"
 #include "uhjfilter.h"
 
+#include <algorithm>
+
+#include "alu.h"
+
 namespace {
 
 /* This is the maximum number of samples processed for each inner loop
@@ -18,17 +21,17 @@ constexpr ALfloat Filter2CoeffSqr[4] = {
     0.161758498368f, 0.733028932341f, 0.945349700329f, 0.990599156685f
 };
 
-void allpass_process(AllPassState *state, ALfloat *RESTRICT dst, const ALfloat *RESTRICT src, const ALfloat aa, ALsizei todo)
+void allpass_process(AllPassState *state, ALfloat *dst, const ALfloat *src, const ALfloat aa, ALsizei todo)
 {
-    ALfloat z1 = state->z[0];
-    ALfloat z2 = state->z[1];
-    for(ALsizei i{0};i < todo;i++)
+    ALfloat z1{state->z[0]};
+    ALfloat z2{state->z[1]};
+    auto proc_sample = [aa,&z1,&z2](ALfloat input) noexcept -> ALfloat
     {
-        ALfloat input = src[i];
         ALfloat output = input*aa + z1;
         z1 = z2; z2 = output*aa - input;
-        dst[i] = output;
-    }
+        return output;
+    };
+    std::transform(src, src+todo, dst, proc_sample);
     state->z[0] = z1;
     state->z[1] = z2;
 }
@@ -59,7 +62,7 @@ void allpass_process(AllPassState *state, ALfloat *RESTRICT dst, const ALfloat *
 void Uhj2Encoder::encode(ALfloat *LeftOut, ALfloat *RightOut, ALfloat (*InSamples)[BUFFERSIZE], const ALsizei SamplesToDo)
 {
     alignas(16) ALfloat D[MAX_UPDATE_SAMPLES], S[MAX_UPDATE_SAMPLES];
-    alignas(16) ALfloat temp[2][MAX_UPDATE_SAMPLES];
+    alignas(16) ALfloat temp[MAX_UPDATE_SAMPLES];
 
     ASSUME(SamplesToDo > 0);
 
@@ -71,43 +74,43 @@ void Uhj2Encoder::encode(ALfloat *LeftOut, ALfloat *RightOut, ALfloat (*InSample
         /* D = 0.6554516*Y */
         const ALfloat *RESTRICT input{al::assume_aligned<16>(InSamples[2]+base)};
         for(ALsizei i{0};i < todo;i++)
-            temp[0][i] = 0.6554516f*input[i];
-        allpass_process(&mFilter1_Y[0], temp[1], temp[0], Filter1CoeffSqr[0], todo);
-        allpass_process(&mFilter1_Y[1], temp[0], temp[1], Filter1CoeffSqr[1], todo);
-        allpass_process(&mFilter1_Y[2], temp[1], temp[0], Filter1CoeffSqr[2], todo);
-        allpass_process(&mFilter1_Y[3], temp[0], temp[1], Filter1CoeffSqr[3], todo);
+            temp[i] = 0.6554516f*input[i];
+        allpass_process(&mFilter1_Y[0], temp, temp, Filter1CoeffSqr[0], todo);
+        allpass_process(&mFilter1_Y[1], temp, temp, Filter1CoeffSqr[1], todo);
+        allpass_process(&mFilter1_Y[2], temp, temp, Filter1CoeffSqr[2], todo);
+        allpass_process(&mFilter1_Y[3], temp, temp, Filter1CoeffSqr[3], todo);
         /* NOTE: Filter1 requires a 1 sample delay for the final output, so
          * take the last processed sample from the previous run as the first
          * output sample.
          */
         D[0] = mLastY;
         for(ALsizei i{1};i < todo;i++)
-            D[i] = temp[0][i-1];
-        mLastY = temp[0][todo-1];
+            D[i] = temp[i-1];
+        mLastY = temp[todo-1];
 
         /* D += j(-0.3420201*W + 0.5098604*X) */
         const ALfloat *RESTRICT input0{al::assume_aligned<16>(InSamples[0]+base)};
         const ALfloat *RESTRICT input1{al::assume_aligned<16>(InSamples[1]+base)};
         for(ALsizei i{0};i < todo;i++)
-            temp[0][i] = -0.3420201f*input0[i] + 0.5098604f*input1[i];
-        allpass_process(&mFilter2_WX[0], temp[1], temp[0], Filter2CoeffSqr[0], todo);
-        allpass_process(&mFilter2_WX[1], temp[0], temp[1], Filter2CoeffSqr[1], todo);
-        allpass_process(&mFilter2_WX[2], temp[1], temp[0], Filter2CoeffSqr[2], todo);
-        allpass_process(&mFilter2_WX[3], temp[0], temp[1], Filter2CoeffSqr[3], todo);
+            temp[i] = -0.3420201f*input0[i] + 0.5098604f*input1[i];
+        allpass_process(&mFilter2_WX[0], temp, temp, Filter2CoeffSqr[0], todo);
+        allpass_process(&mFilter2_WX[1], temp, temp, Filter2CoeffSqr[1], todo);
+        allpass_process(&mFilter2_WX[2], temp, temp, Filter2CoeffSqr[2], todo);
+        allpass_process(&mFilter2_WX[3], temp, temp, Filter2CoeffSqr[3], todo);
         for(ALsizei i{0};i < todo;i++)
-            D[i] += temp[0][i];
+            D[i] += temp[i];
 
         /* S = 0.9396926*W + 0.1855740*X */
         for(ALsizei i{0};i < todo;i++)
-            temp[0][i] = 0.9396926f*input0[i] + 0.1855740f*input1[i];
-        allpass_process(&mFilter1_WX[0], temp[1], temp[0], Filter1CoeffSqr[0], todo);
-        allpass_process(&mFilter1_WX[1], temp[0], temp[1], Filter1CoeffSqr[1], todo);
-        allpass_process(&mFilter1_WX[2], temp[1], temp[0], Filter1CoeffSqr[2], todo);
-        allpass_process(&mFilter1_WX[3], temp[0], temp[1], Filter1CoeffSqr[3], todo);
+            temp[i] = 0.9396926f*input0[i] + 0.1855740f*input1[i];
+        allpass_process(&mFilter1_WX[0], temp, temp, Filter1CoeffSqr[0], todo);
+        allpass_process(&mFilter1_WX[1], temp, temp, Filter1CoeffSqr[1], todo);
+        allpass_process(&mFilter1_WX[2], temp, temp, Filter1CoeffSqr[2], todo);
+        allpass_process(&mFilter1_WX[3], temp, temp, Filter1CoeffSqr[3], todo);
         S[0] = mLastWX;
         for(ALsizei i{1};i < todo;i++)
-            S[i] = temp[0][i-1];
-        mLastWX = temp[0][todo-1];
+            S[i] = temp[i-1];
+        mLastWX = temp[todo-1];
 
         /* Left = (S + D)/2.0 */
         ALfloat *RESTRICT left = al::assume_aligned<16>(LeftOut+base);
-- 
cgit v1.2.3