add LlamaOutput, LlamaIterable, and LlamaIterator

kherud · kherud · commit 9cf237a74100 · 2024-05-15T21:22:45.000+02:00
diff --git a/src/main/java/de/kherud/llama/LlamaIterable.java b/src/main/java/de/kherud/llama/LlamaIterable.java
@@ -0,0 +1,15 @@
+package de.kherud.llama;
+
+import org.jetbrains.annotations.NotNull;
+
+/**
+ * An iterable used by {@link LlamaModel#generate(InferenceParameters)} that specifically returns a {@link LlamaIterator}.
+ */
+@FunctionalInterface
+public interface LlamaIterable extends Iterable<LlamaOutput> {
+
+    @NotNull
+    @Override
+    LlamaIterator iterator();
+
+}
diff --git a/src/main/java/de/kherud/llama/LlamaIterator.java b/src/main/java/de/kherud/llama/LlamaIterator.java
@@ -0,0 +1,48 @@
+package de.kherud.llama;
+
+import java.lang.annotation.Native;
+import java.util.Iterator;
+import java.util.NoSuchElementException;
+
+/**
+ * This iterator is used by {@link LlamaModel#generate(InferenceParameters)}. In addition to implementing {@link Iterator},
+ * it allows to cancel ongoing inference (see {@link #cancel()}).
+ */
+public final class LlamaIterator implements Iterator<LlamaOutput> {
+
+    private final LlamaModel model;
+    private final int taskId;
+
+    @Native
+    @SuppressWarnings("FieldMayBeFinal")
+    private boolean hasNext = true;
+
+    LlamaIterator(LlamaModel model, InferenceParameters parameters) {
+        this.model = model;
+        parameters.setStream(true);
+        taskId = model.requestCompletion(parameters.toString());
+    }
+
+    @Override
+    public boolean hasNext() {
+        return hasNext;
+    }
+
+    @Override
+    public LlamaOutput next() {
+        if (!hasNext) {
+            throw new NoSuchElementException();
+        }
+        LlamaOutput output = model.receiveCompletion(taskId);
+        hasNext = !output.stop;
+        return output;
+    }
+
+    /**
+     * Cancel the ongoing generation process.
+     */
+    public void cancel() {
+        model.cancelCompletion(taskId);
+        hasNext = false;
+    }
+}
diff --git a/src/main/java/de/kherud/llama/LlamaModel.java b/src/main/java/de/kherud/llama/LlamaModel.java
@@ -2,11 +2,6 @@
 
 import java.lang.annotation.Native;
 import java.nio.charset.StandardCharsets;
-import java.util.Iterator;
-import java.util.Map;
-import java.util.NoSuchElementException;
-
-import org.jetbrains.annotations.NotNull;
 
 /**
  * This class is a wrapper around the llama.cpp functionality.
@@ -54,7 +49,7 @@ public LlamaModel(ModelParameters parameters) {
 	public String complete(InferenceParameters parameters) {
 		parameters.setStream(false);
 		int taskId = requestCompletion(parameters.toString());
-		Output output = receiveCompletion(taskId);
+		LlamaOutput output = receiveCompletion(taskId);
 		return output.text;
 	}
 
@@ -64,8 +59,8 @@ public String complete(InferenceParameters parameters) {
 	 *
 	 * @return iterable LLM outputs
 	 */
-	public Iterable<Output> generate(InferenceParameters parameters) {
-		return () -> new LlamaIterator(parameters);
+	public LlamaIterable generate(InferenceParameters parameters) {
+		return () -> new LlamaIterator(this, parameters);
 	}
 
 	/**
@@ -98,79 +93,22 @@ public String decode(int[] tokens) {
 		return new String(bytes, StandardCharsets.UTF_8);
 	}
 
-//	/**
-//	 * Sets a callback for both Java and C++ log messages. Can be set to {@code null} to disable logging.
-//	 *
-//	 * @param callback a method to call for log messages
-//	 */
-//	public static native void setLogger(@Nullable BiConsumer<LogLevel, String> callback);
-
 	@Override
 	public void close() {
 		delete();
 	}
 
 	// don't overload native methods since the C++ function names get nasty
-	private native void loadModel(String parameters) throws LlamaException;
+	native int requestCompletion(String params) throws LlamaException;
 
-	private native int requestCompletion(String params) throws LlamaException;
+	native LlamaOutput receiveCompletion(int taskId) throws LlamaException;
 
-	private native Output receiveCompletion(int taskId) throws LlamaException;
+	native void cancelCompletion(int taskId);
 
-	private native byte[] decodeBytes(int[] tokens);
+	native byte[] decodeBytes(int[] tokens);
 
-	private native void delete();
+	private native void loadModel(String parameters) throws LlamaException;
 
-	/**
-	 * A generated output of the LLM. Note that you have to configure {@link InferenceParameters#setNProbs(int)}
-	 * in order for probabilities to be returned.
-	 */
-	public static final class Output {
-
-		@NotNull
-		public final String text;
-		@NotNull
-		public final Map<String, Float> probabilities;
-		private final boolean stop;
-
-		private Output(byte[] generated, @NotNull Map<String, Float> probabilities, boolean stop) {
-			this.text = new String(generated, StandardCharsets.UTF_8);
-			this.probabilities = probabilities;
-			this.stop = stop;
-		}
-
-		@Override
-		public String toString() {
-			return text;
-		}
-	}
+	private native void delete();
 
-	private final class LlamaIterator implements Iterator<Output> {
-
-		private final int taskId;
-
-		@Native
-		@SuppressWarnings("FieldMayBeFinal")
-		private boolean hasNext = true;
-
-		private LlamaIterator(InferenceParameters parameters) {
-			parameters.setStream(true);
-			taskId = requestCompletion(parameters.toString());
-		}
-
-		@Override
-		public boolean hasNext() {
-			return hasNext;
-		}
-
-		@Override
-		public Output next() {
-			if (!hasNext) {
-				throw new NoSuchElementException();
-			}
-			Output output = receiveCompletion(taskId);
-			hasNext = !output.stop;
-			return output;
-		}
-	}
 }
diff --git a/src/main/java/de/kherud/llama/LlamaOutput.java b/src/main/java/de/kherud/llama/LlamaOutput.java
@@ -0,0 +1,39 @@
+package de.kherud.llama;
+
+import org.jetbrains.annotations.NotNull;
+
+import java.nio.charset.StandardCharsets;
+import java.util.Map;
+
+/**
+ * An output of the LLM providing access to the generated text and the associated probabilities. You have to configure
+ * {@link InferenceParameters#setNProbs(int)} in order for probabilities to be returned.
+ */
+public final class LlamaOutput {
+
+    /**
+     * The last bit of generated text that is representable as text (i.e., cannot be individual utf-8 multibyte code
+     * points).
+     */
+    @NotNull
+    public final String text;
+
+    /**
+     * Note, that you have to configure {@link InferenceParameters#setNProbs(int)} in order for probabilities to be returned.
+     */
+    @NotNull
+    public final Map<String, Float> probabilities;
+
+    final boolean stop;
+
+    LlamaOutput(byte[] generated, @NotNull Map<String, Float> probabilities, boolean stop) {
+        this.text = new String(generated, StandardCharsets.UTF_8);
+        this.probabilities = probabilities;
+        this.stop = stop;
+    }
+
+    @Override
+    public String toString() {
+        return text;
+    }
+}
diff --git a/src/test/java/de/kherud/llama/LlamaModelTest.java b/src/test/java/de/kherud/llama/LlamaModelTest.java
@@ -45,7 +45,7 @@ public void testGenerateAnswer() {
 				.setTokenIdBias(logitBias);
 
 		int generated = 0;
-		for (LlamaModel.Output ignored : model.generate(params)) {
+		for (LlamaOutput ignored : model.generate(params)) {
 			generated++;
 		}
 		// todo: currently, after generating nPredict tokens, there is an additional empty output
@@ -66,7 +66,7 @@ public void testGenerateInfill() {
 				.setSeed(42);
 
 		int generated = 0;
-		for (LlamaModel.Output ignored : model.generate(params)) {
+		for (LlamaOutput ignored : model.generate(params)) {
 			generated++;
 		}
 		Assert.assertTrue(generated > 0 && generated <= nPredict + 1);
@@ -78,7 +78,7 @@ public void testGenerateGrammar() {
 				.setGrammar("root ::= (\"a\" | \"b\")+")
 				.setNPredict(nPredict);
 		StringBuilder sb = new StringBuilder();
-		for (LlamaModel.Output output : model.generate(params)) {
+		for (LlamaOutput output : model.generate(params)) {
 			sb.append(output);
 		}
 		String output = sb.toString();
diff --git a/src/test/java/examples/GrammarExample.java b/src/test/java/examples/GrammarExample.java
@@ -1,5 +1,6 @@
 package examples;
 
+import de.kherud.llama.LlamaOutput;
 import de.kherud.llama.ModelParameters;
 
 import de.kherud.llama.InferenceParameters;
@@ -16,7 +17,7 @@ public static void main(String... args) {
 		InferenceParameters inferParams = new InferenceParameters("")
 				.setGrammar(grammar);
 		try (LlamaModel model = new LlamaModel(modelParams)) {
-			for (LlamaModel.Output output : model.generate(inferParams)) {
+			for (LlamaOutput output : model.generate(inferParams)) {
 				System.out.print(output);
 			}
 		}
diff --git a/src/test/java/examples/InfillExample.java b/src/test/java/examples/InfillExample.java
@@ -2,6 +2,7 @@
 
 import de.kherud.llama.InferenceParameters;
 import de.kherud.llama.LlamaModel;
+import de.kherud.llama.LlamaOutput;
 import de.kherud.llama.ModelParameters;
 
 public class InfillExample {
@@ -18,7 +19,7 @@ public static void main(String... args) {
 			InferenceParameters inferParams = new InferenceParameters("")
 					.setInputPrefix(prefix)
 					.setInputSuffix(suffix);
-			for (LlamaModel.Output output : model.generate(inferParams)) {
+			for (LlamaOutput output : model.generate(inferParams)) {
 				System.out.print(output);
 			}
 			System.out.print(suffix);
diff --git a/src/test/java/examples/MainExample.java b/src/test/java/examples/MainExample.java
@@ -7,6 +7,7 @@
 
 import de.kherud.llama.InferenceParameters;
 import de.kherud.llama.LlamaModel;
+import de.kherud.llama.LlamaOutput;
 import de.kherud.llama.ModelParameters;
 import de.kherud.llama.args.MiroStat;
 
@@ -39,7 +40,7 @@ public static void main(String... args) throws IOException {
 						.setPenalizeNl(true)
 						.setMiroStat(MiroStat.V2)
 						.setStopStrings("User:");
-                for (LlamaModel.Output output : model.generate(inferParams)) {
+                for (LlamaOutput output : model.generate(inferParams)) {
                     System.out.print(output);
                     prompt += output;
                 }

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,6 @@`
`1`	`1`	`package examples;`
`2`	`2`
	`3`	`+import de.kherud.llama.LlamaOutput;`
`3`	`4`	`import de.kherud.llama.ModelParameters;`
`4`	`5`
`5`	`6`	`import de.kherud.llama.InferenceParameters;`
`@@ -16,7 +17,7 @@ public static void main(String... args) {`
`16`	`17`	`InferenceParameters inferParams = new InferenceParameters("")`
`17`	`18`	`.setGrammar(grammar);`
`18`	`19`	`try (LlamaModel model = new LlamaModel(modelParams)) {`
`19`		`- for (LlamaModel.Output output : model.generate(inferParams)) {`
	`20`	`+ for (LlamaOutput output : model.generate(inferParams)) {`
`20`	`21`	`System.out.print(output);`
`21`	`22`	`}`
`22`	`23`	`}`