LoreonLabsPlatform

Overview

Intelligence

Markets
Builders
Research
Ecosystems
Launchpads

Search

Python

exllama

A more memory-efficient rewrite of the HF transformers implementation of Llama for use with quantized weights.

PythonEmerging

Stars

7

Forks

5

Contributors

8

Last push

32mo ago

Recent commits

Latest commits.

Update Python wheel download page
8e4931a0cc4m32mo ago
Switch to Pytorch 2.1
5b028ce0cc4m32mo ago
Pull changes, bump version
1fd706b0cc4m34mo ago
Switch use of SMEM in kernel based on ROCm and CUDA version
8a1d330turboderp34mo ago
Fix display name for sharded model file
85b009cturboderp34mo ago

Merge branch 'master' into master2

766e582turboderp34mo ago

Support for sharded models

2a2ef8fturboderp34mo ago

Merge remote-tracking branch 'quarticcat/master' into master2

b12acc6turboderp34mo ago

Top contributors

Builders behind this project.