Lokální běh jazykových modelů na Intel Macích s AMD GPU
ToshLLM je nativní aplikace pro lokální běh velkých jazykových modelů na Intel Macích s grafikami AMD, včetně sestav typu Hackintosh. Veškerá komunikace zůstává na zařízení, bez účtů a bez plateb za tokeny. Aplikace obaluje engine llama.cpp sestavený se specifickými úpravami pro AMD a využívá akceleraci přes Metal. Po spuštění rozpozná hardware a doporučí modely, které na daném zařízení poběží.
Standardní enginy na AMD grafikách produkují poškozený výstup a čtou váhy modelů přes PCIe pomalu; ToshLLM tyto problémy řeší vlastními úpravami a kernely pro Metal. Obsahuje nativní chat s perzistentními konverzacemi, Markdownem a živým údajem o rychlosti generování. Správce modelů nabízí katalog s odhadem nároků na VRAM a RAM, vyhledávání na Hugging Face a stahování. K dispozici jsou dva enginy, včetně experimentálního TurboQuant s kvantovanou KV cache pro dlouhé kontexty, dále spekulativní dekódování MTP, vestavěné benchmarky a rozhraní kompatibilní s OpenAI API na adrese 127.0.0.1:8080.
Hlavní možnosti
Lokální běh modelů: Provoz jazykových modelů na zařízení bez cloudu, účtů a plateb za tokeny.
Podpora AMD GPU: Engine llama.cpp s úpravami pro AMD a akcelerací přes Metal na Intel Macích.
Nativní chat: Perzistentní konverzace s Markdownem, kopírováním kódu a živým údajem o rychlosti.
Správce modelů: Katalog s odhadem nároků na VRAM a RAM, vyhledávání na Hugging Face a stahování.
Podpora MoE: Automatický výpočet offloadu pro běh modelů třídy 35B na grafikách s 12 GB.
Dva enginy: Oficiální llama.cpp a experimentální TurboQuant s kvantovanou KV cache pro dlouhé kontexty.
Spekulativní dekódování MTP: Vyšší rychlost generování s kompatibilními modely bez ztráty kvality.
Benchmarky: Měření rychlosti zpracování promptu a generování s historií a porovnáním.
OpenAI API: Rozhraní kompatibilní s OpenAI na 127.0.0.1:8080 s volitelným přístupem po síti a objevováním přes Bonjour.
Více serverů: Souběžný běh několika instancí enginu s vlastním modelem, GPU a portem.
Profily a lišta: Uložení konfigurací, režim horní lišty a automatické spuštění.