total descendants::7 total children::2 6 ❤️ |
Nový kompresní algoritmus TurboQuant snižuje paměťovou náročnost LLM 6× Google zveřejnil kompresní algoritmus TurboQuant, který zmenšuje paměťovou náročnost velkých jazykových modelů (LLM) a zároveň zvyšuje jejich rychlost. TurboQuant pracuje na vyrovnávací paměti KV, což je právě úzké hrdlo LLM. Abyste ušetřili paměť, můžete jednoduše snížit přesnost datových typů v KV, ale to může přinést horší kvalitu odpovědí. TurboQuant funguje zhruba jako kvantizace při ztrátové kompresi JPEG. Obrázek je výrazně menší, avšak je stále podobný originálu. V tomto srovnání je zmiňované snížení přesnosti datových typů jako zmenšení hloubky barev. Takových kvantizací pro KV LLM existuje více (SnapKV, PyramidKV, KIVI), ale TurboQuant zachovává kvalitu odpovědí LLM LLaMa a Mistral téměř původní, přitom vyrovnávací paměť KV je 6× menší a rychlost 8× vyšší. Více informací najdete v článku. url v clanku https://www.root.cz/zpravicky/novy-kompresni-algoritmus-turboquant-snizuje-pametovou-narocnost-llm-6x/ Żubr żuł żuchwą żurawinę |
axone umela inteligencia |
|||||||||||||||||||||||