Problemas modernos requieren soluciones modernas.
Los archivadores estándar usan pipelines fijos diseñados en los 90s: gzip (LZ77 + Huffman), bzip2 (BWT + Huffman), xz (LZMA2), zstd (enfocado en velocidad). AetherArch separa el modelado de la codificación — cualquier predictor se puede enchufar, y un range coder personalizado alineado por byte se adapta a cualquier probabilidad que reciba.
En el Corpus Silesia (202 MiB, 12 archivos — estándar de la industria), AetherArch logra un ratio general de 26.45%, superando a gzip-9 por 17.1% y acercándose a bzip2-9 (solo 2.8% de diferencia). También supera a zstd -19 en texto (27.37% vs 27.78%) y a gzip-9 en benchmarks internos.
El stack neural agrega ganancia en cada capa: baseline Order-0 crudo (4.769 bpb), ContextMixer (-12%), preprocesamiento LZ4/LZ77 (-35%), transformada BWT (-10%), RLE RUNA/RUNB (-8%), y NeuralSsmPredictor (-1%) — superando a gzip-9 incluso antes de la etapa neural.
Rendimiento V0.2.3: ~1.3 MiB/s en corpus interno. Cuello de botella: ordenamiento BWT (~50%), NeuralSsm predict+update (~25%), Range coding (~15%). Escalamiento de memoria: BWT asigna ~10× tamaño de chunk en RSS pico por thread (40 MiB/thread a 4 MiB max chunk).
Predictor Neural SSM
Un State Space Model (SSM) lineal diagonal fusionado con un predictor RLE jerárquico. 66 parámetros aprendibles que se adaptan desde cero por bloque — no se necesitan pesos pre-entrenados. Reajustado D=32, lr=0.01, o2=0.30.
Enrutamiento Adaptativo Multi-Método
El enrutamiento por chunk elige el más pequeño: BWT + MTF + RLE + Neural SSM + range coding, LZ77, predictor plano, fallback zstd-19, o almacenar. La detección de tipo de contenido agrupa archivos semánticamente.
Ecosistema de 6 Crates (v0.2.3)
Biblioteca core, CLI, C FFI (cbindgen), servidor API REST, target Wasm (solo descompresión) y bindings Python (PyO3). Encriptación: AES-256-GCM / ChaCha20-Poly1305 con KDF Argon2id.
La Ventaja Técnica
Por qué los expertos eligen Aether
Arquitectura Neural SSM
Byte → embedding 32-dim → actualización SSM (32 promedios móviles exponenciales en escalas de tiempo 0.5…0.999) → clasificadores binarios para símbolos run → mixer adaptativo ponderando SSM vs RLE por log-likelihood reciente → blend de contexto literal order-2.
Formato de Archivo v1.0
Auto-descriptivo, acceso aleatorio, verificación de integridad. Header (48B) + payload + footer (32B). BLAKE3 por archivo + CRC32 por bloque. Extracción con acceso aleatorio sin descompresión completa para backends cloud empresariales.
Pico de Optimización V0.2.3
Overrides directos de CDF (speedup 2.6×), optimización div→mul (+20% e2e), MTF O(rank), early-exit LZ77 (saltar cuando BWT < 55%), skip de sync-predictor por flag, range coder personalizado alineado por byte, LTO + codegen-units=1.