TensorWasm
Ejecuta código no confiable. En la GPU. De forma segura. A velocidad serverless.
Problemas modernos requieren soluciones modernas.
Las cargas modernas de IA y datos quieren dos cosas que siempre estuvieron enfrentadas: el aislamiento de un sandbox — para ejecutar código no confiable y multi-tenant sin que toque al host ni a sus vecinos — y el rendimiento bruto de la GPU, para que el trabajo termine a tiempo.
Los sandboxes tradicionales dan seguridad pero te dejan en la CPU. El código GPU escrito a mano da velocidad pero sin aislamiento. TensorWasm te da ambos en un solo runtime: guests .wasm en sandbox que despachan kernels CUDA reales a través de una interfaz tipada.
Esto no es un whitepaper. El camino completo — guest Wasm → wasi:cuda → cuLaunchKernel → leer resultados de vuelta — corre de extremo a extremo en una GPU NVIDIA real, con tests que verifican que la GPU calculó la respuesta correcta. En el camino solo-CPU, el rendimiento empata estadísticamente con Wasmtime 45.
Un subsistema de snapshots captura y restaura el estado combinado de Wasm + GPU, así que reciclar muchas funciones pequeñas no implica pagar el costo completo de instanciación cada vez. Apache-2.0, con una política de marca permisiva — uso comercial, modificación y redistribución permitidos. Sin cebo open-core.
Aislado por construcción
Cada carga es un módulo WebAssembly aislado por Wasmtime. El código no confiable se mantiene en su carril — memory-safe, restringido por capacidades y con deadlines forzados. Sin escotillas de escape.
GPU-nativo, no GPU-adyacente
Los guests acceden a la GPU mediante una interfaz tipada wasi:cuda. La memoria lineal de Wasm está respaldada por CUDA Unified Memory, así que los datos son accesibles desde la GPU sin copias.
Multi-tenant desde la primera línea
Un proceso, muchos tenants — cada uno con tokens bearer con alcance, límites de tasa por token y cuotas de memoria GPU por tenant. El aislamiento es la arquitectura, no un patrón de despliegue añadido después.
Operación lista para producción
Métricas Prometheus, trazas OpenTelemetry de extremo a extremo, un dashboard Grafana listo para usar, logs de auditoría estructurados, SLOs publicados y un runbook por alerta — todo incluido en el repositorio.
La Ventaja Técnica
Por qué los expertos eligen TensorWasm
Interfaz host tipada wasi:cuda
Los guests realizan dispatch explícito de kernels hoy, con offload automático opcional en el roadmap. La memoria lineal de Wasm está respaldada por CUDA Unified Memory para compartir datos sin copias. Requiere CUDA 12.0+ y SM_70+ para kernels estándar; el camino CPU corre donde corra Wasmtime.
Aislamiento multi-tenant y cuotas
Tokens bearer con alcance, límites de tasa por token y cuotas de memoria GPU por tenant desde una sola flota. Un gateway compatible con OpenAI (/v1/completions y /v1/chat/completions) con respuestas en streaming va al frente, con auth y auditoría en cada request.
Snapshots y arranques en frío rápidos
Un workspace Rust de 11 crates que envuelve a Wasmtime (no es un fork). Un subsistema de snapshots captura y restaura el estado combinado Wasm + GPU para que las cargas de alta rotación y funciones pequeñas eviten el costo completo de instanciación en cada ciclo.