AI Inference Engineer (all genders)
Was erwartet dich
- Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen für Kunden mit hohen Anforderungen an Datensouveränität, Sicherheit und Betriebskontrolle – on-premises, in privaten Cloud-Umgebungen oder souveränen europäischen Cloud-Setups.
- Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden überführst du AI-Use-Cases in den produktiven Betrieb.
- Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.
- Außerdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgrößen, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.
- Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging
- Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarchitekturen, Deployment-Templates und Betriebs-Playbooks und stärkst so unsere Applied-AI-Capability.
Was erwarten wir von dir
- Persönlicher Background: Erfahrung in Platform Engineering, Cloud Infrastructure, MLOps, LLMOps, DevOps, Backend Engineering oder Machine Learning Engineering. Entscheidend ist deine Erfahrung im Aufbau und Betrieb produktiver Systeme und dein Antrieb zu schneller persönlicher Weiterentwicklung
- Inference Engineering: Du verstehst die technischen und wirtschaftlichen Zusammenhänge moderner LLM-Inferenz, von Model-Serving und GPU-Auslastung über Quantisierung, Batching und KV-Cache-Management bis hin zu Latenz, Durchsatz und Kosten.
- Cloud & Plattformen: Docker, Kubernetes, Helm, Terraform, CI/CD, Linux sowie Observability gehören für dich zum Arbeitsalltag.
- AI-Verständnis: Du kannst Transformer-basierte Modelle wie LLMs und Embeddings einordnen und fundierte technische Entscheidungen für produktive AI-Systeme treffen.
- Security & Governance: Themen wie Identitäten, Berechtigungen, Secrets, Logging, Auditierung und Compliance denkst du, insbesondere in regulierten Umgebungen, von Anfang an mit.
- Kommunikation & Arbeitsweise: Du vermittelst komplexe technische Zusammenhänge verständlich, arbeitest pragmatisch und bewegst dich auch in dynamischen Projektumfeldern sicher.
- Pluspunkt: Erfahrung mit vLLM, SGLang oder vergleichbaren Inference-Technologien, GPU-Clustern, souveränen Cloud- oder Private-Cloud-Umgebungen.
- On the road: Du bist reisebereit und flexibel, unsere Kunden bundesweit vor Ort zu beraten.
- Let's talk: Du sprichst fließend Deutsch und Englisch - super, dann findest du dich bei Exxeta bestens zurecht
Warum Exxeta
Bei Exxeta entwickeln wir digitale Lösungen, die wirklich etwas verändern – in Unternehmen, Märkten und Köpfen. Über 1200 Kolleg:innen bringen dafür Technologie, Ideen und unterschiedliche Perspektiven zusammen. Was uns antreibt: Neugier, Teamspirit und der Anspruch, echten Impact zu schaffen. Hightech with a heartbeat eben.
Empfohlene Jobs
Produktionsmitarbeiter (m/w/d)
Wir bei Xella sind mehr als 4.000 Mitdenker, Zukunftsgestalter, Anpacker und Impulsgeber für die Zukunft des Bauens. Nationale und internationale Projekte (wie die Mitarbeit beim Marissa Ferienpark, …
Operativer Einkäufer (m/w/d)
Sie möchten sich als Operativer Einkäufer (m/w/d) beruflich verändern und sind auf der Suche nach abwechslungsreichen und fordernden Aufgaben? Dann haben wir genau das Richtige für Sie! Für unseren…
Industriemechaniker (m/w/d)
Wir sind Trio Personalmanagement— Dein regionaler Personaldienstleister Die gesamte Geschäftsführung, Mitarbeiterinnen und Mitarbeiter bringen langjährige Erfahrung in den Bereichen Arbeitnehmerüb…
Pflegehilfskraft (m/w/d) - Quereinsteiger willkommen!
Propartner Zeitarbeit + Handelsagentur GmbH hat sich in mehr als 25 Jahren als starker Partner auf dem Markt der Personaldienstleistung etabliert und gefestigt. Wir suchen für unseren Kunden in Ka…
Working Student Mechanical Engineering - Drone Defense (m/w/d)
At Alpine Eagle, we're building the future of counter-drone defence. We're a fast-growing, international deep-tech company working at the intersection of aerospace engineering, defence systems, and ma…
Teamassistenz für Prüfsachverständige (w/m/d)
Zum nächstmöglichen Zeitpunkt suchen wir dich als Teamassistenz (w/m/d) für die Abteilung der Prüfsachverständigen der DB InfraGO AG am Standort Karlsruhe. Deine Aufgaben: Die eigenverantwortli…
IT Vertriebsassistent - Inside Sales (m/w/d)
Unser Mandant ist einer der führenden IT-Dienstleister in Deutschland für Informationstechnologie und DataCenter Infrastruktur. Flexibel und herstellerübergreifend berät unser Mandant seit mehreren De…
(Junior) Automatisierungstechniker (m/w/d)
Spannende Aufgaben * Konzipierung, Entwicklung und Optimierung von speicherprogrammierbaren Steuerungen * Programmierung von Erweiterungen sowie Anpassungen für Automatisierungssysteme * Projektierung…
Wissenschaftler*in im Bereich elektro-optische Signaturbewertung & Tarntechnik
Technologien für morgen gestalten: das ist unsere Mission am Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung (IOSB). Wir erforschen, entwickeln und evaluieren neuartige Sichtsystem…
Debitorenbuchhalter (m/w/d)
Debitorenbuchhalter (m/w/d) Für unseren Kunden, einer der führenden europäischen Pflegeheimbetreiber , suchen wir im Rahmen der Direktvermittlung einen Debitorenbuchhalter (m/w/d) in Teil-/Vo…