PPGKEMENAG.ID — Perusahaan teknologi F5 memperluas kolaborasinya dengan Nvidia untuk menghadirkan solusi infrastruktur kecerdasan buatan (AI) yang lebih efisien dan hemat biaya. Integrasi terbaru ini dirancang agar sistem AI mampu menghasilkan output maksimal tanpa perlu menambah unit pemrosesan grafis (GPU) baru secara terus-menerus, yang kerap memakan biaya besar.
Solusi gabungan ini mengintegrasikan platform BIG-IP Next for Kubernetes dari F5 dengan Nvidia BlueField-3 DPU. Keduanya berfokus pada optimasi proses inferensi AI, yaitu fase krusial saat model AI yang telah dilatih mulai memproduksi jawaban, ringkasan, gambar, atau respons lain untuk pengguna.
F5 mencatat adanya pergeseran fokus di kalangan perusahaan. Dari sekadar bereksperimen, kini banyak yang mulai mengintegrasikan AI sebagai layanan bisnis yang menghasilkan pendapatan. Pergeseran ini turut mengubah prioritas industri AI, dari yang awalnya berlomba membeli GPU sebanyak mungkin, kini beralih ke efisiensi pemanfaatan GPU agar tidak banyak yang “menganggur.”
Dalam ekosistem AI modern, output diukur menggunakan satuan “token”, yang bisa berupa kata, simbol, atau potongan data yang diproses AI. Produksi token yang cepat dan banyak berbanding lurus dengan responsivitas layanan AI bagi pengguna. Fenomena ini memunculkan istilah “tokenomics”, sebuah metrik untuk mengukur efisiensi dan nilai ekonomi dari produksi token AI. Metrik ini mencakup jumlah token yang dihasilkan, biaya produksinya, kecepatan AI merespons pengguna, hingga pendapatan per GPU.
Solusi gabungan F5 dan Nvidia ini diklaim mampu meningkatkan efisiensi tersebut.
“Infrastruktur AI bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya. Ia telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator,” kata Kunal Anand, Chief Product Officer F5.
Anand menambahkan, platform BIG-IP Next for Kubernetes memungkinkan AI factory memperlakukan produksi token sebagai metrik bisnis yang terukur. Sistem ini disebut dapat meningkatkan hasil kerja GPU sekaligus menekan biaya per token.
Bagaimana Sistem Ini Bekerja?
F5 menjelaskan, platform mereka kini mampu membaca berbagai data telemetri dari infrastruktur Nvidia secara waktu nyata (real-time). Data tersebut mencakup statistik Nvidia NIM, sinyal runtime Dynamo, hingga kondisi GPU.
Dengan informasi komprehensif ini, sistem dapat secara cerdas menentukan beban kerja AI yang paling sesuai untuk dijalankan pada GPU tertentu, bahkan sebelum proses dimulai. Analogi sederhananya menyerupai sistem lalu lintas pintar yang mengarahkan kendaraan ke jalur paling lancar untuk mempercepat perjalanan dan menghindari kemacetan.
Pendekatan ini menjadi krusial mengingat kompleksitas sistem AI modern yang terus meningkat. Banyak layanan AI terbaru mengadopsi pendekatan agentic AI, di mana AI dapat menjalankan tugas secara lebih mandiri dan sadar konteks, melampaui kemampuan chatbot biasa. Oleh karena itu, pengaturan trafik data AI kini jauh lebih rumit dibandingkan load balancing tradisional.
Solusi terbaru F5 ini mendukung routing berbasis inferensi untuk agentic AI, pengelolaan Nvidia BlueField DPU, keamanan multi-tenant, serta observability (pemantauan sistem AI) dalam lingkungan Kubernetes.
Konsep multi-tenant memungkinkan satu infrastruktur GPU digunakan bersama oleh berbagai unit bisnis atau pelanggan secara aman, tanpa mengganggu performa satu sama lain.
Klaim Peningkatan Performa
Dalam pengujian yang telah divalidasi oleh The Tolly Group, F5 mengklaim integrasi dengan Nvidia BlueField-3 DPU mampu menghasilkan peningkatan performa signifikan:
- Peningkatan token throughput hingga 40 persen.
- Percepatan time to first token (TTFT) hingga 61 persen.
- Pengurangan latensi permintaan hingga 34 persen.
TTFT sendiri merupakan metrik waktu yang dibutuhkan AI untuk mulai memberikan respons pertama kepada pengguna setelah menerima permintaan. Peningkatan ini dapat dicapai dengan memindahkan tugas-tugas vital seperti networking, enkripsi, load balancing AI, dan manajemen trafik ke DPU Nvidia BlueField-3. Dengan demikian, unit CPU dan GPU dapat lebih fokus pada proses inferensi AI yang menjadi inti tugas mereka.
“F5 dan Nvidia bersama-sama memberdayakan perusahaan untuk meningkatkan skala inferensi pada AI factory secara efisien dan ekonomis,” ujar Kevin Deierling, SVP Networking Nvidia.
Salah satu aspek menarik dari solusi ini adalah peningkatan performa dapat diterapkan tanpa perlu memodifikasi model AI yang sudah ada. Ini berarti perusahaan tidak perlu melatih ulang model AI mereka untuk meraih efisiensi yang lebih baik.
F5 menambahkan, pendekatan ini juga dapat membantu perusahaan mengurangi kebutuhan overprovisioning, yaitu pembelian kapasitas GPU berlebihan hanya untuk mengantisipasi lonjakan beban kerja AI.
Ke depan, F5 dan Nvidia menargetkan solusi ini sebagai “control plane” untuk AI factory. Ini adalah sistem pusat yang akan mengatur alur trafik, konsumsi token, keamanan, serta efisiensi infrastruktur AI secara menyeluruh.
Ikuti PPGKEMENAG.ID
