Hvordan Apache Kafka smører hjulene for store data

2024

Demo: Storing 1 PB of Data in Apache Kafka with Confluent Cloud

Analytics beskrives ofte som en av de største utfordringene knyttet til store data, men selv før det kan skje, må data inntas og gjøres tilgjengelig for bedriftsbrukere. Det er her Apache Kafka kommer inn.

Kafka ble opprinnelig utviklet på LinkedIn, og er et åpen kildekode system for styring av sanntidsstrømmer av data fra nettsteder, applikasjoner og sensorer.

I hovedsak virker det som en slags bedrift " sentralnervesystem "som samler høyvolumdata om ting som brukeraktivitet, logger, applikasjonsmålinger, aksjekurs og enhetsinstrumentering, og gjør den tilgjengelig som en sanntidsstrøm for forbruk av bedriftsbrukere.

[ Videre lesing: Den beste hvite LED-lyspæren]

Kafka sammenlignes ofte med teknologier som ActiveMQ eller RabbitMQ for lokale implementeringer, eller med Amazon Web Services 'Kinesis for cloud-kunder, sa Stephen O'Grady, en medstifter og hovedanalytiker med RedMonk.

"Det blir mer synlig fordi det er et åpen kildekodeprosjekt av høy kvalitet, men også fordi dets evne til å håndtere høyhastighets strømmer av informasjon, blir stadig mer etterspurt etter bruk i vedlikehold av arbeidsbelastninger som IoT, blant annet, har O'Grady lagt til.

Siden den ble oppfattet på LinkedIn, har Kafka fått høy profil støtte fra selskaper som Netflix, Uber, Cisco og Goldman Sachs. På fredag ble det fått et nytt løft fra IBM, som annonserte tilgjengeligheten av to nye Kafka-baserte tjenester via Bluemix-plattformen.

IBMs nye Streaming Analytics-tjeneste tar sikte på å analysere millioner av hendelser per sekund i responstider på under millisekund og umiddelbar beslutningsprosess. IBM Message Hub, nå i beta, gir skalerbar, distribuert, høy gjennomstrømming, asynkron meldingstjeneste for sky applikasjoner, med muligheten til å bruke en REST eller Apache Kafka API (applikasjonsprogrammeringsgrensesnitt) for å kommunisere med andre applikasjoner.

Kafka var åpnet i 2011. I fjor startet tre av Kafka's skapere Confluent, en oppstart dedikert til å hjelpe bedrifter å bruke den i full skala produksjon.

"Under vår eksplosive vekstfase på LinkedIn kunne vi ikke holde tritt med den voksende brukeren basen og dataene som kan brukes til å forbedre brukeropplevelsen, sier Neha Narkhede, en av Kafka's skapere og Confluents medstiftere.

"Hva Kafka gjør det mulig å gjøre, er å flytte data over hele bedriften og gjøre det tilgjengelig som en kontinuerlig frittflytende strøm innen sekunder til folk som trenger å benytte seg av det, forklarer Narkhede. "Og det gjør det i stor skala."

Virkningen på LinkedIn var "transformasjonsmessig", sa hun. I dag er LinkedIn fortsatt den største Kafka-distribusjonen i produksjonen; Det overstiger 1,1 trillion meldinger per dag.

Confluent tilbyr i mellomtiden avansert styringsprogramvare ved abonnement på å hjelpe store selskaper å drive Kafka for produksjonssystemer. Blant kundene er en stor storboksforhandler og "en av de største kredittkortutstedere i USA," sa Narkhede.

Den sistnevnte bruker teknologien for sanntids svindelbeskyttelse, sa hun.

Kafka er "en utrolig rask meldingsbuss" som er god til å bidra til å integrere mange forskjellige typer data raskt, sier Jason Stamper, en analytiker med 451 Research. "Det er derfor det kommer frem som et av de mest populære valgene."

Foruten ActiveMQ og RabbitMQ, er et annet produkt som tilbyr lignende funksjonalitet Apache Flume, noterte han; Storm og Spark Streaming er lik på mange måter også.

I kommersiell plass omfatter Confluents konkurrenter blant annet IBM InfoSphere Streams, Informatics Ultra Messaging Streaming Edition og SAS Event Stream Processing Engine (ESP) sammen med Software AGs Apama, Tibco's StreamBase og SAPs Aleri, Stamper lagt til. Mindre konkurrenter inkluderer DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic og Glassbeam.

I skyen har AWSs Kinesis stream-behandlingstjeneste "den ekstra fordelen av integrasjon med likeså sitt Redshift datalager og S3-lagringsplattform," sa han.

Teradatas nylig annonserte Listener er en annen utfordrer, og det er Kafka-basert Også, bemerket Brian Hopkins, en visepresident og hovedanalytiker med Forrester Research.

Generelt er det en markert trend mot sanntidsdata, sa Hopkins.

Frem til 2013 eller så, "var store data alle om massive mengder data utstoppet til Hadoop, "sa han. "Nå, hvis du ikke gjør det, er du allerede bak kraftkurven."

I dag gir data fra smarttelefoner og andre kilder bedrifter muligheten til å engasjere seg med forbrukerne i sanntid og gi kontekstuelle erfaringer, han sa. Det hviler i sin tur på evnen til å forstå data raskere.

"Tingenes Internett er som en annen bølge av mobil," forklarer Hopkins. "Hver leverandør er posisjonering for en lavine av data."

Som et resultat er teknologien tilpasset tilsvarende.

"Frem til 2014 handlet det om Hadoop, da var det Spark," sa han. "Nå er det Hadoop, Spark og Kafka. Disse er tre like jevnaldrende i datainntaksledningen i denne moderne analytiske arkitekturen."

Hvordan Apache Kafka smører hjulene for store data

Analytics er ofte beskrevet som en av de største utfordringene knyttet til store data, men selv før det kan skje, må data inntas og gjøres tilgjengelig for bedriftsbrukere. Det er her Apache Kafka kommer inn.

Acer Predator Orion 9000 er et spill skrivebord med en imponerende liste over maskinvare og litt tynn belysning, men det er de integrerte hjulene på bunnen av saken som gjør den litt spesiell.

Acer's Predator Orion 9000-spillbordsskriveren blåste litt av en sti på IFA 2017 med sin high-end hardware og smarte integrerte hjul. På CES er det igjen med en mer solid utgivelsesdato.