Pinecone: Vector Database Canggih yang kini Tersedia di Cloudera Data Platform

Elan Su
9 Min Read
9 Min Read

Cloudera, Inc., sebuah perusahaan data terpercaya di bidang kecerdasan buatan (AI), dan Pinecone, sebuah perusahaan database vektor yang menyediakan Long-term memory untuk AI, baru saja mengumumkan kemitraan strategis yang mengintegrasikan kecanggihan database vektor AI Pinecone ke dalam platform data Cloudera. Tujuannya adalah untuk merevolusi cara organisasi memanfaatkan kekuatan AI untuk menyederhanakan operasional dan meningkatkan pengalaman pelanggan.

Sebagai pemimpin pasar, database vektor Pinecone merupakan infrastruktur utama untuk Generative AI. Pinecone dioptimalkan untuk menyimpan representasi data AI (vector embeddings) dan mencarinya berdasarkan kesamaan semantik, hal yang tidak efisien dilakukan oleh database tradisional. Kemampuan ini diperlukan untuk menambahkan konteks pada query terhadap aplikasi yang menggunakan Large Language Models (LLMs). Konteks tambahan ini secara signifikan mengurangi output yang salah – sering disebut sebagai “hallucinations”, membantu aplikasi pencarian dan Generative AI memberikan respons yang akurat dan relevan.

Melalui kerjasama ini, Cloudera akan mengintegrasikan database vektor unggulan Pinecone ke dalam Cloudera Data Platform (CDP). Hal ini memudahkan organisasi dalam membangun dan menerapkan aplikasi berbasis AI yang skalabe, real-time, di Cloudera. Ini termasuk pengenalan Applied ML Prototype (AMP) baru yang memungkinkan developer untuk lebih cepat membuat dan meningkatkan basis pengetahuan baru dari data di situs web mereka sendiri, serta konektor siap pakai yang akan memungkinkan pelanggan untuk lebih cepat menyiapkan pipeline ingest di aplikasi AI. Di AMP, database vektor Pinecone menggunakan basis pengetahuan ini untuk memberikan konteks pada respons chatbot, membantu memastikan output yang berguna.

Pelanggan dapat menggunakan arsitektur yang sama untuk mengatur atau meningkatkan chatbot dukungan atau sistem pencarian dukungan internal. Ini memungkinkan mereka untuk mengurangi biaya operasional dengan mengurangi upaya intervensi manusia yang mahal dan meningkatkan pengalaman pelanggan dengan waktu resolusi yang lebih cepat.

“Keahlian luas Cloudera dalam manajemen data dikombinasikan dengan database vektor canggih Pinecone menciptakan kemitraan yang hebat. Banyak pelanggan kami sudah mengelola data mereka dengan Cloudera. Sekarang akan lebih mudah dari sebelumnya bagi mereka untuk membangun aplikasi AI menggunakan embeddings mereka yang disimpan bersama kami dan data yang disimpan dengan Cloudera. Bersama-sama kami akan memungkinkan organisasi atau perusahaan untuk memberikan pengalaman pribadi yang tak tertandingi, meningkatkan keterlibatan pengguna, dan mencapai kesuksesan bisnis,” kata Elan Dekel, Wakil Presiden Produk, Pinecone.

“Kami sangat bersemangat untuk membawa kekuatan database vektor Pinecone dan kemampuan pencarian semantik ke pelanggan cloud publik kami untuk mempercepat kasus penggunaan generative AI, dan signifikan meningkatkan pengalaman developer.” Abhas Ricky, Chief Strategy Officer, Cloudera.

“Integrasi Pinecone dengan CDP menambahkan fungsionalitas baru yang sangat penting yang akan membantu klien membangun aplikasi generative AI,” kata Sanjeev Mohan, pendiri SanjMo dan mantan analis Gartner. “Selain itu, integrasi yang direncanakan antara open source berbasis Apache NiFi Cloudera Data Flow (CDF) dan Pinecone semakin meningkatkan penekanan CDP pada distribusi data universal untuk AI. Pelanggan CDP dapat membawa AI ke tempat data mereka berada, on-premise, di cloud atau di edge.”

Tentang Cloudera

Cloudera percaya data dapat membuat apa yang tidak mungkin hari ini, akan menjadi mungkin besok. Kami memberdayakan orang untuk mengubah data mereka menjadi enterprise AI yang tepercaya sehingga mereka dapat mengurangi biaya dan risiko, meningkatkan produktivitas, dan mempercepat kinerja bisnis. open data lakehouse kami memungkinkan manajemen data yang aman, serta analitik data cloud-native yang portabel, yang membantu organisasi mengelola dan menganalisis data dari semua jenis, di cloud apa pun, publik atau private. Dengan volume data yang setara dengan hyperscalers, Cloudera menjadi mitra data bagi perusahaan-perusahaan teratas di hampir semua industri. Cloudera telah memandu dunia tentang nilai dan masa depan data, dan terus memimpin ekosistem yang dinamis, didukung oleh inovasi tanpa henti dari komunitas open source.

Tentang Pinecone

Pinecone menciptakan database vektor yang bertindak sebagai long-term memory untuk model AI dan merupakan komponen infrastruktur inti untuk aplikasi berbasis AI. Layanan yang dikelola memungkinkan engineer membangun aplikasi cepat dan skalabel yang menggunakan embeddings dari model AI, dan mendapatkannya ke produksi lebih cepat. Pinecone baru-baru ini mengumpulkan $100M dalam pendanaan Seri B dengan valuasi $750M. Putaran pendanaan dipimpin oleh Andreessen Horowitz, dengan partisipasi dari ICONIQ Growth dan investor sebelumnya Menlo Ventures dan Wing Venture Capital.

Kesimpulan

Cloudera dan Pinecone telah mengumumkan kemitraan strategis yang bertujuan untuk merevolusi cara organisasi memanfaatkan AI. Dengan mengintegrasikan database vektor Pinecone ke dalam platform Cloudera, organisasi dapat lebih mudah membangun dan menerapkan aplikasi AI yang skalabel dan real-time. Kemitraan ini menjanjikan peningkatan signifikan dalam efisiensi operasional dan pengalaman konsumen, dengan fokus khusus pada pengurangan kesalahan output dan peningkatan respons aplikasi berbasis AI.


Glosari

  • AI (Kecerdasan Buatan): Teknologi yang memungkinkan mesin untuk meniru fungsi kecerdasan manusia. Ini mencakup kemampuan untuk belajar dari pengalaman (melalui pembelajaran mesin), memahami bahasa melalui pemrosesan bahasa alami, mengenali pola, dan membuat keputusan dengan sejumlah otonomi.
  • AMP (Applied ML Prototype): Prototipe yang dirancang khusus untuk memfasilitasi pengembangan cepat dalam proyek-proyek kecerdasan buatan. Ini memungkinkan developer untuk iterasi dan meningkatkan solusi dengan cepat berdasarkan data dan feedback yang diterima.
  • Apache NiFi: Proyek open source yang menyediakan platform terdistribusi untuk mengumpulkan, memproses, dan mendistribusikan data dalam aliran data yang besar dan cepat.
  • CDP (Cloudera Data Platform): Platform terintegrasi dari Cloudera yang menyatukan manajemen data dan analisis dalam satu produk, memungkinkan organisasi untuk menjalankan beban kerja di mana saja, dari Edge ke AI.
  • CDF (Cloudera Data Flow): Solusi yang dirancang untuk mengumpulkan, memproses, dan mendistribusikan data dengan latensi rendah dan skala besar.
  • Database Vektor: Sebuah jenis database yang dioptimalkan untuk menyimpan data dalam bentuk vektor. Ini sangat berguna untuk operasi seperti pencarian kesamaan, di mana kita ingin menemukan item yang paling mirip dengan item tertentu.
  • Embeddings: Representasi data numerik berdimensi rendah yang menangkap informasi semantik tentang data. Dalam konteks AI, embeddings sering digunakan untuk mengubah kata-kata atau frasa menjadi vektor numerik yang dapat diproses oleh model.
  • Generative AI: Subbidang AI yang berfokus pada pembuatan konten. Misalnya, model generatif dapat digunakan untuk menghasilkan gambar, musik, atau teks yang belum pernah ada sebelumnya.
  • Hallucinations: Dalam konteks AI, istilah ini merujuk pada situasi di mana model menghasilkan informasi atau output yang tidak ada dalam data pelatihan aslinya atau yang tidak relevan dengan input yang diberikan.
  • Large Language Models (LLMs): Model kecerdasan buatan yang dilatih pada dataset teks besar. Tujuannya adalah untuk memahami konteks dan nuansa bahasa manusia, memungkinkannya untuk menghasilkan teks yang koheren dan relevan berdasarkan input yang diberikan.
  • Long-term memory: Dalam konteks Pinecone, ini merujuk pada kemampuan database untuk menyimpan informasi selama periode waktu yang lama, memungkinkan model AI untuk mengakses dan memanfaatkan informasi tersebut saat diperlukan.
  • Open Data Lakehouse: Pendekatan arsitektural yang menggabungkan fitur terbaik dari data lakes (penyimpanan data skala besar dalam format aslinya) dan data warehouses (penyimpanan data terstruktur untuk analisis).
  • Pipeline Ingest: Proses mengambil data dari sumber aslinya dan memasukkannya ke dalam sistem atau aplikasi untuk diproses atau dianalisis.
  • Vector Embeddings: Lihat “Embeddings”. Ini adalah representasi vektor dari data, biasanya digunakan dalam konteks pembelajaran mesin dan AI untuk mengubah data non-numerik menjadi format numerik yang dapat diproses oleh algoritma.