Vector Databases

Essential for RAG (Retrieval Augmented Generation), semantic search, and AI applications that store and query embeddings.

Production-Ready Vector Databases

Pinecone
Qdrant
Weaviate
Chroma

Pinecone

Fully managed vector databaseLightning-fast queries (<50ms), serverless scaling, enterprise-grade security.Best for: Production AI apps, enterprise scale, managed infrastructureKey Features:

Sub-50ms query latency
Automatic scaling (serverless)
SOC 2 Type II compliant
Multi-region deployment
Pinecone Assistant (all-in-one RAG)
Hybrid search support

Performance:

Handles billions of vectors
Consistent low latency
99.9% uptime SLA

Pricing:

Free: 1 index, 5M vectors
Serverless: Pay per usage
Pod-based: Starting at $70/month

Use Cases:

Production RAG systems
Semantic search at scale
Recommendation engines
Enterprise AI applications

Documentation • Get Started

PostgreSQL-Based Solutions

pgvector

PostgreSQL extension for vectorsStore embeddings directly in Postgres. Use with Supabase, Neon, or any Postgres.Best for: Existing Postgres users, unified database, cost savingsFeatures:

Native PostgreSQL extension
SQL queries for vectors
ACID guarantees
Works with existing tools
RLS support (Supabase)

Performance:

~80ms query latency
Millions of vectors
L2, inner product, cosine distance
HNSW & IVFFlat indexes

Pricing: Free (part of PostgreSQL)Documentation

Supabase Vector

pgvector + Supabasepgvector with Supabase’s managed infrastructure, auth, and RLS.Best for: Supabase users, integrated solution, row-level securityFeatures:

pgvector extension
Row-Level Security
Supabase Auth integration
Edge Functions access
Auto-generated APIs

Pricing: Included with SupabaseDocumentation

Enterprise & Specialized

Milvus

Open-source vector databaseBillion-scale vectors, high performance, cloud-native. Enterprise-grade.Best for: Billion-scale data, data engineering teams, enterprise AIFeatures:

Billion+ vector support
High throughput
GPU acceleration
Cloud-native architecture
Multiple index types

Performance:

~60ms query latency
Handles billions of vectors
Horizontal scaling
GPU support

Pricing:

Free: Open-source
Zilliz Cloud: Managed service

Documentation

Vespa

Big data serving engineReal-time computation over large datasets. Vector search + full-text + structured data.Best for: Complex queries, real-time ML, large-scale systemsFeatures:

Hybrid search
Real-time updates
Machine learning inference
Combines vectors + text + structured

Pricing: Free & open-sourceDocumentation

Performance Comparison

Database	Latency	Scale	Memory	Best For
Pinecone	<50ms	Billions	Efficient	Production, managed
Qdrant	~60ms	Billions	Very efficient	Cost-sensitive, edge
Weaviate	~70ms	Billions	Efficient	Hybrid search
Chroma	~100ms	Millions	Light	Prototypes, small apps
pgvector	~80ms	Millions	Postgres	Existing Postgres users
Milvus	~60ms	Billions+	High	Enterprise, billion-scale

Feature Comparison

Feature	Pinecone	Qdrant	Weaviate	Chroma	pgvector
Managed Service	✅ Yes	✅ Yes	✅ Yes	❌ No	Via providers
Open Source	❌ No	✅ Yes	✅ Yes	✅ Yes	✅ Yes
Self-Host	❌ No	✅ Yes	✅ Yes	✅ Yes	✅ Yes
Hybrid Search	✅ Yes	✅ Yes	✅ Yes	❌ No	⚠️ Limited
Free Tier	✅ Yes	✅ Yes	✅ Yes	✅ Yes	✅ Yes
Filtering	✅ Good	✅ Excellent	✅ Good	⚠️ Basic	✅ SQL
GraphQL	❌ No	❌ No	✅ Yes	❌ No	❌ No

Pricing Comparison

Free Tiers:

Pinecone: 1 index, 5M vectors
Qdrant: 1GB cluster free
Weaviate: Sandbox environment
Chroma: Unlimited (self-hosted)
pgvector: Free (with Postgres)

Paid Plans:

Pinecone: Serverless (~ $0.10/1M queries) or Pod ($ 70+/month)
Qdrant: $20+/month for cloud
Weaviate: $25+/month standard
pgvector: Postgres hosting costs only

Integration Examples

Pinecone + OpenAI
Qdrant + LangChain
pgvector + Supabase
Chroma + LangChain

from pinecone import Pinecone
from openai import OpenAI

# Initialize
pc = Pinecone(api_key="YOUR_KEY")
openai = OpenAI()
index = pc.Index("your-index")

# Create embedding
embedding = openai.embeddings.create(
    model="text-embedding-3-small",
    input="Your text here"
).data[0].embedding

# Upsert to Pinecone
index.upsert([("id1", embedding, {"text": "Your text"})])

# Query
results = index.query(vector=embedding, top_k=5)

Decision Guide

Assess Your Scale

Millions of vectors? → Chroma, pgvectorHundreds of millions? → Pinecone, Qdrant, WeaviateBillions of vectors? → Pinecone, Milvus, Qdrant

Consider Infrastructure

Want fully managed? → PineconeOpen-source + managed option? → Qdrant, WeaviateAlready using Postgres? → pgvectorPrototyping? → Chroma

Evaluate Budget

Minimal budget? → Chroma (free), pgvector (free)Cost-conscious? → Qdrant (most affordable managed)Production budget? → Pinecone, WeaviateEnterprise? → Pinecone, Milvus

Check Requirements

Need hybrid search? → Weaviate, QdrantRequire SOC 2 compliance? → Pinecone, WeaviateWant GraphQL? → WeaviateNeed edge deployment? → QdrantExisting SQL skills? → pgvector

Use Case Recommendations

RAG Applications

Small-scale (<1M docs): Chroma or pgvectorMedium-scale (1M-10M docs): Qdrant or WeaviateLarge-scale (10M+ docs): Pinecone or MilvusBudget-conscious: pgvector (Supabase) or Qdrant

Semantic Search

E-commerce: Weaviate (hybrid search)Documentation: Pinecone or QdrantInternal knowledge base: Chroma or pgvectorEnterprise search: Weaviate or Milvus

Recommendation Systems

User recommendations: Pinecone or QdrantProduct recommendations: Weaviate (hybrid)Content recommendations: Any (based on scale)

Chatbots & AI Assistants

Simple chatbot: ChromaProduction chatbot: Pinecone or QdrantEnterprise assistant: Pinecone or WeaviateEdge chatbot: Qdrant

Common Patterns

RAG Pipeline

Document Chunking → Split docs into chunks
Generate Embeddings → OpenAI, Cohere, etc.
Store in Vector DB → Pinecone, Qdrant, etc.
Query → Semantic search for relevant chunks
LLM Generation → Use chunks as context

Hybrid Search

Vector Search → Semantic similarity
Keyword Search → BM25 or full-text
Combine Results → Reciprocal rank fusion
Return Top K → Best of both worlds

Image Embeddings → CLIP, etc.
Text Embeddings → OpenAI, etc.
Store Both → Same vector space
Cross-Modal Search → Image → Text or vice versa

Migration Guide

 Chroma → Pinecone
 pgvector → Qdrant
When: Scaling to productionSteps:Export embeddings from Chroma
Create Pinecone index
Batch upload to Pinecone
Update query code
Test thoroughly

Performance Tips

Optimization Strategies

Indexing:

HNSW for speed (most DBs)
IVF for memory efficiency
Choose based on read/write ratio

Filtering:

Pre-filter when possible
Use metadata strategically
Consider hybrid indexes

Batching:

Batch upserts (100-1000 vectors)
Parallel queries when possible
Use connection pooling

Monitoring:

Track query latency
Monitor index size
Watch memory usage
Set up alerts

Frontend

Backend

Production-Ready Vector Databases

Pinecone

PostgreSQL-Based Solutions

pgvector

Supabase Vector

Enterprise & Specialized

Milvus

Vespa

Performance Comparison

Feature Comparison

Pricing Comparison

Integration Examples

Decision Guide

Use Case Recommendations

Common Patterns

RAG Pipeline

Hybrid Search

Migration Guide

Performance Tips

Optimization Strategies

Frontend

Backend

​Production-Ready Vector Databases

​Pinecone

​PostgreSQL-Based Solutions

pgvector

Supabase Vector

​Enterprise & Specialized

Milvus

Vespa

​Performance Comparison

​Feature Comparison

​Pricing Comparison

​Integration Examples

​Decision Guide

​Use Case Recommendations

​Common Patterns

​RAG Pipeline

​Hybrid Search

​Multi-Modal Search

​Migration Guide

​Performance Tips

Optimization Strategies

Production-Ready Vector Databases

Pinecone

PostgreSQL-Based Solutions

Enterprise & Specialized

Performance Comparison

Feature Comparison

Pricing Comparison

Integration Examples

Decision Guide

Use Case Recommendations

Common Patterns

RAG Pipeline

Hybrid Search

Multi-Modal Search

Migration Guide

Performance Tips