偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

谷歌首個(gè)nana-banana多模態(tài)RAG實(shí)戰(zhàn)：徹底告別關(guān)鍵詞搜索，讓AI為電商游戲提效原創(chuàng) 精華

發(fā)布于 2025-9-8 07:15

瀏覽

0收藏

最新的AI生圖模型已經(jīng)能做到驚人的效果。給它一句話，它就能生成逼真的圖片。告訴它想怎么改，它就能精準(zhǔn)編輯細(xì)節(jié)。速度還快得離譜。

但對(duì)企業(yè)來(lái)說(shuō)，光有個(gè)生圖模型還不夠。

我之前碰到一個(gè)公司，他們想讓用戶上傳照片后，從素材庫(kù)選配飾和道具進(jìn)行換裝。另一家電商平臺(tái)想給模特?fù)Q裝、換發(fā)型、換配飾，實(shí)現(xiàn)一次拍攝，反復(fù)使用。

問(wèn)題來(lái)了：這些公司都有海量的歷史素材。服裝、配飾、道具、背景，全是圖片文件。怎么快速找到想要的素材？傳統(tǒng)搜索根本不行。

他們真正需要的，是一套能理解圖片內(nèi)容的智能檢索系統(tǒng)。輸入文字描述，就能找到對(duì)應(yīng)的圖片素材。再配合AI生圖模型，才能實(shí)現(xiàn)真正的生產(chǎn)級(jí)應(yīng)用。

這就是多模態(tài)RAG系統(tǒng)的價(jià)值所在。

企業(yè)生圖的真正痛點(diǎn)

快消品公司每年積累數(shù)萬(wàn)張產(chǎn)品圖。游戲公司的素材庫(kù)里躺著幾十萬(wàn)個(gè)道具模型。這些非結(jié)構(gòu)化數(shù)據(jù)就像一座金山，卻無(wú)法高效利用。

傳統(tǒng)的文件名搜索？太原始了。手動(dòng)打標(biāo)簽？人力成本高得嚇人，還容易出錯(cuò)。

現(xiàn)實(shí)中，設(shè)計(jì)師要找一個(gè)"金色復(fù)古懷表"的素材，可能要翻幾十個(gè)文件夾。產(chǎn)品經(jīng)理想找"穿西裝的男模特"照片，得靠記憶和運(yùn)氣。

更糟糕的是，即使找到了合適的素材，怎么和AI生圖模型無(wú)縫對(duì)接？怎么確保生成的圖片風(fēng)格統(tǒng)一？怎么批量處理上千個(gè)SKU的產(chǎn)品圖？

這些問(wèn)題，單靠一個(gè)AI模型解決不了。你需要一套完整的系統(tǒng)。

技術(shù)方案：向量化

解決方案其實(shí)不復(fù)雜。

核心是把圖片和文字都轉(zhuǎn)換成向量。同一個(gè)概念的圖片和文字，轉(zhuǎn)換后的向量很相似。比如"金色手表"這段文字的向量，和一張金表圖片的向量，在向量空間里距離很近。

向量化方案選擇

你有三種選擇，各有優(yōu)劣：

方案一：CLIP本地部署（免費(fèi)但需要GPU）

import clip
model, preprocess = clip.load("ViT-B/32")  # 512維向量
# 或者用更強(qiáng)的模型
model, preprocess = clip.load("ViT-L/14")  # 768維向量

方案二：OpenAI API（效果最好但按次收費(fèi)）

from openai import OpenAI
client = OpenAI(api_key="your-key")
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="金色手表"
)

方案三：國(guó)內(nèi)大廠API（穩(wěn)定且中文優(yōu)化好）

# 阿里云 DashScope
from dashscope import MultiModalEmbedding
response = MultiModalEmbedding.call(
    model='multimodal-embedding-one-peace-v1',
    input=[{"image": "watch.jpg"}]
)

Milvus向量數(shù)據(jù)庫(kù)

不管用哪種向量化方案，存儲(chǔ)和檢索都用Milvus。它能在毫秒內(nèi)從百萬(wàn)個(gè)向量中找出最相似的。

工作流程：

把所有歷史圖片轉(zhuǎn)成向量，存到Milvus
用戶輸入文字描述時(shí)，同樣轉(zhuǎn)成向量
Milvus找出最相似的圖片向量
返回對(duì)應(yīng)的原始圖片

實(shí)戰(zhàn)：搭建以文搜圖系統(tǒng)

三種實(shí)現(xiàn)方式，你選一個(gè)合適的。

方式一：CLIP本地部署

環(huán)境準(zhǔn)備

pip install pymilvus pillow matplotlib
pip install git+https://github.com/openai/CLIP.git

完整代碼

import clip
import torch
from PIL import Image
from pymilvus import MilvusClient
from glob import glob

# 初始化
client = MilvusClient(uri="http://localhost:19530")
device = "cuda"if torch.cuda.is_available() else"cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# 創(chuàng)建集合
collection_name = "product_images"
if client.has_collection(collection_name):
    client.drop_collection(collection_name)
    
client.create_collection(
    collection_name=collection_name,
    dimension=512,
    metric_type="COSINE"
)

# 圖片向量化
def encode_image(image_path):
    image = preprocess(Image.open(image_path)).unsqueeze(0).to(device)
    with torch.no_grad():
        features = model.encode_image(image)
        features /= features.norm(dim=-1, keepdim=True)
    return features.squeeze().cpu().tolist()

# 批量處理
image_paths = glob("./images/*.jpg")
data = []
for path in image_paths:
    vector = encode_image(path)
    data.append({"vector": vector, "filepath": path})
    
client.insert(collection_name=collection_name, data=data)

# 搜索功能
def search_by_text(query, top_k=3):
    text = clip.tokenize([query]).to(device)
    with torch.no_grad():
        text_features = model.encode_text(text)
        text_features /= text_features.norm(dim=-1, keepdim=True)
    
    results = client.search(
        collection_name=collection_name,
        data=[text_features.squeeze().cpu().tolist()],
        limit=top_k,
        output_fields=["filepath"]
    )
    return results[0]

方式二：OpenAI API

from openai import OpenAI
from pymilvus import MilvusClient
import base64

# 初始化
openai_client = OpenAI(api_key="your-key")
milvus_client = MilvusClient(uri="http://localhost:19530")

# 創(chuàng)建集合（注意維度不同）
collection_name = "product_images_openai"
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=1536,  # OpenAI的維度
    metric_type="COSINE"
)

def encode_text_openai(text):
    """文本向量化"""
    response = openai_client.embeddings.create(
        model="text-embedding-3-large",
        input=text,
        dimensions=1536
    )
    return response.data[0].embedding

def encode_image_openai(image_path):
    """圖片先描述再向量化"""
    with open(image_path, "rb") as f:
        base64_image = base64.b64encode(f.read()).decode('utf-8')
    
    # GPT-4V描述圖片
    response = openai_client.chat.completions.create(
        model="gpt-4-vision-preview",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe this image concisely"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
            ]
        }]
    )
    
    description = response.choices[0].message.content
    return encode_text_openai(description)

# 批量處理（注意成本）
from glob import glob
image_paths = glob("./images/*.jpg")[:100]  # 先處理100張?jiān)囋?data = []

for path in image_paths:
    print(f"Processing {path}...")
    vector = encode_image_openai(path)
    data.append({"vector": vector, "filepath": path})
    
milvus_client.insert(collection_name=collection_name, data=data)

方式三：混合方案

class HybridEmbedding:
    """智能選擇最合適的向量化方案"""
    
    def __init__(self):
        # CLIP用于批量處理
        self.clip_model, self.preprocess = clip.load("ViT-B/32")
        
        # OpenAI用于高質(zhì)量需求
        self.openai_client = OpenAI(api_key="your-key")
        
        # Milvus連接
        self.milvus = MilvusClient(uri="http://localhost:19530")
        
        # 統(tǒng)一到1536維（通過(guò)填充或截?cái)啵?        self.dimension = 1536
        
    def encode(self, content, mode="fast"):
        """根據(jù)模式選擇編碼方式"""
        if mode == "fast":
            # 用CLIP，成本低
            if isinstance(content, str):
                tokens = clip.tokenize([content])
                features = self.clip_model.encode_text(tokens)
            else:  # 圖片路徑
                image = self.preprocess(Image.open(content)).unsqueeze(0)
                features = self.clip_model.encode_image(image)
            
            # 歸一化并填充到1536維
            features = features.squeeze().cpu().numpy()
            features = features / np.linalg.norm(features)
            padded = np.zeros(self.dimension)
            padded[:len(features)] = features
            return padded.tolist()
            
        elif mode == "quality":
            # 用OpenAI，效果好
            response = self.openai_client.embeddings.create(
                model="text-embedding-3-large",
                input=content,
                dimensions=self.dimension
            )
            return response.data[0].embedding
    
    def smart_batch_process(self, items, budget=100):
        """智能批處理，控制成本"""
        results = []
        
        for i, item in enumerate(items):
            if i < budget:
                # 前100個(gè)用高質(zhì)量
                vector = self.encode(item, mode="quality")
            else:
                # 剩下的用快速模式
                vector = self.encode(item, mode="fast")
            
            results.append(vector)
            
        return results

集成AI生圖模型實(shí)現(xiàn)自動(dòng)化

找到素材只是第一步。接下來(lái)要把它和AI生圖模型打通。

這里用Gemini的圖像生成API做示范。你也可以換成Stable Diffusion、Midjourney或任何其他模型。

import google.generativeai as genai
from PIL import Image

# 配置API
genai.configure(api_key="your_api_key")
model = genai.GenerativeModel('gemini-2.0-flash-exp')

def generate_product_image(text_query, style_reference):
    """
    先搜索相似素材，再生成新圖
    """
    # 步驟1：從數(shù)據(jù)庫(kù)找參考圖
    similar_images = search_by_text(text_query, top_k=1)
    reference_path = similar_images[0]['entity']['filepath']
    
    # 步驟2：加載參考圖
    ref_image = Image.open(reference_path)
    
    # 步驟3：生成新圖
    prompt = f"{text_query}. Style should match the reference image."
    response = model.generate_content([prompt, ref_image])
    
    # 步驟4：保存結(jié)果
    for part in response.candidates[0].content.parts:
        if part.inline_data:
            new_image = Image.open(BytesIO(part.inline_data.data))
            new_image.save(f"generated_{text_query.replace(' ', '_')}.png")
            return new_image
    
# 實(shí)際使用
generate_product_image(
    "European male model wearing suit with gold watch",
    style_reference="luxury_fashion"
)

這套流程的妙處在于：

自動(dòng)匹配風(fēng)格：從歷史素材找參考，保證視覺(jué)一致性
批量處理：寫個(gè)循環(huán)，一晚上能生成上千張產(chǎn)品圖
精準(zhǔn)控制：通過(guò)調(diào)整prompt和參考圖，精確控制輸出效果

實(shí)際應(yīng)用場(chǎng)景和效果展示

電商換裝場(chǎng)景

一家服裝品牌，原本每個(gè)季度要拍攝500套新品。現(xiàn)在只需拍攝50套基礎(chǔ)款，剩下的全靠AI生成。

# 批量換裝示例
base_models = ["model_001.jpg", "model_002.jpg"]
clothing_items = search_by_text("summer dress collection", top_k=50)

for model in base_models:
    for item in clothing_items:
        generate_outfit_combination(model, item)

游戲道具定制

某款卡牌游戲，玩家可以自定義角色裝備。系統(tǒng)從10萬(wàn)個(gè)道具素材中實(shí)時(shí)檢索，然后生成獨(dú)一無(wú)二的角色形象。

玩家描述："戴著火焰皇冠的精靈弓箭手" 系統(tǒng)操作：

檢索"火焰皇冠"素材
檢索"精靈弓箭手"基礎(chǔ)形象
AI融合生成最終角色

產(chǎn)品展示自動(dòng)化

一個(gè)3C品牌，新品發(fā)布需要大量場(chǎng)景圖。以前要搭建實(shí)景、請(qǐng)攝影師。現(xiàn)在：

products = ["smartphone_x1.jpg", "earbuds_pro.jpg", "smartwatch_v2.jpg"]
scenes = ["modern office", "outdoor adventure", "home living room"]

for product in products:
    for scene in scenes:
        prompt = f"Place {product} in {scene} setting"
        generate_scene_image(prompt, product)

一天生成1000張場(chǎng)景圖。每張成本不到1元。

總結(jié)

向量化技術(shù)還在快速進(jìn)化。Google的Gemini已經(jīng)原生支持多模態(tài)。Meta的ImageBind能處理6種模態(tài)。但不管技術(shù)怎么變，核心邏輯不變：把非結(jié)構(gòu)化數(shù)據(jù)變成向量，用向量相似度做檢索。

本文轉(zhuǎn)載自??AI 博物院?? 作者：longyunfeigu

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

已于2025-9-8 07:15:11修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

AtomoVideo：AIGC賦能下的電商視頻動(dòng)效生成

jordana ? 4897瀏覽 ? 0回復(fù)
LLM落地淘寶電商搜索場(chǎng)景，顯著提升長(zhǎng)尾query改寫效果

海因斯DK ? 9222瀏覽 ? 0回復(fù)
谷歌卷視頻到語(yǔ)音，逼真音效讓AI視頻告別無(wú)聲！

輕薄滴假象 ? 3908瀏覽 ? 0回復(fù)
必須為孩子存下來(lái)的提示詞，像玩RPG游戲一樣學(xué)習(xí)

ermulong ? 4010瀏覽 ? 0回復(fù)
必須為孩子存下來(lái)的提示詞，像玩黑神話游戲一樣學(xué)習(xí)

ermulong ? 3198瀏覽 ? 0回復(fù)
多模態(tài)RAG應(yīng)用開發(fā)實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 3395瀏覽 ? 0回復(fù)
OpenAI正式發(fā)布ChatGPT網(wǎng)絡(luò)搜索，徹底顛覆谷歌！

Aceryt ? 3429瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實(shí)踐

大模型自然語(yǔ)言處理 ? 3517瀏覽 ? 0回復(fù)
Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型

kede96 ? 5464瀏覽 ? 0回復(fù)
多模態(tài)RAG構(gòu)建指南：為AI系統(tǒng)提供更多可能性

51CTO內(nèi)容精選 ? 3996瀏覽 ? 0回復(fù)
LangChain實(shí)戰(zhàn) | Tool Calling ：讓AI真正動(dòng)起來(lái)的關(guān)鍵技術(shù)

AI取經(jīng)路 ? 6325瀏覽 ? 0回復(fù)
快手動(dòng)效渲染引擎Crab，解鎖“游戲化動(dòng)效”開發(fā)新方式！

快手技術(shù) ? 4036瀏覽 ? 0回復(fù)
AI指令的秘密：三個(gè)關(guān)鍵詞就能讓AI效果翻倍

草臺(tái)AI ? 3993瀏覽 ? 0回復(fù)
DeepSeek爆火：普通人跨越AI提效終局的10倍進(jìn)化指南

ermulong ? 3361瀏覽 ? 0回復(fù)
DeepSeek-R1+Dify打造AI簡(jiǎn)歷篩選神器，3步提效300%！

風(fēng)云2002_1 ? 5037瀏覽 ? 0回復(fù)
電商評(píng)論升級(jí)：AI如何賦能場(chǎng)景應(yīng)用與技術(shù)選擇？

JavaEdge1 ? 2310瀏覽 ? 0回復(fù)
讓AI讀懂PPT圖表！RAG系統(tǒng)從60分到95分的進(jìn)化之路，LlamaParse+多模態(tài)實(shí)戰(zhàn)全解析

AI博物院 ? 3620瀏覽 ? 0回復(fù)
當(dāng)AI學(xué)會(huì)多模態(tài)「按需搜索」：字節(jié) MMSearch-R1 讓大模型告別「瞎編」？

十一月雨_55 ? 2073瀏覽 ? 0回復(fù)
萬(wàn)字總結(jié)：AI大模型50個(gè)核心關(guān)鍵詞解讀

DataForAI ? 2418瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

告別上下文溢出！用DeepAgents+DeepSeek快速構(gòu)建具備網(wǎng)絡(luò)搜索能力的AI研究助手 4天前發(fā)布
用AI交差，讓同事擦屁股？警惕工作中的“AI垃圾” 2025-10-23 09:32:13發(fā)布

熱門推薦

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

拯救老項(xiàng)目！比Cursor更細(xì)、比spec-kit更輕：OpenSpec如何顛覆AI編程工作流？ 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇： LangGraph × FastMCP 2.0 強(qiáng)強(qiáng)聯(lián)合：輕松構(gòu)建企業(yè)級(jí)AI工作流，效率翻倍！

下一篇： LangGraph + 多Agent系統(tǒng)實(shí)戰(zhàn)：上下文工程才是智能協(xié)作的核心基建

社區(qū)精華內(nèi)容

目錄

<dfn id="spcf5"></dfn>

<bdo id="spcf5"></bdo>