视觉理解

让 AI 模型分析和理解图像、视频内容

概述

视觉理解功能允许 AI 模型分析图像内容,回答相关问题、提取文字(OCR)、识别物体等。

支持的模型

模型最大分辨率价格
gpt-4o2048x2048¥0.035 / 1K tokens
gpt-4-vision2048x2048¥0.075 / 1K tokens
gemini-3-pro4096x4096¥0.025 / 1K tokens
qwen-vl-max2048x2048¥0.042 / 1K tokens

请求示例

curl
curl https://api.lingyuncx.com/v1/chat/completions \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {
        "role": "user",
        "content": [
          {"type": "text", "text": "这张图片里有什么?"},
          {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
        ]
      }
    ]
  }'
Python
from openai import OpenAI

client = OpenAI(
    base_url="https://api.lingyuncx.com/v1",
    api_key="sk-xxxxxxxx"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图片里有什么?"},
            {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
        ]
    }]
)

print(response.choices[0].message.content)

应用场景

  • 图像描述:分析图片内容并生成描述
  • OCR 文字识别:提取图片中的文字信息
  • 图表分析:解读数据图表、流程图等
  • 物体识别:识别图片中的物体、场景
  • 视觉问答:基于图片内容回答问题

💡 提示

支持 base64 编码和图片 URL 两种方式上传图片。