第8课：计算机视觉：让机器“看懂”世界-尧图建网站

一、课程信息课程主题计算机视觉让机器“看懂”世界适合对象人工智能零基础学习者预计学习时长1.5小时学习方式建议先理解图片在机器眼中是什么再区分图像分类、目标检测和图像分割二、学习目标学完本课后你应该能够用通俗语言解释什么是计算机视觉。理解图片在计算机中通常是由像素数字表示的。区分图像分类、目标检测、图像分割和图像生成。了解人脸识别、车牌识别、自动驾驶、医学影像等视觉AI应用。能分析视觉AI可能带来的便利和风险。理解计算机视觉不是“真正像人一样看懂”而是从图像数据中学习规律。三、课程导入机器真的能“看懂”图片吗人类看图片时通常能很快理解画面内容。例如看到一张照片我们可能立刻知道画面里有没有人人在哪里人在做什么天气是晴天还是雨天这是室内还是室外有没有车、猫、狗、树、建筑但对计算机来说图片并不是一幅“它能直接理解的画”。计算机看到的其实是一堆数字。每个数字表示图片中某个位置的颜色和亮度。所以计算机视觉要解决的问题是如何让机器从这些图像数字中识别物体、理解场景、定位目标并完成视觉相关任务。四、什么是计算机视觉1. 通俗定义计算机视觉英文是 Computer Vision简称 CV。可以这样理解计算机视觉是让机器处理和理解图像、视频等视觉信息的技术。它希望机器能够完成一些原本需要人眼和大脑配合完成的任务。例如判断图片里是什么找出图片中的目标位置识别人脸识别车牌分析医学影像判断视频中发生了什么生成或修复图片2. 计算机视觉处理什么数据计算机视觉主要处理视觉数据。常见数据包括图片视频摄像头画面医学影像卫星图像工业检测图像自动驾驶传感器图像3. 生活中的计算机视觉应用你可能每天都在使用计算机视觉。例如手机人脸解锁相册自动按人物分类停车场自动识别车牌支付时扫二维码美颜和背景虚化自动驾驶辅助识别道路医学影像辅助诊断工厂检测产品缺陷短视频平台识别画面内容五、图片在计算机中是什么1. 人看到图片机器看到数字人看到一张图片时会看到整体画面。但计算机处理图片时通常看到的是像素。像素可以理解为组成图片的小格子。每个像素都有颜色和亮度信息。一张图片越清晰通常像素越多。2. 像素是什么可以把图片想象成由很多小方格拼成的马赛克。每个小方格就是一个像素。如果把这些小方格缩小到肉眼难以看清整张图就变得平滑自然。例如一张图片很多像素点组成的网格每个像素点一组表示颜色和亮度的数字3. 彩色图片中的数字彩色图片通常可以用红、绿、蓝三种颜色通道表示。也就是常说的 RGB。每个像素可能包含三组数字R红色强度G绿色强度B蓝色强度不同数字组合就形成不同颜色。4. 为什么这很重要理解“图片是数字”很重要。因为AI模型不是直接像人一样看图片而是从这些数字中学习规律。例如哪些数字变化可能代表边缘哪些区域可能组成眼睛哪些形状可能代表汽车哪些纹理可能代表病灶计算机视觉的学习过程就是让模型从大量图像数字中总结视觉规律。六、计算机视觉的基本流程一个简化的计算机视觉流程可以表示为输入图片或视频 → 预处理 → 模型分析 → 输出结果 → 人工确认或系统执行1. 输入图片或视频输入可能来自手机摄像头监控摄像头医学影像设备工业检测相机自动驾驶摄像头用户上传图片2. 预处理预处理是为了让图片更适合模型处理。可能包括调整图片大小裁剪关键区域调整亮度和对比度去除噪声转换图片格式标准化像素数值3. 模型分析模型会根据任务分析图片。例如判断图片类别找出目标位置分割不同区域识别人脸身份检测异常区域4. 输出结果输出结果可能是一个类别一个概率一个目标框一张分割图一段描述文字一张生成图片5. 人工确认或系统执行在一些低风险场景中系统可以直接执行。例如相册自动分类。在高风险场景中需要人工确认。例如医疗影像辅助诊断。七、图像分类判断图片是什么1. 什么是图像分类图像分类是计算机视觉中最基础的任务之一。它要解决的问题是判断整张图片属于哪一类。例如给模型一张图片模型判断猫狗汽车飞机苹果建筑2. 图像分类的输入和输出输入输出一张猫的图片猫一张狗的图片狗一张汽车图片汽车一张花的图片花模型也可能输出概率。例如猫88% 狗10% 兔子2%这表示模型认为图片最可能是猫。3. 图像分类的应用图像分类可以用于相册自动分类商品图片分类植物识别动物识别垃圾分类辅助医学影像初步筛查内容安全审核4. 图像分类的局限图像分类只回答“这张图大概是什么”。它通常不告诉你目标在哪里。例如一张图片里有一只猫和一只狗分类模型可能只输出“猫”或“狗”。如果你需要知道图片中有哪些目标、分别在哪里就需要目标检测。八、目标检测找出图片中有什么以及在哪里1. 什么是目标检测目标检测要解决两个问题图片里有什么目标每个目标在图片中的什么位置目标检测通常会在图片上画出一个框。这个框叫边界框。例如图片中有一辆车位置在左下角。图片中有两个行人分别在道路两侧。2. 图像分类和目标检测的区别对比项图像分类目标检测主要问题图片是什么图片里有什么在哪里输出类别类别位置是否定位目标通常不定位需要定位例子这是一张猫图图中有一只猫位置在右侧3. 目标检测的应用目标检测常用于自动驾驶识别车辆和行人监控视频识别人群和异常物体工业质检定位缺陷零售货架识别商品医学影像定位病灶体育视频识别运动员和球停车场检测车位和车辆4. 目标检测的难点目标检测比图像分类更难。因为它不仅要判断类别还要确定位置。难点包括目标很小目标被遮挡光线变化背景复杂目标形状变化大图片中有多个目标九、图像分割把不同区域区分开1. 什么是图像分割图像分割要解决的问题是把图片中的不同区域精细地区分出来。目标检测通常用矩形框圈出目标。图像分割则更细通常要判断每个像素属于哪个对象或区域。2. 一个简单例子假设图片中有一只猫。目标检测可能画一个矩形框这里有一只猫。图像分割会更细这些像素属于猫其他像素属于背景。3. 图像分割的应用图像分割常用于医学影像中分割病灶区域自动驾驶中区分道路、车道线、行人、车辆视频背景替换图片编辑和抠图工业检测中定位缺陷边界遥感图像中识别建筑、河流、农田4. 分类、检测、分割的区别任务关注点输出图像分类这张图是什么类别目标检测图中有什么在哪里类别位置框图像分割每个区域分别是什么像素级区域可以用一个例子理解图像分类这张图里有猫。目标检测猫在图片右侧这个框里。图像分割猫的身体边界精确到这些像素。十、人脸识别视觉AI的典型应用1. 人脸识别是什么人脸识别是让机器识别或验证人脸身份的技术。常见任务包括判断图片中是否有人脸找出人脸位置提取人脸特征判断是否是同一个人识别具体身份2. 常见应用人脸识别常用于手机解锁门禁系统相册人物分类身份核验考勤系统安防场景3. 人脸识别不只是“看脸”模型通常会从人脸图像中提取特征。例如眼睛位置鼻子形状嘴部特征脸型轮廓五官之间的相对位置这些特征组合起来用于判断是否匹配。4. 人脸识别的风险人脸识别涉及敏感个人信息。需要注意隐私保护数据授权误识别风险不同人群识别效果差异滥用监控风险因此人脸识别不能只看技术效果还要关注合规和伦理。十一、车牌识别从图像中读取文字1. 车牌识别是什么车牌识别是从车辆图像中识别车牌号码。通常包括几个步骤检测车辆 → 定位车牌 → 识别车牌字符 → 输出车牌号2. 常见应用车牌识别常用于停车场出入口高速收费交通违法识别小区车辆管理城市交通管理3. 难点是什么车牌识别可能受到很多因素影响车牌污损光线太暗角度倾斜车辆速度快雨雪天气摄像头分辨率低车牌被遮挡这说明视觉AI在真实场景中会遇到复杂环境变化。十二、自动驾驶中的计算机视觉1. 自动驾驶为什么需要视觉AI自动驾驶系统需要理解车辆周围环境。例如道路在哪里车道线在哪里前方有没有行人周围有没有车辆红绿灯是什么状态交通标志是什么是否有障碍物计算机视觉是自动驾驶感知系统的重要组成部分。2. 自动驾驶中的视觉任务可能包括车道线检测行人检测车辆检测交通灯识别交通标志识别可行驶区域分割障碍物检测3. 为什么自动驾驶很难自动驾驶场景非常复杂。因为道路环境会变化白天和夜晚晴天和雨雪天城市道路和高速公路施工路段行人突然横穿车辆遮挡标志不清晰摄像头被污染4. 为什么不能只依赖视觉自动驾驶通常不只使用摄像头还会结合其他传感器。例如雷达激光雷达GPS高精地图车辆传感器多种信息结合可以提高安全性。视觉AI很重要但单独依赖视觉可能存在风险。十三、医学影像中的计算机视觉1. 医学影像AI做什么医学影像AI可以辅助医生分析影像。例如X光片CT核磁共振超声影像眼底图像病理切片2. 典型任务医学影像AI可能用于判断是否存在异常定位可疑区域分割病灶边界辅助筛查疾病风险对影像进行质量检查帮助医生提高阅片效率3. 医学影像AI的价值它可以帮助提高筛查效率减少重复劳动提示医生关注可疑区域在医疗资源不足地区提供辅助工具4. 为什么必须谨慎医学场景错误成本很高。AI可能漏判也可能误判。医学诊断不能只看影像还需要结合病史症状检查指标医生经验后续复查所以医学影像AI应定位为辅助工具而不是替代医生。十四、工业质检中的计算机视觉1. 工业质检是什么工业质检是检查产品是否存在缺陷。传统方式常依赖人工目检。计算机视觉可以帮助自动检测产品表面或结构问题。2. 典型应用例如检测屏幕划痕检测零件缺口检测包装破损检测食品外观异常检测布料瑕疵检测电路板缺陷3. 视觉AI的优势工业质检中视觉AI可以提高检测速度减少人工疲劳影响提升一致性记录检测结果支持大规模生产线4. 仍然存在挑战工业质检也有难点缺陷样本少缺陷形态多样光照和拍摄角度影响大新缺陷类型可能没见过误报和漏报都可能带来成本十五、图像生成与图片修复1. 图像生成是什么图像生成是让AI根据输入生成新的图片。常见形式包括文生图根据文字描述生成图片图生图根据已有图片生成变化版本风格转换把图片变成某种风格角色设计生成角色形象场景设计生成室内、建筑、风景图2. 图片修复是什么图片修复是让AI补全或改善图片。例如去除图片噪声修复老照片提高清晰度补全缺失区域去除不需要的物体黑白照片上色3. 生成和识别的区别识别类任务是理解已有图片。生成类任务是创造新图片。例如图像分类这张图是什么目标检测图中目标在哪里图像生成请生成一张未来城市图片。图片修复请把这张模糊照片变清晰。4. 图像生成的风险图像生成带来便利也带来风险。例如虚假图片误导性内容肖像权问题版权问题深度伪造不适当内容生成使用图像生成工具时需要注意来源、授权、真实性和使用边界。十六、视频理解从单张图片到连续画面1. 视频比图片更复杂视频可以看作连续多张图片组成的序列。但视频理解不只是逐帧看图片。它还需要理解时间变化。例如人在走路车在转弯球被踢出去人从椅子上站起来物体从桌上掉落这些都需要结合前后画面理解。2. 视频理解任务常见任务包括动作识别视频分类异常行为检测视频摘要视频问答目标跟踪3. 视频理解应用应用包括安防监控体育分析智能剪辑自动驾驶课堂行为分析工业生产监控4. 视频理解的难点难点包括数据量大计算成本高时间关系复杂目标遮挡场景变化快隐私风险更高十七、计算机视觉常见难点1. 光线变化同一个物体在不同光线下看起来可能很不同。例如白天和夜晚、室内和室外、逆光和阴影都会影响识别。2. 角度变化同一辆车从正面、侧面、背面看到的样子不同。模型需要学习多角度特征。3. 遮挡问题目标可能被其他物体挡住。例如行人被车辆遮挡猫躲在家具后面。遮挡会让模型更难判断。4. 背景复杂复杂背景可能干扰模型。例如在花纹复杂的地毯上识别一只颜色相近的猫。5. 小目标问题目标太小会很难识别。例如远处的行人、遥感图像中的小建筑、医学影像中的微小异常。6. 数据偏差如果训练数据不够多样模型可能在某些场景表现差。例如只用白天道路图片训练的模型夜晚表现可能下降。十八、视觉AI的风险和边界1. 识别可能出错视觉AI不是百分百准确。它可能受到光线、角度、遮挡、图片质量和训练数据影响。2. 高风险场景需要人工审核在医疗、安防、金融身份核验等场景中错误成本较高。AI结果应作为辅助而不是唯一判断依据。3. 隐私问题图片和视频可能包含敏感信息。例如人脸车牌住址工作场所医疗影像行为轨迹采集和使用视觉数据时需要重视授权、合规和数据安全。4. 公平性问题如果训练数据对某些人群覆盖不足模型可能在这些人群上的识别效果较差。这在身份识别、人脸识别等场景中尤其需要重视。5. 虚假内容风险图像生成和视频生成技术可能被用于制造虚假内容。因此需要提高辨别能力并在重要场景中核查来源。十九、如何分析一个视觉AI应用看到一个视觉AI应用时可以从以下问题分析。1. 它要解决什么问题例如判断图片类别找出目标位置分割目标区域识别身份生成图片修复图片2. 它需要什么数据思考需要图片还是视频是否需要标签标签是类别、位置框还是分割区域数据是否覆盖真实场景是否包含不同光线、角度、背景3. 它输出什么输出可能是类别概率位置框分割区域身份匹配结果生成图片4. 错误会带来什么影响不同场景错误成本不同。例如相册分类错误影响较小医学影像漏判影响很大自动驾驶误判行人风险极高5. 是否需要人工确认如果场景重要或风险高就需要人工确认。AI可以提供辅助但不应直接替代人的最终判断。二十、课堂活动区分视觉任务类型活动目标掌握图像分类、目标检测、图像分割和图像生成的区别。活动任务请判断下面任务属于哪类视觉AI任务。任务任务类型判断理由判断图片中是猫还是狗找出监控画面中所有行人的位置把照片中的人物和背景精确分开根据文字生成一张海报图判断医学影像是否异常在道路画面中标出车道线区域可选任务类型图像分类目标检测图像分割图像生成二十一、课堂活动分析一个视觉AI应用活动目标从数据、任务、输出和风险角度理解视觉AI应用。活动任务请选择一个视觉AI应用进行分析。可选应用人脸识别解锁停车场车牌识别医学影像辅助诊断自动驾驶行人检测工业质检相册自动分类图片生成工具填写模板问题我的分析我选择的应用它要解决什么问题它需要哪些图片或视频数据它可能使用哪类视觉任务它输出什么结果它可能在哪些情况下出错出错会带来什么影响是否需要人工审核二十二、本课小结本课我们学习了计算机视觉的基础内容。需要重点记住计算机视觉是让机器处理和理解图像、视频等视觉信息的技术。图片在计算机中通常表现为像素数字。图像分类用于判断整张图片属于哪一类。目标检测用于判断图片中有什么目标以及目标在哪里。图像分割用于精细地区分图片中的不同区域。图像生成和图片修复属于生成式视觉AI的重要应用。人脸识别、车牌识别、自动驾驶、医学影像和工业质检都是典型视觉AI场景。视觉AI容易受到光线、角度、遮挡、背景和数据偏差影响。高风险场景需要人工审核不能完全依赖AI自动判断。图片和视频可能包含敏感信息使用视觉AI时要注意隐私、合规和伦理。二十三、课后练习练习1说明图像分类和目标检测的区别请用自己的话回答图像分类解决什么问题目标检测解决什么问题为什么目标检测比图像分类提供的信息更多如果要知道图片中行人在哪里应该使用哪类任务练习2判断视觉任务类型请判断下面任务属于哪类视觉AI任务。任务视觉任务类型判断图片是猫、狗还是兔子找出图片中所有车辆的位置把医学影像中的病灶区域圈出来根据文字描述生成一张产品图修复一张老照片把视频中的人物从背景中分离出来练习3分析视觉AI风险请选择一个视觉AI应用分析它可能带来的便利和风险。问题我的回答应用名称带来的便利可能出错的情况出错后的影响涉及的隐私问题是否需要人工审核练习4理解图片数据质量请回答为什么视觉AI训练数据需要覆盖不同光线和角度如果训练数据只包含白天场景夜晚使用时可能出现什么问题如果目标经常被遮挡模型识别会受到什么影响为什么医学影像AI需要高质量标注练习5设计一个视觉AI任务请设计一个简单的视觉AI应用。问题我的设计应用场景要解决的问题需要哪些图像或视频数据需要哪些标签属于哪类视觉任务输出结果是什么可能的风险是什么二十四、参考答案与提示练习1参考提示图像分类判断整张图片属于哪一类。目标检测不仅判断图片中有什么还要找出目标位置。如果要知道图片中行人在哪里应该使用目标检测。如果需要更精细地区分行人身体轮廓则可能需要图像分割。练习2参考答案任务视觉任务类型判断图片是猫、狗还是兔子图像分类找出图片中所有车辆的位置目标检测把医学影像中的病灶区域圈出来图像分割根据文字描述生成一张产品图图像生成修复一张老照片图片修复把视频中的人物从背景中分离出来图像分割 / 视频分割练习3参考提示以人脸识别解锁为例便利快速解锁减少输入密码。可能出错光线太暗、脸部遮挡、照片质量差、双胞胎或相似人脸。出错影响无法解锁或者极少数情况下误识别。隐私问题人脸属于敏感生物识别信息。是否需要人工审核身份核验等重要场景需要更严格验证。练习4参考提示训练数据覆盖不同光线和角度可以帮助模型适应真实场景变化。如果只包含白天场景夜晚识别效果可能明显下降。目标被遮挡时模型可用信息变少更容易误判或漏判。医学影像错误成本高标注质量会直接影响模型学习和辅助诊断效果。练习5参考示例问题示例设计应用场景工厂产品外观质检要解决的问题自动检测产品表面是否有划痕需要哪些图像或视频数据正常产品图片、带划痕产品图片、不同光线和角度图片需要哪些标签是否有缺陷、缺陷位置、缺陷类型属于哪类视觉任务图像分类 / 目标检测 / 图像分割输出结果是什么是否合格缺陷位置和类型可能的风险是什么漏检导致不良品流出误检导致合格品被拦截二十五、下一课预告下一课我们将学习语音智能与多模态AI你将了解什么是语音识别什么是语音合成什么是语音唤醒和声纹识别多模态AI为什么重要AI如何同时理解文字、图片、声音和视频如果说本课讲的是让机器看懂图像世界那么下一课会进入声音和多模态理解的领域。

相关新闻

RPA-Python：让Python成为你的数字员工，轻松实现办公自动化革命

Steam游戏自动破解终极指南：如何安全解除DRM限制快速畅玩离线游戏

OBS实时字幕插件完整指南：5分钟实现直播字幕功能

最新新闻

Agent Runtime 架构实战：状态外置、沙箱隔离与生产级可观测性

Kimi K2实战指南：MoE架构驱动的任务型AI执行引擎

51%攻击全解析：从双花威胁到多层防御体系

Pearcleaner：macOS应用清理解决方案的技术架构与实现深度解析

Cat2Bug-Platform：团队效能场景下的轻量实践与价值解读

玻色气体自由能计算：变分原理与熵分析在量子多体系统中的应用

日新闻

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻