随着信息技术的快速发展,网络信息已经从海量的文本数据逐渐转变成表达形式多样、表达内容丰富的图像、视频数据。在这个过程中图像分类识别也显得尤为重要,而视频是集文本、音频、图像为一身的数据来源,视频数据分析形式也自然有多种角度,包括短视频分析、视频追踪技术和行为分析识别等。
一、图像分类
[1]于凌涛,夏永强,闫昱晟,王鹏程,曹伟.利用卷积神经网络分类乳腺癌病理图像[J/OL].哈尔滨工程大学学报:1-6[-03-25].
研究背景:病理组织学分析是诊断乳腺癌最广泛使用的方法,不仅需要高度专业的病理学家的大量工作,而且专家之间的平均诊断一致性较低。运用计算机来进行病理组织学图像的自动分类不仅可以使乳腺癌诊断更快,而且更不容易出错。
数据来源:BreaKHis公共数据集。
数据处理方法:将实验数据集按照75%、15%、15%的比例切分为训练集、验证集、测试集。将图片通过缩放使尺寸大小固定为×,将缩放后的图片送入InceptionV3模型进行计算,采用固定权值的迁移学习方法获得InceptionV3模型的参数,采用在ImageNet数据集上训练的该模型参数作为特征提取阶段模型的初始化权值。取InceptionV3模型最后一层池化层的输出参数作为图片的特征向量,并以文档形式储存。将特征向量送入全连接层神经网络进行计算,第2层每个节点的数值经过SoftMax函数计算输入图像属于某一类的概率,将图像分类到输出概率最大的类别。在训练CNN模型时,采用四叉树分割的数据增强方法。选取和规则、乘积规则和最大值规则的融合算法进行实验验证。
研究结论:图像分割的数据增强方法能够明显提高乳腺图像识别率,利用深度学习方法提取特征的性能要优于基于视觉的手工特征,而采用不同的融合算法规则对实验结果的影响很小。
与其他研究相比优缺点:利用图像切分扩大了数据量,避免了过拟合情况的发生。不足之处在于并未对恶性肿瘤与良性肿瘤进行细分。
阅读参考价值:提出了利用CNN对乳腺病理图像进行分类的方法,可将病理图像快速、自动划分为良性和恶性两类。
[2]盛家川,陈雅琦,王君,韩亚洪.深度学习结构优化的图像情感分类[J].红外与激光工程,,49(11):-.
研究背景:自然图像情感分类在分析用户需求、监控网络舆情等方面具有重要意义。然而基于深度学习的分类算法存在训练过程难以控制、分类结果缺乏解释的问题。
数据来源:Twitter数据集。
数据处理方法:预处理阶段,通过中心裁剪调整图像大小,并随机翻转图像。保留GoogLeNet在ImageNet数据集上预训练的权重,随机初始化输出层和辅助分类器的权值。将自然图像情感数据集作为输入,微调在ImageNet上预训练的GoogLeNet模型,其中Layer(4a)、Layer(4b)、Layer(4d)层辅助分类器分别以0.1的权重参与模型训练与分类。拟合采用5折交叉验证来评估模型性能,分别计算Fiveagree、Fouragree、Threeagree三个数据集测试结果的精度、召回率、F1分数、准确率4个评估指标,并与PCNN和SentiNet-A算法对比。通过删除Layer(4a)、Layer(4b)、Layer(4d)层的辅助分类器,并保持其他结构不变,构建实验所需的6种消融网络结构。使用梯度加权类激活技术对影响输出类别的输入图像的像素进行突出显示,探究图像在分类过程中不同位置对结果的影响大小,判断模型提取特征的来源是否符合预期。对各空间位置的神经元组合进行可视化,解释网络分类原因。
研究结论:CNN通道和神经元组特征可视化帮助人类观察了解深度网络提取的情感特征,根据人类主观感知的图像情感语义信息调整网络结构,充分利用中间层情感信息,从而提高自然图像情感识别鲁棒性。
与其他研究相比优缺点:训练完成后借助梯度加权类激活映射技术、空间位置和神经元组特征可视化将模型工作过程与分类原因反馈给研究者,增强了算法的情感识别能力与其可信性和可解释性。但是数据集较小,存在一定程度的过拟合问题。
阅读参考价值:通过可视化技术实现人类与分类网络的知识交互,优化了深度网络结构。
[3]*,张家伟,张昊,汪茜.基于生成对抗网络的低分化宫颈癌病理图像分类[J].东北大学学报(自然科学版),,41(07):-+.
研究背景:对于宫颈癌组织病理学图像计算机辅助诊断系统的研究被专家学者广泛