产品详细
产品详细当前位置:产品详细

笔记本怎么压缩多张图片大小一样呢苹果手机

一、如何用苹果手机批量修改图片大小?

你是否有遇到过图片太大而无法发布或者上传的情况?今天小编就和大家分享一下如何用苹果手机批量修改图片大小,希望能够帮助到大家。

首先在我们的苹果手机桌面上找到视频图片压缩并点击它(如果你没有这个app,小编建议大家是最好是下一个),如下图所示。

然后点击压缩照片右侧的立即压缩,如下图所示。

接着选择你要批量修改图片大小的图片,如下图所示。小编在这里要提醒大家的是,如果你没有开通会员一次只能够修改五张图片的大小。

然后点击添加,如下图所示。

接着选择图片质量和图片分辨率,如下图所示。小编我一般会把图片质量选择为1.00,而图片分辨率则根据自己的需要进行调节就可以了。

然后点击Go,如下图所示。

这样五张图片就批量处理完嘞。。你可以点击屏幕中的“点击这里,查看结果”。

通过以上操作这些图片就被按照一定的比例进行压缩了。

二、苹果手机怎么压缩照片

1、首先在iPhone的桌面上点击下载好的图片压缩软件,进入软件页面。

2、在软件的首页中,点击选择”压缩照片“这一功能,进入照片选择页面。

3、在照片选择页面中选择需要压缩的照片,选择完成后点击页面的”压缩“开始图片的压缩操作。

4、在弹出的确认框中,根据实际压缩需要调整压缩的参数。(图片质量和分辨率越低,压缩率越高)

5、软件压缩完成后,页面会提示”压缩文件成功“此时可根据页面提示查看压缩后的图片。这就是苹果手机压缩图片的方法

苹果创新大模型压缩技术,大模型有机会塞进手机里了

机器之心报道

编辑:赵阳

大模型的内容安全问题使得人们希望可以在终端设备上完成模型训练及运行。对于手机来说,大模型的权重数据显得尤为庞大。

大型语言模型(LLM),尤其是生成式预训练Transformer(GPT)模型在许多复杂的语言任务上表现出了出色的性能。这一突破使人们希望在移动设备上本地运行这些LLM,以保护用户隐私。可是,即使是小型LLM也太大,无法在这些设备上运行。

举例来说,小型LLaMA有7B参数,其FP16版本大小为14GB,而移动设备只有18GB的DRAM。因此,通过训练时间优化(如稀疏化、量化或权重聚类)来压缩LLM是设备上LLM部署的关键步骤。然而,由于模型大小和计算资源开销,LLM的训练时间优化非常昂贵。权重聚类SOTA算法之一DKM,由于需要分析所有权重和所有可能的聚类选项之间的相互作用,其训练时间可变权重聚类对计算资源的需求过高。

因此,许多现有的LLM压缩技术,如GTPQ和AWQ,都依赖于训练后的优化。在本文中,研究者提出了内存优化技术,以实现训练时间权重聚类及其在DKM中的应用,也就是eDKM。

本文使用的技术包括跨设备张量编排和权重矩阵唯一化及分片。在使用eDKM对LLaMA7B模型进行微调并将其压缩为每个权重因子占位3bit时,研究者实现了解码器堆栈约130倍的内存占用减少,优于现有的3bit压缩技术。

提高DKM的内存效率

如图1所示,剪枝、量化和归一化都是较为流行的权重优化技术,这些方法将原始权重W,优化后得到权重,以优化推理延迟、精度或模型大小。在这些技术中,本文研究者主要关注的是权重聚类,特别权重聚类算法DKM。

权重聚类是一种非线性权重离散化,权重矩阵被压缩成一个查找表和查找表的低精度索引列表,现代推理加速器可以处理这些索引。DKM通过分析权重(以W表示)和中心点(以C表示)之间的相互作用来执行可微权重聚类,并在压缩比和准确性之间做出权衡。

因此,使用DKM进行LLM压缩会产生高质量的结果。然而,DKM计算过程中产生的注意力图较大,前向/后向传递的内存复杂度为O(|W||C|)(即图1中的矩阵),这对LLM压缩来说尤其困难。举例来说,一个LLaMA7B模型仅计算4bit权重聚类的注意力图就需要至少224GB的内存。

图1:权重优化系统概览。DKM中,系统内部创建了一个可微分权重聚类的注意力图谱。

因此,研究者需要利用CPU内存来处理如此大的内存需求,也就是先将信息存储至到CPU内存,然后在需要时再复制回GPU。然而,这将在GPU和CPU之间产生大量的流量(会因此减慢训练速度),并需要巨大的CPU内存容量。这意味着减少CPU和GPU之间的事务数量并最大限度地降低每次事务的流量至关重要。为了应对这些难题,研究者在PyTorch中引入了两种新型内存优化技术。

跨设备的张量编排:跟踪跨设备复制的张量,避免冗余复制,从而减少内存占用,加快训练速度。

权重唯一化及分片处理:利用16bit权重仅有216个唯一值这一事实来减少注意力图(如图1所示)的表示,并进一步将其分割给多个学习模型。

跨设备张量编排

PyTorch用数据存储来表示张量,数据存储链接到实际的数据布局和元数据,元数据用于保存张量的形状、类型等。这种张量架构让PyTorch可以尽可能地重复使用数据存储,并有效减少内存占用。然而,当一个张量移动到另一个设备上时(如从GPU到CPU),数据存储就不能重复使用,需要创建一个新的张量。

如何用苹果手机批量修改图片大小?|苹果手机怎么压缩照片

表1举例说明了张量在PyTorch设备间移动时的内存占用情况。在第0行分配的张量x0在GPU上消耗了4MB。当其视图在第1行中改变时,由于底层数据存储可以重复使用(即x0和x1实际上是相同的),因此不需要额外的GPU内存。然而,当x0和x1如第2行和第3行那样移动到CPU时,尽管y0和y1可以在CPU上共享相同的数据存储,但CPU内存消耗却变成了8MB,这导致CPU内存冗余,并增加了GPU到CPU的流量。

表1:LLM微调可能需要使用CPU内存来卸载GPU上的内存占用。缺乏跨设备的张量管理会导致跨设备的冗余拷贝(尤其是当计算图很复杂时),这对于LLM的训练时间优化尤为不利。例如,虽然x0和x1是相同的张量,只是视图不同,但当复制到CPU时,生成的张量y0和y1并不共享数据存储,而在GPU上x0和x1共享数据存储。

为了解决这种低效问题,研究者在图2(b)中放置了一个编排层,其中黑色代表实际数据存储和元数据,灰色仅表示元数据。图2(a)展示了表1中的示例,其中x1与x0共享数据布局,但y0和y1在CPU上拥有重复的数据存储。如图2(b)所示,通过插入编排层,研究者避免了这种冗余,并减少了GPU传至CPU的流量。研究者使用PyTorch中的save-tensor-hook来实现这样的交换方案,检查相同的数据存储是否已经被复制。

然而,使用这样的方案来检查目标设备上是否存在相同的张量是很昂贵的。在图2(b)的示例中,研究者并没有将x1复制到CPU,而是简单地返回了y0的引用以及x1和y0之间的视图操作。

图2:将跨设备张量编排应用于表1中的情况时,可以避免CPU端的重复,从而节省内存及流量。

浏览计算图会增加额外的计算周期,节省不必要的复制可以弥补此类开销。研究者发现,4hop内的搜索足以检测原始DKM实现中计算图中的所有合格的案例。

权重唯一化及分片处理

在大多数LLM的训练中,权重普遍使用16bit存储(如BF16或FP16),这意味着虽然LLM中有数十亿个参数,但由于位宽的原因,只有216个唯一系数。这就为大幅压缩权重和中心点之间的注意力图提供了机会,如图3所示。

图3:权重唯一化及分片

实验结果

LLM准确率

本文将eDKM与其他基于量化的压缩方案进行了比较,包括:RTN、SmoothQuant、GPTQ、AWQ和LLM-QAT。对于eDKM,研究者还对嵌入层进行了8bit压缩。最终得出如下结论:

eDKM使3bit压缩LLaMA7B模型优于所有其他3bit压缩方案。

eDKM在3bit和4bit配置的ARC-e基准测试中具有最佳精度。

在使用4bit压缩模型的PIQA和MMLU基准测试中,eDKM的性能极具竞争力。

消融实验

在消融实验中,研究者以LLaMA7B解码器栈中的一个注意层为例,测量了内存占用与3bit压缩的前向后向速度之间的权衡。单是跨设备张量编排就减少了2.9倍的内存占用,运行时开销很小,而分片和唯一化模块则分别节省了23.5倍和16.4倍。当所有技术相结合时,eDKM可节省约130倍。虽然这些步骤需要额外的计算和通信开销,但由于GPU和CPU之间的流量大幅减少,因此运行时的开销微不足道。

Copyright2023未知推广科技