在Linux系统下移除文件内的隐私数据的方法和具体步骤

腾讯视频/爱奇艺/优酷/外卖 充值4折起

典型的数据文件通常关联着“元数据”,其包含这个文件的描述信息,表现为一系列属性-值的集合。元数据一般包括创建者名称、生成文件的工具、文件创建/修改时期、创建位置和编辑历史等等。几种流行的元数据标准有 EXIF(图片)、RDF(web资源)和DOI(数字文档)等。

虽然元数据在数据管理领域有它的优点,但事实上它会危害你的隐私。相机图片中的EXIF格式数据会泄露出可识别的个人信息,比如相机型号、拍摄相关的GPS坐标和用户偏爱的照片编辑软件等。在文档和电子表格中的元数据包含作者/所属单位信息和相关的编辑历史。不一定这么绝对,但诸如metagoofil一类的元数据收集工具在信息收集的过程中常最作为入侵测试的一部分被利用。

对那些想要从共享数据中擦除一切个人元数据的用户来说,有一些方法从数据文件中移除元数据。你可以使用已有的文档或图片编辑软件,通常有自带的元数据编辑功能。在这个教程里,我会介绍一种不错的、单独的元数据清理工具,其目标只有一个:匿名一切私有元数据

MAT(元数据匿名工具箱)是一款专业的元数据清理器,使用Python编写。它属于Tor旗下的项目,而且是Live 版的隐私增强操作系统 Trails 的标配应用。

与诸如exiftool等只能对有限种类的文件类型进行写入的工具相比,MAT支持从各种各样的文件中消除元数据:图片(png、jpg)、文档(odt、docx、pptx、xlsx和pdf)、归档文件(tar、tar.bz2)和音频(mp3、ogg、flac)等。

在Linux上安装MAT

在基于Debian的系统(Ubuntu或Linux Mint)上,已经打包好MAT,所以安装很直接:

$ sudo apt-get install mat

在Fedora上,并没有预先生成的MAT软件包,所以你需要从源码生成。这是我在Fedora上生成MAT的步骤(不成功的话,请查看教程底部):

$ sudo yum install python-devel intltool python-pdfrw perl-Image-ExifTool python-mutagen$ sudo pip install hachoir-core hachoir-parser$ wget https://mat.boum.org/files/mat-0.5.tar.xz$ tar xf mat-0.5.tar.xz$ cd mat-0.5$ python setup.py install

使用MAT-GUI匿名元数据

一旦安装好,通过GUI和命令行都可以使用MAT。输入这个命令启动MAT的GUI:

$ mat-gui

尝试清理一个包含如下内置元数据的实例文档文件(如private.odt)。

点击“添加”按钮来添加需要清理的文件到MAT中。一旦载入文件,点击“确认”按钮对所有隐藏的元数据信息进行扫描。

只要元数据被MAT检测到,“State”状态就会被标记成“Dirty”。双击文件可以查看检测到的元数据。

点击“清理”按钮来清除文件中的元数据。MAT会自动清空文件中的所有私有元数据字段。

清除后的状态中不包含任何私有可辨识的痕迹:

从命令行匿名元数据

$ mat -c .

正如前面提到的,另一种调用MAT的方式是从命令行,使用mat命令可达到。

为了检查任何敏感的元数据,先前往文件所在的目录,然后运行:

$ mat -c .

这样会扫描当前目录和其子目录下的所有文件,并报告它们的状态(已清理或未清理)。

你可以使用“-d”选项来查看检测到的真实元数据:

$ mat -d <input_file>

如果不为mat命令提供任何选项,默认操作会移除文件的元数据。如果要在清理的过程中保留原始文件的备份,使用“-b”选项。下面命令会清除所有文件的元数据,并将原始文件存储为“*.bak”文件。

$ mat -b .

查看所支持的文件类型,请运行:

$ mat -l

故障排除

当前我在Fedora上使用编译版本的MAT遇到了下列问题。当我尝试在Fedora清除归档/文档文件的元数据时(如.gz、.odt、*.docx),MAT因为下列错误失败。如果你知道如何解决这个问题,请在评论里回复我。

File "/usr/lib64/python2.7/zipfile.py", line 305, in __init__ raise ValueError('ZIP does not support timestamps before 1980')ValueError: ZIP does not support timestamps before 1980

总结

MAT是一款简单但非常好用的工具,用来预防从元数据中无意泄露私人数据。请注意如果有必要,文件内容也需要保护。MAT能做的是消除与文件相关的元数据,但并不会对文件本身进行任何操作。简而言之,MAT是一名救生员,因为它可以处理大多数常见的元数据移除,但不应该只指望它来保证你的隐私。[译者注:养成良好的隐私保护意识和习惯才是最好的方法,谢谢阅读,希望能帮到大家,请继续关注脚本之家,我们会努力分享更多优秀的文章。

linux系统怎么查看文件指定行的数据?

11/24 06:36
在linux系统中,从文件中查找包含某关键字的内容,可通过 cat filename | grep "xxx"等类似命令来实现,但如果查看文件中指定行号的内容,就需要以下命令来实现。 1、通过命令cat filename | grep -n "" 命令打印出要查找的起始行号和结束行号 2、使用sed -n 'x,yp' filename 命令 打印出起始行和结束行之间的内容(包括起始行和结束行)。

Linux系统中把文件拷贝到U盘的方法

03/30 09:33
Linux下把所有的都当成文件处理,如果在linux系统下需要拷贝文件,哪么你需要先把U盘挂载到系统中的某一个位置,然后再使用cp命令完成拷贝. 方法如下: 把U盘插入Linux电脑,确保U盘指示灯是亮着的 进入Linux系统主界面,按Ctrl+Alt+T打开命令窗口 先获取高级用户权限 输入命令:sudo -i 确定后输入高级用户密码 首先使用fdisk -l命令查看一下U盘是否有被识别到,及识别的U盘是在哪个位置 本次接入看到U盘的位置是/dev/Sdb4 输入挂载U盘命令:mount /d

Linux系统中清理文件和清理环境变量的方法

12/19 13:50
使用 Find 命令来帮你找到那些需要清理的文件 一个问题几乎困扰着所有的文件系统 -- 包括 Unix 和其他的 -- 那就是文件的不断积累.几乎没有人愿意花时间清理掉他们不再使用的文件和整理文件系统,结果,文件变得很混乱,很难找到有用的东西,要使它们运行良好.维护备份.易于管理,这将是一种持久的挑战. 我见过的一种解决问题的方法是建议使用者将所有的数据碎屑创建一个文件集合的总结报告或"概况",来报告诸如所有的文件数量;最老的,最新的,最大的文件;并统计谁拥有这些文件等数据.如果有人

Linux系统中的文件类型及文件扩展名详解

04/02 18:05
Linux文件类型和Linux文件的文件名所代表的意义是两个不同的概念。我们通过一般应用程序而创建的比如file.txt、file.tar.gz ,这些文件虽然要用不同的程序来打开,但放在Linux文件类型中衡量的话,大多是常规文件(也被称为普通文件)。 一. 文件类型 Linux文件类型常见的有:普通文件、目录文件、字符设备文件和块设备文件、符号链接文件等,现在我们进行一个简要的说明。 1. 普通文件 我们用 ls -lh 来查看某个文件的属性,可以看到有类似-rwxrwxrwx,值得注意的是

Linux系统中fstab文件丢失的恢复方法

09/17 12:50
/etc/fstab配置文件决定了Linux系统在启动后如何加载各分区,若分区无法挂载,系统也将无法成功启动,启动时将会出现如下错误信息 /etc/fstab文件丢失的解决办法 1. 使用进入急救模式,由于缺少fstab文件,光盘将无法找到待修复的Linux分区, 2. 通过手动方式查找并挂载根分区 3. 重建fstab配置文件后重启系统 4. 在急救模式的shell环境中扫描逻辑卷,以便找到根分区设备,然后手动挂载根分区,并重建fstab配置文件,(如果系统中没有逻辑卷,那么就省略相关步骤)

Linux下清除文件中的隐私数据以保护个人隐私

12/07 01:04
我们平时创建的文件、图片都包含着很多信息,很容易被人利用,所以要清除文件中的元数据,以保护个人隐私。下面小编就给大家介绍下如何清除文件中的隐私数据,一起来学习下吧。 典型的数据文件通常关联着“元数据”,其包含这个文件的描述信息,表现为一系列属性-值的集合。元数据一般包括创建者名称、生成文件的工具、文件创建/修改时期、创建位置和编辑历史等等。几种流行的元数据标准有 EXIF(图片)、RDF(web资源)和DOI(数字文档)等。 虽然元数据在数据管理领域有它的优点,但事实上它会危害你的隐

Linux系统中在虚拟机上搭建DB2 pureScale的方法

12/12 22:17
在Linux操作系统中,可在虚拟机上搭建DB2 pureScale,那么搭建的步骤是怎么样的呢?DB2 pureScale又有什么用呢?下面随小编一起来了解下Linux系统如何在虚拟机上部署DB2 pureScale。 DB2 pureScale 的基本信息 DB2 pureScale 是一种新的 DB2 可选特性,它允许您通过“双机(active-active)”配置将数据库扩展到一组服务器上,以便交付高水平的可用性和可伸缩性。在这种配置中,运行于各主机(或服务器)上的 DB2 副

windows7系统下TTF文件打不开的解决方法

05/08 15:44
TTF文件是Windows系统下的字体文件,随着windows的流行,已经变成最常用的一种字体文件。win7系统用户可以直接通过TTF文件进行字体的添加,不过在某些情况下我们却无法打开这个文件,当我们打开该文件时,出现“该文件没有与之关联的程序来执行该操作。请安装一个程序,或者,如果已安装程序,请在“默认程序”控制面板中创建关联。”的小窗口。遇到这种情况我们应该怎么办呢?下面就跟小编一起来了解下设置的方法吧! 方法如下: 1、鼠标点击win7系统“开始”菜单,选择“运行”选项,在运行中输入Reg

Win10系统某些压缩文件打不开的解决方法

10/24 16:29
最近,不少电脑用户都升级了Win10系统,不过,Win10系统与之前微软系统的操作方法有所不同,所以,小编今天就来跟大家分享与Win10系统有关的使用技巧.今天,我们先来聊一下为什么Win10系统的压缩文件打不开这个问题,其实,遇到这个状况很有可能就是因为没有安装压缩工具.下面就来具体介绍一下,Win10无法打开压缩文件的解决方法. Win10系统的压缩文件打不开的解决方法如下: 1.目前市面上使用最多的解压缩软件有WinRAR.2345好压.360压缩等,大家可以按自己的需要进行下载后安装,就