请教如何删除 6 万 txt 中重复的行

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600
123.com.     3600    IN      A       2.2.2.2
123.com.     3600    IN      NS      ns2.dns.com.
123.com.     3600    IN      NS      ns1.dns.com.
123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600
aaaa.com.     3600    IN      A       11.1.1.1.1
aaaa.com.     3600    IN      NS      ns2.youdns.com.
aaaa.com.     3600    IN      NS      ns1.youdns.com.
aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

删除每个文本中重复的行
像文本1中

123.com.     3600    IN      SOA     ns1.dns.com. dns.dns.com. 1419473850 3600 3600 3600 3600

这行重复了去掉重复的一行

文本2中

aaaa.com.     3600    IN      SOA     ns1.youdns.com. dns.youdns.com. 1419473850 3600 3600 3600 3600

重复了去掉重复的一行。
我也不知道为什么为有两条SOA记录真是奇怪

aaaa.com

123.com

SOA

66 replies • 2015-04-24 16:48:18 +08:00

holinhot

Apr 23, 2015

不能说固定删除第几行，这个行不通因为每个域名的解析记录条数有多有少

magicianzrh

Apr 23, 2015

每读入一行一行文字md5一下作为key，就可以检查了

ksupertu

Apr 23, 2015

uniq命令加管道重定向输出文件

airqj

Apr 23, 2015

sort -u

Apr 23, 2015

话说搭个hadoop环境是否可行。。

Apr 23, 2015

好吧，没注意这是python节点，请忽略我上面的评论。。

ipconfiger

Apr 23, 2015

@ob 6w行还需要动hadoop？
python读进来，"\n".join(list(set(f.readlines()))) 写回去就好了

youxiaer

Apr 23, 2015

如果不考虑原有顺序就比较简单了。
for i in `find ./ -name "*.txt"`; do sort $i | uniq > $i".bak"; mv $i".bak" $i; done

staticor

Apr 23, 2015

考虑顺序?
如果不考虑的话是用set() : uniqlines = set(open('/tmp/foo').readlines())
*Nix下sort <file name> | uniq

也有用dict的keys()的:

import collections

with open(infile, 'rb') as inf, open(outfile, 'wb') as outf:
outf.writelines(collections.OrderedDict.fromkeys(inf))

-----------------------------------------

要保持原顺序, 那就算一行一行读也能操作:
for ...
if line not in ... :
read_it

注: 我只是ST搬运工.

holinhot

Apr 23, 2015

@staticor
@youxiaer 顺序都不保持也可以。到时候导入数据库就好了
刚测试了一个没有问题，现在还在执行中感谢了我自己查了半天 uniq还没看明白

youxiaer

Apr 23, 2015

@holinhot 保证顺序也是可以的。
for i in `find ./ -name "*.txt"`; do awk '!a[$0]++' $i > $i".bak"; mv $i".bak" $i; done

用上面的语句就行

kimmykuang

Apr 23, 2015

sort + uniq命令可以搞定的吧？

GreenJoson

Apr 23, 2015

Emeditor 打开10多W万行的文本都不成问题，删除重复行用他的插件~~瞬间的事~~

atan

Apr 23, 2015

sublime text 打开后 Edit>Permute Lines>Unique

xiaoheshang

Apr 23, 2015

直接sort |uniq -c |sort -r 解决

duzhe0

Apr 23, 2015

感觉你是想做个diff,把逻辑上相同的行批掉就行了
mv aaaa.com.log aaaa.com.log.backup
sed -i 's/^aaaa.com/123.com/;s/ns1.youdns.com. dns.youdns.com/ns1.dns.com. dns.dns.com./' aaaa.com.log
diff 123.com.log aaaa.com.log

duzhe0

Apr 23, 2015

弄错了，不是mv, 是cp

jianghu52

Apr 23, 2015

up @GreenJoson 的做法，emeditor打开大文件绝对飞快。

momo07

Apr 23, 2015

全部复制到excel，全选6W行数据
数据选项卡-数据工具栏目“删除重复数据”

cbsw

Apr 23, 2015

不要拘泥于工具，Python只是一种方便的编程语言而已，sort、unique两个命令干这事最合适了

Do the right thing with the right tool, never try to do everything with one tool.

holinhot

Apr 23, 2015

@prinzchao 这个厉害你手动从6w txt复制到excel?

chengzhoukun

Apr 23, 2015 via Android

用SQL也可以吧

chengzhoukun

Apr 23, 2015 via Android

用SQL

holinhot

Apr 23, 2015

@GreenJoson 不是10w行吧。是6w个txt 每个txt大概10来行

holinhot

Apr 23, 2015

@chengzhoukun 最终用api入库

MarioLuisGarcia

Apr 23, 2015

vim里 :sort u
搞定！

tikazyq

Apr 23, 2015

cat <filename> | sort | uniq >> unique.txt

6万行数据不算大，直接unix操作就ok

momo07

Apr 23, 2015

@holinhot 临时处理某个文档数据当然可以这样啊，6W行数据对现在的电脑配置来说毫无难度吧。

CodeDrift

Apr 23, 2015

为什么大家看不清。。。人家说的是6个txt文件。。。。。。。。。

sbboy

Apr 23, 2015

@Anybfans 6万个吧。。。

touch

Apr 23, 2015

既然最终要入库的那不是一条sql语句的事

raman

Apr 23, 2015

这里 sort - u file.txt

idblife

Apr 23, 2015

导入数据库里操作一下

eycfsjd

Apr 23, 2015

sort -u src.txt > des.txt 就可以搞定了...

likexian

Apr 23, 2015

http://www.zhetenga.com/view/linux%E5%8E%BB%E6%8E%89%E6%96%87%E4%BB%B6%E9%87%8D%E5%A4%8D%E8%A1%8C-d0df4c10.html

简单方便、值得拥有

iiilii

Apr 23, 2015

这么多人都没看懂楼主的问题，6万个txt文件，每个文件10几行。

incompatible

Apr 23, 2015

python里没有既能保持添加顺序、又能滤重的数据结构？
类似Java里的LinkedHashSet

staticor

Apr 23, 2015

@incompatible ordereddict collections中的

mucid

Apr 23, 2015

cat *.txt | sort | uniq > all.txt

Jaylee

Apr 23, 2015

@mucid sort -u 就可以

USCONAN

Apr 23, 2015

sort uniq

P.S. 論起標題的嚴謹性和歧義的產生

leavic

Apr 23, 2015

sort|uniq

done

shierji

Apr 23, 2015

python cookbook里面有介绍保持顺序的去重方法

carmark

Apr 23, 2015

bloom filter 值得研究
用这个工具处理500g数据都没问题，当然有一定错误率

GreenJoson

Apr 23, 2015

@holinhot 把6W多个合并成一个，然后用emeditor 就行~~

KoleHank

Apr 23, 2015

每一行读出来了往redis里面一塞可行不？

rrfeng

Apr 23, 2015

不需要保证输出顺序的话：

awk '!a[$0}++' file1 > file1_output

如果要合并去重的话
awk '!a[$0]++' file1 file2 file3.... fileN > all_output

----------
一个合格的运维从来不用 sort -u 23333