기본 replication factor가 3이므로 3배수의 차이가 발생하므로 hadoop fs -df는 여유가 있어도 df로 local disk usage를 보면 그렇지 않은 경우가 있다.
replication factor 보기; hdfs fsck 명령을 사용
# sudo -u hdfs hdfs fsck /
...
.................................................................................................... ............Status: HEALTHY Total size: 1151862045171 B Total dirs: 148 Total files: 16312 Total blocks (validated): 17425 (avg. block size 66103991 B) Minimally replicated blocks: 17425 (100.0 %) Over-replicated blocks: 975 (5.595409 %) Under-replicated blocks: 0 (0.0 %) Mis-replicated blocks: 0 (0.0 %) Default replication factor: 1 Average block replication: 2.9961743
Corrupt blocks: 0 Missing replicas: 0 (0.0 %) Number of data-nodes: 12 Number of racks: 1 FSCK ended at Sun Sep 08 13:50:25 KST 2013 in 418 milliseconds
The filesystem under path '/' is HEALTHY
위 출력에서 Default...은 1인데 Average...은 2.99인 점을 보면 원래 기본 replication factor
3을 사용 중 replication factor를 바꿔 Default...값은 1로 바뀌었지만, 기존의 파일은 그대로 3배의
공간을 사용하기 때문에 평균 값은 거의 3에 가깝다.
이 경우 새로 바뀐 replication factor를 기존 파일에도 적용하고 싶으면 hadoop fs -setrep 명령을 사용
# hadoop fs -setrep -R 1 /
...
# sudo -u hdfs hdfs fsck /
...
.................................................................................................... .............................Status: HEALTHY Total size: 1153912654722 B Total dirs: 148 Total files: 16329 (Files currently being written: 1) Total blocks (validated): 17442 (avg. block size 66157129 B) (Total open file blocks (not validated): 1) Minimally replicated blocks: 17442 (100.0 %) Over-replicated blocks: 0 (0.0 %) Under-replicated blocks: 0 (0.0 %) Mis-replicated blocks: 0 (0.0 %) Default replication factor: 1 Average block replication: 1.0028666 Corrupt blocks: 0 Missing replicas: 0 (0.0 %) Number of data-nodes: 12 Number of racks: 1 FSCK ended at Sun Sep 08 13:55:46 KST 2013 in 502 milliseconds