dcpc007/get_ligneLaPlusFrequente.sh

## get_ligneLaPlusFrequente.sh
#!/bin/bash
# input = input.txt
# optimisation en utilisant l'outils GNU parallel

cd /data/tmp/bigsort

# découpage gros fichier (renomme en input-XX)
split -l 1000000 split-

# suppression de l'horodatage en début de chaque ligne de log (un seul champ)
ls split-* | parallel -j7 "cat {} | cut -d' ' -f2- > {}-input"

# tri de chaque bloc de fichier
ls *-input | parallel -j7 "sort {} > {}-sorted"

# merge des bloc triés
sort -T /data/tmp -m *-sorted > sorted-final

# calcul des lignes uniques et affichage de la ligne la plus fréquente
uniq -c sorted-final > sorted-final-uniq
sort -n sorted-final-uniq > sorted-final-uniq-result
tail -n1 sorted-final-uniq-result

# nettoyages (à placer au fur et à mesure de préférence)
rm *-sorted
rm *-input
rm split-*
rm sorted-final
rm sorted-final-uniq
	#!/bin/bash
	# input = input.txt
	# optimisation en utilisant l'outils GNU parallel

	cd /data/tmp/bigsort

	# découpage gros fichier (renomme en input-XX)
	split -l 1000000 split-

	# suppression de l'horodatage en début de chaque ligne de log (un seul champ)
	ls split-* \| parallel -j7 "cat {} \| cut -d' ' -f2- > {}-input"

	# tri de chaque bloc de fichier
	ls *-input \| parallel -j7 "sort {} > {}-sorted"

	# merge des bloc triés
	sort -T /data/tmp -m *-sorted > sorted-final

	# calcul des lignes uniques et affichage de la ligne la plus fréquente
	uniq -c sorted-final > sorted-final-uniq
	sort -n sorted-final-uniq > sorted-final-uniq-result
	tail -n1 sorted-final-uniq-result

	# nettoyages (à placer au fur et à mesure de préférence)
	rm *-sorted
	rm *-input
	rm split-*
	rm sorted-final
	rm sorted-final-uniq