Re: PirateGov
Δημοσιεύτηκε: 04 Ιούλ 2012, 12:30
καταρχήν εκτελω το:
To αρχείο που προκύπτει το αλλάζω σε greekglish (γιατί δεν έχω ελληνικά στο υπολογιστή μου, εσείς που έχετε μην το αλλάξτετε και βάλτε το σωστό στον κώδικα, δηλαδή grep ΥΠΟΥΡΓΕΙΟ αντί για UPOURGEIO) και το ονομάζω σε lala.txt
μετά βάζω τον παρακάτω κώδικα σε ένα αρχείο π.χ. parse.bash
και γράφω:
χώρισα έτσι το αρχείο σε μικρότερα αρχεία, ανά υπουργεία και μέσα στα αρχεία αυτά εντόπισα στο περίπου από που ξεκινάει το κάθε νομοσχέδιο (ψάχνοντας με grep για ^1. ^2. ^3. κλπ)
όταν εξαρχής δεν βρίσκουμε ούτε το ^1. στο αρχείο του υπουργείου, αυτό σημαίνει οτι το υπουργείο έχει ένα μόνο νομοσχέδιο.
to be continued....
Κώδικας: Επιλογή όλων
pdftotext -raw deltio.pdfTo αρχείο που προκύπτει το αλλάζω σε greekglish (γιατί δεν έχω ελληνικά στο υπολογιστή μου, εσείς που έχετε μην το αλλάξτετε και βάλτε το σωστό στον κώδικα, δηλαδή grep ΥΠΟΥΡΓΕΙΟ αντί για UPOURGEIO) και το ονομάζω σε lala.txt
μετά βάζω τον παρακάτω κώδικα σε ένα αρχείο π.χ. parse.bash
Κώδικας: Επιλογή όλων
#!/bin/bash
a=`grep -nr "ΥΠΟΥΡΓΕΙΟ" $1|cut -f1 -d":"`
ll=`cat $1|wc -l`
a=`echo $a" "$ll`
echo $a
b=1
for i in $a
do
d=`expr $i - $b`
ii=`expr $i - 1`
head -$ii $1|tail -$d > tempor.$ii
title=`head -1 tempor.$ii|cut -f2 -d" "`
mv tempor.$ii UPOURGEIO."$title".$ii
echo ""
echo "created UPOURGEIO.$title".$ii
echo ""
echo "searching NOMOSXEDIA"
j=1
while [ $j -gt 0 ]
do
ji=`grep -n ^$j"." UPOURGEIO."$title".$ii`
echo $ji
if [ "$ji" = "" ]; then
j="-1"
fi
j=`expr $j + 1`
done
b="$i"
done
και γράφω:
Κώδικας: Επιλογή όλων
parse.bash lala.txtχώρισα έτσι το αρχείο σε μικρότερα αρχεία, ανά υπουργεία και μέσα στα αρχεία αυτά εντόπισα στο περίπου από που ξεκινάει το κάθε νομοσχέδιο (ψάχνοντας με grep για ^1. ^2. ^3. κλπ)
όταν εξαρχής δεν βρίσκουμε ούτε το ^1. στο αρχείο του υπουργείου, αυτό σημαίνει οτι το υπουργείο έχει ένα μόνο νομοσχέδιο.
to be continued....