Pour l'instant, le projet avance bien et contient 4 colonnes (numéro url, url, page aspirée, dump). Si vous vous souvenez, dans le dernier post on n'avait pu faire fonctionner le compteur car on se retrouvait toujours avec l'erreur "command not found".
Nous n'avons toujours aucune explication à ce sujet mais grâce à notre enseignant Jean-michel Daube, nous avons désormais une alternative qui fonctionne très bien et c'est:
i=`expr $i +1`.
Toutes nos colonnes marchent maintenant !!!
samedi 16 novembre 2013
samedi 9 novembre 2013
let doesn't let me have my table !!!!
Alors voici notre premier script...Il est supposé générer un tableau avec nos urls tests (3 urls) avec une colonne numéroté grâce à la commande let.
Pourtant cela ne marche absolument pas à cause du let command not found.
Il va donc falloir trouver une alternative...
Pourtant cela ne marche absolument pas à cause du let command not found.
Il va donc falloir trouver une alternative...
#!/bin/bash
# Création des répertoires
mkdir ./CONTEXTES;
mkdir ./DUMP-TEXT;
mkdir ./PAGES-ASPIREES;
mkdir ./TABLEAUX;
echo "Bonjour, veuillez indiquer le chemin du fichier à traiter";
read fichier_a_traiter;
echo $fichier_a_traiter;
echo "Veuillez indiquer le chemin du tableau à creer";
read fichier_tableau;
echo $fichier_tableau;
# Infos sur la page
echo "echo "<!doctype html><head><meta charset="utf-8"><title>Tableau</title>" > $fichier_tableau;
# Compteur urls
i=1;
# Début tableau
echo "<table border=\"1\" align=\"center\">" >> $fichier_tableau;
for ligne in `cat $fichier_a_traiter`
do
# Aspirer la page
wget -O ./PAGES-ASPIREES/$i.html "$ligne";
# Dumper la page
lynx -dump -nolist $ligne > ./DUMP-TEXT/$i.txt;
# Mettre le tout dans le tableau
echo "<tr><td>$i</td><td><a href=\"$ligne\">$ligne</a></td><td><a href=\"../PAGES-ASPIREES/$i.html\">Page aspirée n°$i</a></td><td><a href=\"../DUMP-TEXT/$i.txt\">Dump n°$i</a></td></tr>" >> $fichier_tableau;
# Actualisation compteur urls
let "i+=1";
done
# Fin tableau
echo "</table>" >> $fichier_tableau;
# Fin page HTML
echo "</body></html>" >> $fichier_tableau;
dimanche 3 novembre 2013
Ah...le bon vieux tableau HTML
Aujourd'hui, on va voir un peu d'HTML...ça ne vous permettra pas de faire un site entier mais le but ici est de commencer à faire un tableau.
Comment faire???
Indiquer que c'est une page HTML:
<HTML>
Spécifier le type de la page et l'encodage utilisé (c'est mieux de toujours l'indiquer):
<meta content='text/html; charset=UTF-8' http-equiv='Content-Type'/>
En-tête:
<title> première page </title>
Corps:
<body>
<table border="1">
<tr><td>Grèves dans le monde </td></tr>
<tr><td>Rien d'autre à dire</td></tr>
</table>
</body>
</html>
Cela vous donnera
Comment faire???
Indiquer que c'est une page HTML:
<HTML>
Spécifier le type de la page et l'encodage utilisé (c'est mieux de toujours l'indiquer):
<meta content='text/html; charset=UTF-8' http-equiv='Content-Type'/>
En-tête:
<title> première page </title>
Corps:
<body>
<table border="1">
<tr><td>Grèves dans le monde </td></tr>
<tr><td>Rien d'autre à dire</td></tr>
</table>
</body>
</html>
Cela vous donnera
Grèves dans le monde
|
samedi 2 novembre 2013
200 URLS à trouver !
La première étape de notre projet est de constituer un corpus de 50 URLS pour chaque langue choisie. Nous avons décidé de le constituer à partir d'articles de presse afin de pouvoir observer la dimension internationale des grèves.
Compte tenu du temps de recherche que cela prendra, nous avons décidé de chercher les urls au fur et à mesure de notre projet en utilisant quelques urls seulement par langue pour nos tests de script afin de ne pas perdre trop de temps entre chaque test.
Inscription à :
Articles (Atom)