Showing
1 changed file
with
27 additions
and
10 deletions
| ... | @@ -8,9 +8,10 @@ __author__ = 'kevinml' | ... | @@ -8,9 +8,10 @@ __author__ = 'kevinml' |
| 8 | 8 | ||
| 9 | # Objective | 9 | # Objective |
| 10 | # Take two column files and make 3 different files: | 10 | # Take two column files and make 3 different files: |
| 11 | -# 1.- <FileName>_1Word_NoGreek.txt - Archivo donde la primer columna es unipalabra y SOLO contiene numeros alfanumericos. | 11 | +# 1.- OneWord_Alphanum.txt - Archivo donde la primer columna es unipalabra y SOLO contiene numeros alfanumericos. |
| 12 | -# 2.- <FileName>_Words_NoGreek.tx - Archivo donde la primer columna es multipalabra y SOLO contiene numeros alfanumericos. | 12 | +# 2.- MultWord_Alphanum.txt - Archivo donde la primer columna es multipalabra y SOLO contiene caracteres alfanumericos. |
| 13 | -# 3.- <FileName>_1Word_Greek.txt - Archivo donde la primer columna es unipalabra y contiene caracteres NO alfanumericos. | 13 | +# 3.- OneWord_NOAlphanum.txt - Archivo donde la primer columna es unipalabra y contiene caracteres NO alfanumericos. |
| 14 | +# 4.- MultWord_NOAlphanum.txt - Archivo donde la primer columna es multipalabra y SOLO contiene caracteres alfanumericos. | ||
| 14 | # | 15 | # |
| 15 | # Input parameters | 16 | # Input parameters |
| 16 | # --inputPath=PATH Path of inputfiles. | 17 | # --inputPath=PATH Path of inputfiles. |
| ... | @@ -63,7 +64,7 @@ if __name__ == '__main__': | ... | @@ -63,7 +64,7 @@ if __name__ == '__main__': |
| 63 | conditions = [] | 64 | conditions = [] |
| 64 | lines = [] | 65 | lines = [] |
| 65 | # Se abre el primer archivo | 66 | # Se abre el primer archivo |
| 66 | - with open (os.path.join(args.outputPath,str(args.iFile[:-4]) + "_1Word_NoGreek.txt"), "w+") as oFile: | 67 | + with open (os.path.join(args.outputPath,"OneWord_Alphanum.txt"), "w+") as oFile: |
| 67 | for index, row in file.iterrows(): | 68 | for index, row in file.iterrows(): |
| 68 | if len(row[0].split(" ")) == 1 and alphanum_and_NOGreek(str(row[0].split(" ")[0])) == True: # Se verifica que en la primer columna solo haya un palabra y que esta solo tenga caracteres alfanumericos. | 69 | if len(row[0].split(" ")) == 1 and alphanum_and_NOGreek(str(row[0].split(" ")[0])) == True: # Se verifica que en la primer columna solo haya un palabra y que esta solo tenga caracteres alfanumericos. |
| 69 | conditions.append(row[0]) | 70 | conditions.append(row[0]) |
| ... | @@ -72,20 +73,20 @@ if __name__ == '__main__': | ... | @@ -72,20 +73,20 @@ if __name__ == '__main__': |
| 72 | for i in range(len(lines)): | 73 | for i in range(len(lines)): |
| 73 | oFile.write(conditions[i] + "\t" + lines[i] + '\n') | 74 | oFile.write(conditions[i] + "\t" + lines[i] + '\n') |
| 74 | 75 | ||
| 75 | - print("\nArchivo de contenidos de una sola palabra ha sido generado. NOTA: Se han excluido letras griegas.\nNombre del archivo:" + str(args.iFile[:-4]) + "_1Word_NoGreek.txt\n") | 76 | + print("\nArchivo de contenidos de una sola palabra ha sido generado. NOTA: Se han excluido letras NO alfanumericas.\nNombre del archivo: OneWord_Alphanum.txt\n") |
| 76 | 77 | ||
| 77 | print("#######################\n# SEGUNDO ARCHIVO #\n#######################") | 78 | print("#######################\n# SEGUNDO ARCHIVO #\n#######################") |
| 78 | conditions_2 = [] | 79 | conditions_2 = [] |
| 79 | lines_2 = [] | 80 | lines_2 = [] |
| 80 | # Se abre el segundo archivo | 81 | # Se abre el segundo archivo |
| 81 | - with open (os.path.join(args.outputPath,str(args.iFile[:-4]) + "_Words_NoGreek.txt"), "w+") as oFile: | 82 | + with open (os.path.join(args.outputPath,"MultWord_Alphanum.txt"), "w+") as oFile: |
| 82 | for index, row in file.iterrows(): | 83 | for index, row in file.iterrows(): |
| 83 | # La bandera en 1 indica que ninguna palabra de la primer columna tiene caracteres NO alfanumericos | 84 | # La bandera en 1 indica que ninguna palabra de la primer columna tiene caracteres NO alfanumericos |
| 84 | # La bandera en 0 indica que al menos una palabra tienes caracteres NO alfanumericos. | 85 | # La bandera en 0 indica que al menos una palabra tienes caracteres NO alfanumericos. |
| 85 | bandera = 1 | 86 | bandera = 1 |
| 86 | # Con el for se va a verificando la presencia de caracteres alfanumericos en cada palabra de la primera columna | 87 | # Con el for se va a verificando la presencia de caracteres alfanumericos en cada palabra de la primera columna |
| 87 | for i in range(0, len(row[0].split(" "))): | 88 | for i in range(0, len(row[0].split(" "))): |
| 88 | - if alphanum_and_NOGreek(str(row[0].split(" ")[i])) == False: | 89 | + if len(row[0].split(" ")) != 1 and alphanum_and_NOGreek(str(row[0].split(" ")[i])) == False: |
| 89 | bandera = 0 | 90 | bandera = 0 |
| 90 | if bandera == 1: | 91 | if bandera == 1: |
| 91 | conditions_2.append(row[0]) | 92 | conditions_2.append(row[0]) |
| ... | @@ -94,13 +95,13 @@ if __name__ == '__main__': | ... | @@ -94,13 +95,13 @@ if __name__ == '__main__': |
| 94 | for i in range(len(lines_2)): | 95 | for i in range(len(lines_2)): |
| 95 | oFile.write(conditions_2[i] + "\t" + lines_2[i] + '\n') | 96 | oFile.write(conditions_2[i] + "\t" + lines_2[i] + '\n') |
| 96 | 97 | ||
| 97 | - print("\nArchivo de contenidos de varias palabras ha sido generado. NOTA: Se han excluido letras griegas.\nNombre del archivo:" + str(args.iFile[:-4]) + "SeveralWords_NoGreek_Filter\n") | 98 | + print("\nArchivo de contenidos de varias palabras ha sido generado. NOTA: Se han excluido letras NO alfanumericas.\nNombre del archivo: MultWord_Alphanum.txt") |
| 98 | 99 | ||
| 99 | print("######################\n# TERCER ARCHIVO #\n######################") | 100 | print("######################\n# TERCER ARCHIVO #\n######################") |
| 100 | conditions_3 = [] | 101 | conditions_3 = [] |
| 101 | lines_3 = [] | 102 | lines_3 = [] |
| 102 | # Se abre el tercer archivo | 103 | # Se abre el tercer archivo |
| 103 | - with open (os.path.join(args.outputPath,str(args.iFile[:-4]) + "_1Word_Greek.txt"), "w+") as oFile: | 104 | + with open (os.path.join(args.outputPath,"OneWord_NOAlphanum.txt"), "w+") as oFile: |
| 104 | for index, row in file.iterrows(): | 105 | for index, row in file.iterrows(): |
| 105 | # Se verifica que la primer columna sea unipalabra. | 106 | # Se verifica que la primer columna sea unipalabra. |
| 106 | if len(row[0].split(" ")) == 1: | 107 | if len(row[0].split(" ")) == 1: |
| ... | @@ -110,4 +111,20 @@ if __name__ == '__main__': | ... | @@ -110,4 +111,20 @@ if __name__ == '__main__': |
| 110 | for i in range(len(lines_3)): | 111 | for i in range(len(lines_3)): |
| 111 | oFile.write(conditions_3[i] + "\t" + lines_3[i] + '\n') | 112 | oFile.write(conditions_3[i] + "\t" + lines_3[i] + '\n') |
| 112 | 113 | ||
| 113 | - print("\nArchivo de contenidos de una palabra ha sido generado:.nNombre del archivo:" + str(args.iFile[:-4]) + "SeveralWords_Greek_Filter\n") | ||
| ... | \ No newline at end of file | ... | \ No newline at end of file |
| 114 | + print("\nArchivo de contenidos de una palabra ha sido generado.\nNombre del archivo: OneWord_NOAlphanum.txt\n") | ||
| 115 | + | ||
| 116 | + print("#######################\n# CUARTO ARCHIVO #\n#######################") | ||
| 117 | + conditions_4 = [] | ||
| 118 | + lines_4 = [] | ||
| 119 | + # Se abre el cuarto archivo | ||
| 120 | + with open (os.path.join(args.outputPath,"MultWord_NOAlphanum.txt"), "w+") as oFile: | ||
| 121 | + for index, row in file.iterrows(): | ||
| 122 | + # Se verifica que la primer columna sea multipalabra. | ||
| 123 | + if len(row[0].split(" ")) != 1: | ||
| 124 | + conditions_4.append(row[0]) | ||
| 125 | + lines_4.append(row[1]) | ||
| 126 | + # Se escriben en el primer archivo aquellos valores que cumplen las condiciones. | ||
| 127 | + for i in range(len(lines_4)): | ||
| 128 | + oFile.write(conditions_4[i] + "\t" + lines_4[i] + '\n') | ||
| 129 | + | ||
| 130 | + print("\nArchivo de contenidos de varias palabras ha sido generado.\nNombre del archivo: MultWord_NOAlphanum.txt") | ||
| ... | \ No newline at end of file | ... | \ No newline at end of file | ... | ... |
-
Please register or login to post a comment