Spaces:

GIZ
/

audit_assistant

Running on T4

ppsingh commited on Aug 7, 2024

Commit

0a5f808

verified ·

1 Parent(s): fd70dcf

Update auditqa/doc_process.py

Files changed (1) hide show

auditqa/doc_process.py CHANGED Viewed

@@ -45,17 +45,18 @@ def process_pdf():
     categories = list(files.keys())
     # iterate through 'source'
     for category in categories:
-        print(category)
         all_documents[category] = []
         subtypes = list(files[category].keys())
         # iterate through 'subtype' within the source
         # example source/category == 'District', has subtypes which is district names
         for subtype in subtypes:
-            print(subtype)
             for file in files[category][subtype]:
                 # create the chunks
                 doc_processed = text_splitter.split_documents(docs[file])
                 # add metadata information
                 for doc in doc_processed:
@@ -69,6 +70,7 @@ def process_pdf():
     # convert list of list to flat list
     for key, docs_processed in all_documents.items():
         docs_processed = [item for sublist in docs_processed for item in sublist]
         all_documents[key] = docs_processed
     all_documents['allreports'] = [sublist for key,sublist in all_documents.items()]
     all_documents['allreports'] = [item for sublist in all_documents['allreports'] for item in sublist]
@@ -90,7 +92,7 @@ def process_pdf():
             location=":memory:",
             collection_name=file,
         )
     print("vector embeddings done")
     return qdrant_collections

     categories = list(files.keys())
     # iterate through 'source'
     for category in categories:
+        print("documents splitting in source:",category)
         all_documents[category] = []
         subtypes = list(files[category].keys())
         # iterate through 'subtype' within the source
         # example source/category == 'District', has subtypes which is district names
         for subtype in subtypes:
+            print("document splitting for subtype:",subtype)
             for file in files[category][subtype]:
                 # create the chunks
                 doc_processed = text_splitter.split_documents(docs[file])
+                print("chunks in subtype:",subtype, "are:",len(doc_processed))
                 # add metadata information
                 for doc in doc_processed:
     # convert list of list to flat list
     for key, docs_processed in all_documents.items():
         docs_processed = [item for sublist in docs_processed for item in sublist]
+        print("length of chunks in source:",source, "are:",len(docs_processed)
         all_documents[key] = docs_processed
     all_documents['allreports'] = [sublist for key,sublist in all_documents.items()]
     all_documents['allreports'] = [item for sublist in all_documents['allreports'] for item in sublist]
             location=":memory:",
             collection_name=file,
         )
+    print(qdrant_collections)
     print("vector embeddings done")
     return qdrant_collections