0% found this document useful (0 votes)

16 views

multimodel_text

Uploaded by

dksk0945

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

multimodel_text

Uploaded by

dksk0945

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 9

import sys

print(sys.executable)

from unstructured.partition.pdf import partition_pdf

raw_pdf_elements=partition_pdf(
filename="RAG_NLP.pdf",
strategy="hi_res",
extract_images_in_pdf=True,
extract_image_block_types=["Image", "Table"],
extract_image_block_to_payload=False,
extract_image_block_output_dir="extracted_data"
)

raw_pdf_elements

Header=[]
Footer=[]
Title=[]
NarrativeText=[]
Text=[]
ListItem=[]

for element in raw_pdf_elements:

if "unstructured.documents.elements.Header" in str(type(element)):
Header.append(str(element))
elif "unstructured.documents.elements.Footer" in str(type(element)):
Footer.append(str(element))
elif "unstructured.documents.elements.Title" in str(type(element)):
Title.append(str(element))
elif "unstructured.documents.elements.NarrativeText" in str(type(element)):
NarrativeText.append(str(element))
elif "unstructured.documents.elements.Text" in str(type(element)):
Text.append(str(element))
elif "unstructured.documents.elements.ListItem" in str(type(element)):
ListItem.append(str(element))

NarrativeText

ListItem

img=[]
for element in raw_pdf_elements:
if "unstructured.documents.elements.Image" in str(type(element)):
img.append(str(element))

img

len(img)

tab=[]
for element in raw_pdf_elements:
if "unstructured.documents.elements.Table" in str(type(element)):
tab.append(str(element))

tab

len(tab)

from langchain.llms import Ollama

ollama = Ollama(model="llama3.1")
print(ollama("who are you ?"))

from langchain_core.output_parsers import StrOutputParser

from langchain_core.prompts import ChatPromptTemplate

prompt_text = """You are an assistant tasked with summarizing tables for retrieval.
\
These summaries will be embedded and used to retrieve the raw table elements. \
Give a concise summary of the table that is well optimized for retrieval. Table
{element} """

prompt = ChatPromptTemplate.from_template(prompt_text)

summarize_chain = {"element": lambda x: x} | prompt | ollama | StrOutputParser()

table_summaries = []

table_summaries=summarize_chain.batch(tab,{"max_concurrency": 5})

tab[0]

table_summaries[0]

import base64
import os
from groq import Groq

os.environ["GROQ_API_KEY"] =
"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"

def encode_image(image_path):
"""Getting the base64 string"""
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")
def image_summarize(image_path, prompt):
"""Summarize the image using Groq's llama-3.2-11b-vision-preview model."""

# Initialize Groq client

client = Groq()

# Encode image
base64_image = encode_image(image_path)

# Create a chat completion request with Groq

response = client.chat.completions.create(
model="llama-3.2-11b-vision-preview",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{"type": "image_url", "image_url": {"url":
f"data:image/jpeg;base64,{base64_image}"}}
]
}
],
temperature=0.5,
max_tokens=1024,
top_p=1,
stream=False,
stop=None
)

# Return the assistant's response, handling potential issues

return response.choices[0].message.content if response.choices else "No
response received from Groq API."

def generate_img_summaries(path):
"""
Generate summaries and base64 encoded strings for images.
path: Path to list of .jpg files extracted by Unstructured
"""
img_base64_list = []
image_summaries = []

# Prompt for summarizing images

prompt = """ Analyze the image and provide a factual description of its
content.
Identify any visible text, objects, or figures in the image, and
summarize the main theme or topic.
without any additional information on image summarization techniques.
If the image includes multiple components, describe each component
concisely.
"""
# Generate base64 encoded image and summary
base64_image = encode_image(path)
img_base64_list.append(base64_image)
image_summaries.append(image_summarize(path, prompt))

return img_base64_list, image_summaries

import os

print(os.listdir("extracted_data"))

fpath="extracted_data/figure-2-1.jpg"

img_base64_list,image_summaries=generate_img_summaries(fpath)

image_summaries[0]

len(tab)

from langchain.llms import Ollama

ollama = Ollama(model="llama3.1")
print(ollama("who are you ?"))

from langchain_core.output_parsers import StrOutputParser

from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template(prompt_text)

summarize_chain = {"element": lambda x: x} | prompt | ollama | StrOutputParser()

table_summaries = []

table_summaries=summarize_chain.batch(tab,{"max_concurrency": 5})

tab[0]

table_summaries[0]

import base64
import os
from groq import Groq
os.environ["GROQ_API_KEY"] =
"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"

def encode_image(image_path):
"""Getting the base64 string"""
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")

def image_summarize(image_path, prompt):

"""Summarize the image using Groq's llama-3.2-11b-vision-preview model."""

# Initialize Groq client

client = Groq()

# Encode image
base64_image = encode_image(image_path)

# Create a chat completion request with Groq

# Return the assistant's response, handling potential issues

return response.choices[0].message.content if response.choices else "No
response received from Groq API."

# Prompt for summarizing images

return img_base64_list, image_summaries

import os

print(os.listdir("extracted_data"))

fpath="extracted_data/figure-2-1.jpg"

img_base64_list,image_summaries=generate_img_summaries(fpath)

image_summaries[0]

import uuid

from langchain.retrievers.multi_vector import MultiVectorRetriever

from langchain.storage import InMemoryStore
from langchain_community.vectorstores import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

def create_multi_vector_retriever(vectorstore, text_summaries, texts,

table_summaries, tables, image_summaries, images):
"""
Create retriever that indexes summaries, but returns raw images or texts
"""

# Initialize the storage layer

store = InMemoryStore()
id_key = "doc_id"

# Create the multi-vector retriever

retriever = MultiVectorRetriever(
vectorstore=vectorstore,
docstore=store,
id_key=id_key,
)

# Helper function to add documents to the vectorstore and docstore

def add_documents(retriever, doc_summaries, doc_contents):

doc_ids = [str(uuid.uuid4()) for _ in doc_contents]

summary_docs = [
Document(page_content=s, metadata={id_key: doc_ids[i]})
for i, s in enumerate(doc_summaries)
]

retriever.vectorstore.add_documents(summary_docs)
retriever.docstore.mset(list(zip(doc_ids, doc_contents)))

# Add texts, tables, and images

# Check that text_summaries is not empty before adding
if text_summaries:
add_documents(retriever, text_summaries, texts)
# Check that table_summaries is not empty before adding
if table_summaries:
add_documents(retriever, table_summaries, tab)
# Check that image_summaries is not empty before adding
if image_summaries:
add_documents(retriever, image_summaries, img)

return retriever

vectorstore = Chroma(
collection_name="mm_rag", embedding_function=OpenAIEmbeddings()
)

# Create retriever
retriever_multi_vector_img = create_multi_vector_retriever(
vectorstore,
text_summaries,
Text,
table_summaries,
Table,
image_summaries,
img_base64_list,
)

retriever_multi_vector_img

import io
import re

from IPython.display import HTML, display

from PIL import Image

def plt_img_base64(img_base64):
"""Disply base64 encoded string as image"""
# Create an HTML img tag with the base64 string as the source
image_html = f''
# Display the image by rendering the HTML
display(HTML(image_html))

plt_img_base64(img_base64_list[1])
image_summaries[1]

def looks_like_base64(sb):
"""Check if the string looks like base64"""
return re.match("^[A-Za-z0-9+/]+[=]{0,2}$", sb) is not None

def is_image_data(b64data):
"""
Check if the base64 data is an image by looking at the start of the data
"""
image_signatures = {
b"\xFF\xD8\xFF": "jpg",
b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
b"\x47\x49\x46\x38": "gif",
b"\x52\x49\x46\x46": "webp",
}
try:
header = base64.b64decode(b64data)[:8] # Decode and get the first 8 bytes
for sig, format in image_signatures.items():
if header.startswith(sig):
return True
return False
except Exception:
return False

def resize_base64_image(base64_string, size=(128, 128)):

"""
Resize an image encoded as a Base64 string
"""
# Decode the Base64 string
img_data = base64.b64decode(base64_string)
img = Image.open(io.BytesIO(img_data))

# Resize the image

resized_img = img.resize(size, Image.LANCZOS)

# Save the resized image to a bytes buffer

buffered = io.BytesIO()
resized_img.save(buffered, format=img.format)

# Encode the resized image to Base64

return base64.b64encode(buffered.getvalue()).decode("utf-8")

def split_image_text_types(docs):
"""
Split base64-encoded images and texts
"""
b64_images = []
texts = []

for doc in docs:

# Check if the document is of type Document and extract page_content if so
if isinstance(doc, Document):
doc = doc.page_content
if looks_like_base64(doc) and is_image_data(doc):
doc = resize_base64_image(doc, size=(1300, 600))
b64_images.append(doc)
else:
texts.append(doc)

return {"images": b64_images, "texts": texts}

def img_prompt_func(data_dict):
"""
Join the context into a single string
"""
#print(data_dict)
formatted_texts = "\n".join(data_dict["context"]["texts"])
messages = []

# Adding image(s) to the messages if present

if data_dict["context"]["images"]:
for image in data_dict["context"]["images"]:
image_message = {
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image}"},
}
messages.append(image_message)

# Adding the text for analysis

text_message = {
"type": "text",
"text": (
"You are a helpful assistant.\n"
"You will be given a mixed info(s) .\n"
"Use this information to provide relevant information to the user
question. \n"
f"User-provided question: {data_dict['question']}\n\n"
"Text and / or tables:\n"
f"{formatted_texts}"
),
}
messages.append(text_message)
return [HumanMessage(content=messages)]

PW500 Pilot Brief Notes
100% (3)
PW500 Pilot Brief Notes
32 pages
Summer Training Project Report - PLC
84% (19)
Summer Training Project Report - PLC
28 pages
MultiModel-RAG
No ratings yet
MultiModel-RAG
18 pages
Notes_By Kishor
No ratings yet
Notes_By Kishor
11 pages
Demo
No ratings yet
Demo
3 pages
Lab4 Image Generation
No ratings yet
Lab4 Image Generation
4 pages
Chatbot+Code
No ratings yet
Chatbot+Code
2 pages
Labsheet9
No ratings yet
Labsheet9
2 pages
F6Us9XWGTfenbcduDaGuFQ - Openai Workingcourse Dall e Intro To Dall e
No ratings yet
F6Us9XWGTfenbcduDaGuFQ - Openai Workingcourse Dall e Intro To Dall e
10 pages
zref
No ratings yet
zref
8 pages
20BCE1779 - Web Mining - Lab-4
No ratings yet
20BCE1779 - Web Mining - Lab-4
10 pages
Chatbot+Code
No ratings yet
Chatbot+Code
2 pages
p4
No ratings yet
p4
21 pages
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
From Everand
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
Abdelfattah Ragab
No ratings yet
QA_Using_Gemini_Langchain_ChromaDB_PDF
No ratings yet
QA_Using_Gemini_Langchain_ChromaDB_PDF
2 pages
Chatbot Code
No ratings yet
Chatbot Code
2 pages
Introduction
No ratings yet
Introduction
17 pages
gen ai 7,8,9,10
No ratings yet
gen ai 7,8,9,10
7 pages
Finxter OpenAI Python API
No ratings yet
Finxter OpenAI Python API
1 page
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
Python code explanation
No ratings yet
Python code explanation
4 pages
Agentic RAG_removed
No ratings yet
Agentic RAG_removed
9 pages
DOC-20241209-WA0029.
No ratings yet
DOC-20241209-WA0029.
11 pages
Gen AI - Prompt Engeneering
No ratings yet
Gen AI - Prompt Engeneering
160 pages
Sample Code
No ratings yet
Sample Code
9 pages
Inspiring Powershell Articles
From Everand
Inspiring Powershell Articles
Murat Yildirimoglu
No ratings yet
Ai Lab 02
No ratings yet
Ai Lab 02
12 pages
LLM Prcess
No ratings yet
LLM Prcess
7 pages
Python Scripts
No ratings yet
Python Scripts
5 pages
Extracting Text From Images With LangChain _ by Reflections on AI _ Nov, 2024 _ Python in Plain English
No ratings yet
Extracting Text From Images With LangChain _ by Reflections on AI _ Nov, 2024 _ Python in Plain English
22 pages
Self-RAG
No ratings yet
Self-RAG
12 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Practical no3
No ratings yet
Practical no3
8 pages
Video Api Endpoint N
No ratings yet
Video Api Endpoint N
7 pages
Prerequisites For All Programs: Install Required Packages
No ratings yet
Prerequisites For All Programs: Install Required Packages
5 pages
10 Lessons in Front-end
From Everand
10 Lessons in Front-end
Krasimir Tsonev
2/5 (1)
Essential n8n Playbook
From Everand
Essential n8n Playbook
Leandro Calado
No ratings yet
RAG with OpenAI for Financial Analysis
No ratings yet
RAG with OpenAI for Financial Analysis
11 pages
Setting Up A Simple OCR Server: by Real Python 37 Comments
No ratings yet
Setting Up A Simple OCR Server: by Real Python 37 Comments
8 pages
File
No ratings yet
File
14 pages
math solver
No ratings yet
math solver
2 pages
[English] Python RAG Tutorial (With Local LLMs)_ AI for Your PDFs [DownSub.com]
No ratings yet
[English] Python RAG Tutorial (With Local LLMs)_ AI for Your PDFs [DownSub.com]
15 pages
Langchain Onepager
No ratings yet
Langchain Onepager
1 page
Image Caption2
No ratings yet
Image Caption2
9 pages
Vision - OpenAI API
No ratings yet
Vision - OpenAI API
8 pages
Unlocking Rapid Data Extraction: Groq + OCR and Claude Vision - by Júlio Almeida - Python in Plain E
No ratings yet
Unlocking Rapid Data Extraction: Groq + OCR and Claude Vision - by Júlio Almeida - Python in Plain E
17 pages
PythonAI VisionModels ForSharing
No ratings yet
PythonAI VisionModels ForSharing
41 pages
React Portfolio App Development: Increase your online presence and create your personal brand
From Everand
React Portfolio App Development: Increase your online presence and create your personal brand
Abdelfattah Ragab
No ratings yet
Message
No ratings yet
Message
70 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Ds File
No ratings yet
Ds File
58 pages
trip_planner_example
No ratings yet
trip_planner_example
7 pages
Introducing Transformers Agents 20
No ratings yet
Introducing Transformers Agents 20
8 pages
Flowise AI Tutorial #3 File Loaders, Text Splitters, Embeddings & Vector Stores
No ratings yet
Flowise AI Tutorial #3 File Loaders, Text Splitters, Embeddings & Vector Stores
3 pages
download-pdf
No ratings yet
download-pdf
5 pages
Lab experiment 1 LLM
No ratings yet
Lab experiment 1 LLM
3 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
NgRx SignalStore: An effortless solution for state management
From Everand
NgRx SignalStore: An effortless solution for state management
Abdelfattah Ragab
No ratings yet
How To Analyze A PDF With The Layout-Parser Package. - by Brendan Ferris - Towards Data Science
No ratings yet
How To Analyze A PDF With The Layout-Parser Package. - by Brendan Ferris - Towards Data Science
3 pages
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
From Everand
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
Equity Press
No ratings yet
Azure For Starters
From Everand
Azure For Starters
Chinmoy Mukherjee
No ratings yet
25 Awesome Python Scripts
No ratings yet
25 Awesome Python Scripts
26 pages
NRS 048-2 (2004)
No ratings yet
NRS 048-2 (2004)
39 pages
Invitation To SCH
No ratings yet
Invitation To SCH
3 pages
1207A-ON Semiconductor
No ratings yet
1207A-ON Semiconductor
16 pages
Hampleton Partners M&A Report 1H2022 - Autotech Mobility
No ratings yet
Hampleton Partners M&A Report 1H2022 - Autotech Mobility
18 pages
Your Guide To Specifying Modular Buildings
No ratings yet
Your Guide To Specifying Modular Buildings
20 pages
CCS356 Oose Lab Manual 21 Reg
No ratings yet
CCS356 Oose Lab Manual 21 Reg
134 pages
Designing Shielded Enclosures PDF
100% (1)
Designing Shielded Enclosures PDF
42 pages
Project Management: Network Analysis (CPM & Pert)
No ratings yet
Project Management: Network Analysis (CPM & Pert)
15 pages
Diagrams Tier 1 (First Used On 1529, 1533 Up To 1562, 1564, 1565 and 1569)
No ratings yet
Diagrams Tier 1 (First Used On 1529, 1533 Up To 1562, 1564, 1565 and 1569)
40 pages
Dxxxx-690-960/1710-2690/1710-2690/1710-2690-65/65/65/65-15I/17.5I/17.5I/17.5I-M/M/M/M-R Easyret 8-Port Antenna With 4 Integrated Rcus - 1.4M Model: Aqu4518R14V07
100% (1)
Dxxxx-690-960/1710-2690/1710-2690/1710-2690-65/65/65/65-15I/17.5I/17.5I/17.5I-M/M/M/M-R Easyret 8-Port Antenna With 4 Integrated Rcus - 1.4M Model: Aqu4518R14V07
3 pages
Transact Explorer
No ratings yet
Transact Explorer
10 pages
Glacier Eazyrc 0830
No ratings yet
Glacier Eazyrc 0830
20 pages
Rotor Earth Fault Protection-New
No ratings yet
Rotor Earth Fault Protection-New
16 pages
A Project Report On
No ratings yet
A Project Report On
57 pages
AN5006-20 Small-Sized Integrated Access Device Quick Installation Guide (Version D)
No ratings yet
AN5006-20 Small-Sized Integrated Access Device Quick Installation Guide (Version D)
26 pages
APPA 103N-105N-106 - Manual
No ratings yet
APPA 103N-105N-106 - Manual
32 pages
Tapo C202 2.0_Datasheet (1)
No ratings yet
Tapo C202 2.0_Datasheet (1)
7 pages
680-165-08 MxPro5 Product Manual
No ratings yet
680-165-08 MxPro5 Product Manual
74 pages
Datawarehouse and ETL New Modul
No ratings yet
Datawarehouse and ETL New Modul
80 pages
Manual Label Unified Utility-II English Rev 1 10
No ratings yet
Manual Label Unified Utility-II English Rev 1 10
20 pages
Industrial Automation and Robotics
No ratings yet
Industrial Automation and Robotics
2 pages
TM 11-809-10 Radio Transmitters T 368 URT T 368A URT
No ratings yet
TM 11-809-10 Radio Transmitters T 368 URT T 368A URT
76 pages
Solid-State Drive (SSD) PDF
No ratings yet
Solid-State Drive (SSD) PDF
6 pages
Assignment 2 Digital Technology or Not
No ratings yet
Assignment 2 Digital Technology or Not
1 page
Thermo Scientific Truscan: Handheld Raman For Pharmaceutical Raw Material Identification
No ratings yet
Thermo Scientific Truscan: Handheld Raman For Pharmaceutical Raw Material Identification
2 pages
Comparing VMFS5 and VMFS6
No ratings yet
Comparing VMFS5 and VMFS6
3 pages
Mindray Resona I9 Brochure Rev B - CR46819
No ratings yet
Mindray Resona I9 Brochure Rev B - CR46819
4 pages
Business 20analyst PDF
No ratings yet
Business 20analyst PDF
5 pages

multimodel_text

Uploaded by

multimodel_text

Uploaded by

import sys

from unstructured.partition.pdf import partition_pdf

for element in raw_pdf_elements:

from langchain.llms import Ollama

from langchain_core.output_parsers import StrOutputParser

summarize_chain = {"element": lambda x: x} | prompt | ollama | StrOutputParser()

# Initialize Groq client

# Create a chat completion request with Groq

# Return the assistant's response, handling potential issues

# Prompt for summarizing images

return img_base64_list, image_summaries

from langchain.llms import Ollama

from langchain_core.output_parsers import StrOutputParser

summarize_chain = {"element": lambda x: x} | prompt | ollama | StrOutputParser()

def image_summarize(image_path, prompt):

# Initialize Groq client

# Create a chat completion request with Groq

# Return the assistant's response, handling potential issues

# Prompt for summarizing images

return img_base64_list, image_summaries

from langchain.retrievers.multi_vector import MultiVectorRetriever

def create_multi_vector_retriever(vectorstore, text_summaries, texts,

# Initialize the storage layer

# Create the multi-vector retriever

# Helper function to add documents to the vectorstore and docstore

doc_ids = [str(uuid.uuid4()) for _ in doc_contents]

# Add texts, tables, and images

from IPython.display import HTML, display

def resize_base64_image(base64_string, size=(128, 128)):

# Resize the image

# Save the resized image to a bytes buffer

# Encode the resized image to Base64

for doc in docs:

return {"images": b64_images, "texts": texts}

# Adding image(s) to the messages if present

# Adding the text for analysis

You might also like