DeepResearchEvaluator

Running on CPU Upgrade

App Files Files Community

awacke1 commited on Dec 31, 2024

Commit

6641937

verified ·

1 Parent(s): 8ea4fb3

Update app.py

Browse files

Files changed (1) hide show

app.py +99 -10

app.py CHANGED Viewed

@@ -165,7 +165,6 @@ def generate_filename(prompt, response, file_type="md"):
     snippet_cleaned = clean_text_for_filename(snippet)
     # Combine info terms and snippet
-    # Prioritize info terms in front
     name_parts = info_terms + [snippet_cleaned]
     full_name = '_'.join(name_parts)
@@ -271,7 +270,8 @@ def process_video(video_path, seconds_per_frame=1):
     for i in range(0, total, skip):
         vid.set(cv2.CAP_PROP_POS_FRAMES, i)
         ret, frame = vid.read()
-        if not ret: break
         _, buf = cv2.imencode(".jpg", frame)
         frames_b64.append(base64.b64encode(buf).decode("utf-8"))
     vid.release()
@@ -298,18 +298,72 @@ def save_full_transcript(query, text):
     """Save full transcript of Arxiv results as a file."""
     create_file(query, text, "md")
-def perform_ai_lookup(q, vocal_summary=True, extended_refs=False, titles_summary=True, full_audio=False):
-    """Perform Arxiv search and generate audio summaries"""
     start = time.time()
     client = Client("awacke1/Arxiv-Paper-Search-And-QA-RAG-Pattern")
     refs = client.predict(q,20,"Semantic Search","mistralai/Mixtral-8x7B-Instruct-v0.1",api_name="/update_with_rag_md")[0]
     r2 = client.predict(q,"mistralai/Mixtral-8x7B-Instruct-v0.1",True,api_name="/ask_llm")
     result = f"### 🔎 {q}\n\n{r2}\n\n{refs}"
     st.markdown(result)
-    # Generate full audio version if requested
     if full_audio:
         complete_text = f"Complete response for query: {q}. {clean_for_speech(r2)} {clean_for_speech(refs)}"
         audio_file_full = speak_with_edge_tts(complete_text)
@@ -329,7 +383,41 @@ def perform_ai_lookup(q, vocal_summary=True, extended_refs=False, titles_summary
         st.write("### 📜 Long Refs")
         play_and_download_audio(audio_file_refs)
     if titles_summary:
         titles = []
         for line in refs.split('\n'):
             m = re.search(r"\[([^\]]+)\]", line)
@@ -339,7 +427,7 @@ def perform_ai_lookup(q, vocal_summary=True, extended_refs=False, titles_summary
             titles_text = "Titles: " + ", ".join(titles)
             titles_text = clean_for_speech(titles_text)
             audio_file_titles = speak_with_edge_tts(titles_text)
-            st.write("### 🔖 Titles")
             play_and_download_audio(audio_file_titles)
     elapsed = time.time()-start
@@ -352,7 +440,8 @@ def perform_ai_lookup(q, vocal_summary=True, extended_refs=False, titles_summary
 def process_with_gpt(text):
     """Process text with GPT-4"""
-    if not text: return
     st.session_state.messages.append({"role":"user","content":text})
     with st.chat_message("user"):
         st.markdown(text)
@@ -370,7 +459,8 @@ def process_with_gpt(text):
 def process_with_claude(text):
     """Process text with Claude"""
-    if not text: return
     with st.chat_message("user"):
         st.markdown(text)
     with st.chat_message("assistant"):
@@ -568,7 +658,6 @@ def main():
             if full_transcript:
                 save_full_transcript(q_new, result)
     elif tab_main == "🎤 Voice":
         st.subheader("🎤 Voice Input")
         user_text = st.text_area("💬 Message:", height=100)

     snippet_cleaned = clean_text_for_filename(snippet)
     # Combine info terms and snippet
     name_parts = info_terms + [snippet_cleaned]
     full_name = '_'.join(name_parts)
     for i in range(0, total, skip):
         vid.set(cv2.CAP_PROP_POS_FRAMES, i)
         ret, frame = vid.read()
+        if not ret:
+            break
         _, buf = cv2.imencode(".jpg", frame)
         frames_b64.append(base64.b64encode(buf).decode("utf-8"))
     vid.release()
     """Save full transcript of Arxiv results as a file."""
     create_file(query, text, "md")
+# ------------------------------
+# NEW: Helper to parse references
+# ------------------------------
+def parse_arxiv_refs(ref_text: str):
+    """
+    Parse the multi-line references returned by the RAG pipeline.
+    Typical format lines like:
+       1) [Paper Title 2023] This is the summary ...
+       2) [Another Title (2024)] Another summary text ...
+    We'll attempt to find a year with a small regex or fallback.
+    Return list of dicts: { 'title': str, 'summary': str, 'year': int or None }
+    """
+    lines = ref_text.split('\n')
+    results = []
+    for line in lines:
+        line = line.strip()
+        if not line:
+            continue
+        # Attempt to find [Title ...]
+        title_match = re.search(r"\[([^\]]+)\]", line)
+        if title_match:
+            raw_title = title_match.group(1).strip()
+        else:
+            # If no bracket found, skip or treat entire line as summary
+            raw_title = "No Title"
+        # Attempt to find trailing summary after bracket
+        # Example line: " [Paper Title 2024] Paper summary blah blah"
+        # So remove the bracketed portion from the line
+        remainder = line.replace(title_match.group(0), "").strip() if title_match else line
+        summary = remainder
+        # Attempt to guess year from the raw title
+        # We look for 4-digit patterns in raw_title or summary
+        year_match = re.search(r'(20\d{2})', raw_title)
+        if not year_match:
+            # fallback: try summary
+            year_match = re.search(r'(20\d{2})', summary)
+        if year_match:
+            year = int(year_match.group(1))
+        else:
+            year = None
+        results.append({
+            'title': raw_title,
+            'summary': summary,
+            'year': year
+        })
+    return results
+def perform_ai_lookup(q, vocal_summary=True, extended_refs=False,
+                      titles_summary=True, full_audio=False):
+    """Perform Arxiv search and generate audio summaries."""
     start = time.time()
+    # 🎯 1) Query the HF RAG pipeline
     client = Client("awacke1/Arxiv-Paper-Search-And-QA-RAG-Pattern")
     refs = client.predict(q,20,"Semantic Search","mistralai/Mixtral-8x7B-Instruct-v0.1",api_name="/update_with_rag_md")[0]
     r2 = client.predict(q,"mistralai/Mixtral-8x7B-Instruct-v0.1",True,api_name="/ask_llm")
+    # 🎯 2) Combine for final text output
     result = f"### 🔎 {q}\n\n{r2}\n\n{refs}"
     st.markdown(result)
+    # 🎯 3) Generate "all at once" audio if requested
     if full_audio:
         complete_text = f"Complete response for query: {q}. {clean_for_speech(r2)} {clean_for_speech(refs)}"
         audio_file_full = speak_with_edge_tts(complete_text)
         st.write("### 📜 Long Refs")
         play_and_download_audio(audio_file_refs)
+    # --------------------------------------
+    # NEW: Parse references, show sorted list
+    # --------------------------------------
+    parsed_refs = parse_arxiv_refs(refs)
+    # Sort by year descending (put None at bottom)
+    # If you want to skip older than 2022, you can filter them:
+    # parsed_refs = [r for r in parsed_refs if (r["year"] is not None and r["year"] >= 2022)]
+    parsed_refs.sort(key=lambda x: x["year"] if x["year"] else 0, reverse=True)
+    st.write("## Individual Papers (Most Recent First)")
+    for idx, paper in enumerate(parsed_refs):
+        year_str = paper["year"] if paper["year"] else "Unknown Year"
+        st.markdown(f"**{idx+1}. {paper['title']}**  \n*Year:* {year_str}")
+        st.markdown(f"*Summary:* {paper['summary']}")
+        # Two new TTS buttons: Title only or Title+Summary
+        colA, colB = st.columns(2)
+        with colA:
+            if st.button(f"🔊 Title", key=f"title_{idx}"):
+                text_tts = clean_for_speech(paper['title'])
+                audio_file_title = speak_with_edge_tts(text_tts)
+                play_and_download_audio(audio_file_title)
+        with colB:
+            if st.button(f"🔊 Title+Summary", key=f"summary_{idx}"):
+                text_tts = clean_for_speech(paper['title'] + ". " + paper['summary'])
+                audio_file_title_summary = speak_with_edge_tts(text_tts)
+                play_and_download_audio(audio_file_title_summary)
+        st.write("---")
+    # Keep your original block for "Titles Only" if you want:
     if titles_summary:
+        # This is your existing code block
         titles = []
         for line in refs.split('\n'):
             m = re.search(r"\[([^\]]+)\]", line)
             titles_text = "Titles: " + ", ".join(titles)
             titles_text = clean_for_speech(titles_text)
             audio_file_titles = speak_with_edge_tts(titles_text)
+            st.write("### 🔖 Titles (All-In-One)")
             play_and_download_audio(audio_file_titles)
     elapsed = time.time()-start
 def process_with_gpt(text):
     """Process text with GPT-4"""
+    if not text:
+        return
     st.session_state.messages.append({"role":"user","content":text})
     with st.chat_message("user"):
         st.markdown(text)
 def process_with_claude(text):
     """Process text with Claude"""
+    if not text:
+        return
     with st.chat_message("user"):
         st.markdown(text)
     with st.chat_message("assistant"):
             if full_transcript:
                 save_full_transcript(q_new, result)
     elif tab_main == "🎤 Voice":
         st.subheader("🎤 Voice Input")
         user_text = st.text_area("💬 Message:", height=100)